Représentation de documents audiovisuels en Strates-Interconnectées par les Annotations pour l'exploitation contextuelle

Thèse de doctorat en Informatique
réalisée au Laboratoire d'Ingénierie des Systèmes d'Information, INSA de Lyon
par Yannick Prié
sous la direction d'Alain Mille (ERàPC CPE-Lyon) et Jean-Marie Pinon (LISI - INSA-Lyon)

Novembre 1996 - décembre 1999 (soutenance le 15/12/1999)


Quelques thèmes de recherche approchés au cours de cette thèse :

... avec en filigranne


Folio officiel

Jury

Marie-France Bruandet, Université Joseph-Fourier, Grenoble (rapporteur)Marc Nanard, CNAM, Paris (rapporteur)Bruno Bachimont, UTC Compiègne, Direction de la Recherche, INAFrançoise Chassaing, CCETT-CNET, RennesAlain Mille, LISA, CPE, LyonJean-Marie Pinon, LISI, INSA-Lyon

Résumé

La numérisation et la création numérique de flux audiovisuels (AV) permettent leur exploitation dans des systèmes d'information audiovisuels. Cela nécessite une modélisation et une instrumentation des contenus des documents AV qui en autorise l'accès direct et soit adaptée aux diverses utilisations possibles : recherche, indexation, navigation, etc. Après une revue des propositions actuelles de modélisation de documents AV, nous justifions quelques nécessités en vue de leur représentation. Nous proposons de représenter les documents AV en Strates Interconnectées par les Annotations (Strates-IA), c'est à dire d'" écrire " sur le flux à l'aide de termes (éléments d'annotation). Ceux-ci annotent des morceaux de flux (unités audiovisuelles), sont en relation entre eux, et sont instances d'éléments d'annotations abstraits décrits dans un graphe de relations conceptuelles. L'ensemble du système représente alors un graphe de connaissances global dans lequel nous définissons la notion de contexte comme extrémité de chemin contextuel et pour l'exploitation duquel nous décrivons divers outils contextuels basés sur la notion de graphe potentiel. Les graphes potentiels représentent des visées de description de l'utilisateur liées à ses tâches particulières. Ils s'instancient dans le graphe global (recherche d'isomorphismes de sous-graphes partiels) et nous en proposons un algorithme efficace de multi-propagation. Nous proposons également une modélisation dessystèmes documentaires permettant le stockage intelligent de l'expérience sous la forme de cas d'utilisation en vue d'une réutilisation pour l'assistance. Enfin, nous discutons plus généralement les rapports entre documents et connaissances.

Mots-clés

Modélisation de documents et contenus audiovisuels, représentation de connaissances, exploitation contextuelle, isomorphisme de sous-graphes, Strates Interconnectées par les Annotations, expérience d'utilisation


Lire la thèse in-extenso...

 Dans un navigateur,  la télécharger en pdf,   ou bien en postscript compressé.


...regarder les transparents de la soutenance...


...ou bien se contenter d'un peu plus de détails (avec quelques images)

Contexte

Le contexte de la thèse est le projet SESAME soutenu par le CCETT-CNET France Télécom, résultant de l'appel d'offres 96-ME-17, et lancé le 21 novembre 1996 pour une durée de trois ans. SESAME (Système d'Exploration de Séquences Audiovisuelles et Multimédia enrichi par l'Expérience) se donnait pour objectif d'étudier les possibilités offertes par l'exploitation de documents audiovisuels numériques sous les angles suivants : traitement d'image pour l'indexation ; distribution et accès parallèles à des données audiovisuelles ; bases de données audiovisuelles ; aide à l'utilisateur fondée sur l'expérience des sessions d'exploitation d'un système de recherche d'information audiovisuelle. Deux partenaires industriels étaient associés au projet,  l'INA Rhône-Alpes et France3 Rhône-Alpes-Auvergne.  

Ma recherche s'est déroulée sur cette dernière problématique,au sein des équipe Document et Aide à la Décision (DAD) du LISI et Raisonnement à Partir de Cas (ERàPC) du LISA, plus précisément sur lespoints suivants :

Il s'agissait donc de se placer au carrefour de plusieurs domaines de recherche (intelligence artificielle, recherche d'information documentaire, description documentaire, systèmes à base deconnaissances), afin d'essayer d'appréhender de façon globale le problème.

Déroulement et résultats

La thèse s'est tout d'abord déroulée autour des problématiques de la recherche d'information, de la prise en compte de l'expérience dans le raisonnement à partir de cas, et de l'indexation audiovisuelle. Sur la constatation qu'il n'existait pas de modèle de représentation suffisamment adapté à notre volonté de gérer connaissances documentaires et expérience d'utilisation, j'ai mis au point le modèle des Strates Interconnectées par les Annotations (Strates-IA).

Ce modèle est fondé sur une approche de stratification améliorée dans laquelle on considère le système dans son ensemble comme un graphe (voir un exemple) dont les sommets sont :

L'exploitation du graphe des Strates-IA se ramène à l'expression de contextes considérés comme extrémités de chemins dans ce graphe. Afin de décrire ces contextes, nous avons mis au point la notion de graphes potentiels, qui sont composés suivant les mêmes contraintes que le graphe du système, avec la possibilité supplémentaire de définir des sommets génériques (*). Les graphes potentiels, en tant que marques et signatures de la visée de contextualisation de l'utilisateur, peuvent se manipuler comme tels, être joints, étendus, etc.

Un graphe potentiel s'instancie (exemples d'instanciations) dans le graphe général s'il est possible de trouver un sous-graphe de celui-ci qui lui soit isomorphe, au sommets génériques près. Deux algorithmes (propagation récursive et multi-propagation) ont été mis au point pour l'instanciation de graphes potentiels, et bénéficient d'une limitation de l'espace de recherche raisonnable, qui consiste à considérer que tout graphe potentiel possède au moins un noeud parfaitement connu : soit une unité audiovisuelle connue, soit une élément d'annotation abstrait (unique par définition), soit un élément d'annotation explicitement spécifié par l'utilisateur.

Le modèle des Strates-IA permet de résoudre le conflit entre les approches de segmentation a priori et de stratification. Il permet de plus de prendre en compte les contextes audiovisuels, en considérant que toute annotation participe d'une structure, laquelle est support d'annotation contextuelle.

Un certain nombre d'outils de plus haut-niveau ont été construits à partir des graphes potentiels et permettent d'exploiter (en se fondant toujours sur les contextes) un système de Strates-IA. Tout d'abord, les dimensions d'analyse servent à regrouper des éléments d'annotation utiles pour une tâche d'annotation particulière. Diverses opérations de manipulation de dimensions d'analyse sont possibles (jonction, fusion, etc.). Une dimension d'analyse se résoud en dernier lieu - par instanciation des graphes potentiels dont elle est composée - en un ensemble d'éléments d'annotation abstraits à utiliser.

Les tâches d'utilisation d'un système d'information audiovisuelle (indexation, navigation, recherche, analyse, édition) se ramènent à une tâche de description de ces documents par un utilisateur. C'est pourquoi les schémas de description sont des graphes particuliers permettant de décrire des schémas d'annotation (unités audiovisuelles à créer, éléments d'annotation les annotant et contraintes sur leurs attributs, relations entre ces éléments). Les schémas de description utilisent naturellement les dimensions d'analyse, représentent des schémas locaux d'annotation et peuvent à ce titre fournir des graphes potentiels permettant d'interroger la base.

La thèse a donné lieu au développement de deux prototypes. Le premier prototype nous a permis de valider et de tester les différentes possibilités offertes par l'isomorphisme de sous-graphe comme support générique de l'inférence "contextuelle" que nous proposons (unix, C++, LEDA). Il souffre cependant de possibilités d'exploitation limitées. Le second prototype implante graphiquement l'ensemble des notions que nous avons présentées et fournit une base solide d'expérimentation (WindowsNT, C++, LEDA, xml4c). Il permet à l'heure actuelle de créer et gérer la base de connaissances, d'annoter de manière assez simple et en étant guidé par les dimensions d'analyse, d'exploiter les graphes potentiels pour les tâches de navigation et de recherche.

Discussion

Un résultat important de la recherche est le modèle des Strates-IApour la représentation de documents audiovisuels. Ce modèle autorise en effet une description libre ("écrite") des documents, sans accorder le moindre primat à une structure documentaire à partir de laquelle toute autre description devrait s'organiser. L'approche documentaire classique suppose en effet un type d'utilisation partagé par tous, et une manière de décrire qui ne l'est pas moins, ce qui d'une certaine manière contraint (voire fige) les protocoles d'indexation et de recherche. Dans notre cas, au contraire, l'objectif de réutilisation des descriptions dans le cadre de tâches variées nécessite un cadre de description homogène des contenus documentaires et une réutilisation contextuelle des descriptions. Le cadre fourni permet également d'envisager de façon raisonnée (c'est à dire selon un point de vue explicite) l'association des connaissances de haut et de bas-niveau d'abstraction.

Au delà de ces principes de modélisation extrêmement flexibles et puissants, un second résultat important est la proposition d'outils et de mécanismes génériques d'exploitation contextuelle des Strates-IA. Les graphes potentiels qui s'instancient dans le graphedes Strates-IA représentent un outil de base à partir duquel tous les autres sont construits. L'algorithme de multi-propagation pour l'instanciation de graphes potentiels que nous proposons possède quelques caractéristiques intéressantes, telle que celle d'être anytime et d'être piloté par une heuristique simple qu'il est possible de redéfinir. Les schémas de description nous permettent de fournir des guides sur la manière de décrire, et s'expriment de manière très semblable aux descriptions elles-mêmes. Il est ainsi aisé de passer des descriptions (réellement utilisées) aux schémas de descriptions abstraits qui pourront alors êtreorganisés et réutilisés. L'exploitation contextuelle des Strates-IA permet de plus de faire le lien entre la tâche et la volonté de l'utilisateur (non atteignables directement) et l'expression des celles-ci sous la forme de graphes potentiels c'est à dire de visées de contextualisation qui sont eux manipulables.

La proposition de compléter la description d'un système d'information documentaire à l'aide d'un modèle d'utilisation (par exemple celui des Strates-IA) et de modèles simplifiés mais explicites de tâches permet le stockage d'une expérience d'utilisation expliquée par des connaissances (par opposition à une trace "brute" sans référence à une base de connaissances) et ouvre des voies prometteuses pour l'aide à l'utilisateur fondée sur l'expérience.

Références

On trouvera les références des rapports semestriels du projet Sesame, ainsi que d'un certain nombre de publications liées à la thèse ici.