Représentation de documents audiovisuels en Strates-Interconnectées par les Annotations pour l'exploitation contextuelle
Thèse de doctorat en Informatique
réalisée au Laboratoire d'Ingénierie des Systèmes d'Information, INSA de Lyon
par Yannick Priésous la direction d'Alain Mille (ERàPC CPE-Lyon) et Jean-Marie Pinon (LISI - INSA-Lyon)
Novembre 1996 - décembre 1999 (soutenance le 15/12/1999)
Quelques thèmes de recherche approchés au cours de cette thèse :
- Systèmes d'information / recherche d'information,
- Documents multimédias et plus particulièrement audiovisuels,
- Modélisation de documents audiovisuels,
- Représentation de connaissances et documents,
- Contextes documentaires et utilisation contextuelle de documents,
- Expérience d'utilisation de systèmes d'information,
- Algorithmes de recherche d'information sous forme de graphes (semi-structurées).
... avec en filigranne
- Documents structurés et XML,
- Sémiotique de l'audiovisuel et du multimédia,
- Sciences Humaines et informatique (collaboration active avec des chercheurs de l'INA autour de la thématique de l'utilisation - actuelle et future - de documents audiovisuels dans les Sciences Humaines).
Folio officiel
Jury
Marie-France Bruandet, Université Joseph-Fourier, Grenoble (rapporteur)Marc Nanard, CNAM, Paris (rapporteur)Bruno Bachimont, UTC Compiègne, Direction de la Recherche, INAFrançoise Chassaing, CCETT-CNET, RennesAlain Mille, LISA, CPE, LyonJean-Marie Pinon, LISI, INSA-Lyon
Résumé
La numérisation et la création numérique de flux audiovisuels (AV) permettent leur exploitation dans des systèmes d'information audiovisuels. Cela nécessite une modélisation et une instrumentation des contenus des documents AV qui en autorise l'accès direct et soit adaptée aux diverses utilisations possibles : recherche, indexation, navigation, etc. Après une revue des propositions actuelles de modélisation de documents AV, nous justifions quelques nécessités en vue de leur représentation. Nous proposons de représenter les documents AV en Strates Interconnectées par les Annotations (Strates-IA), c'est à dire d'" écrire " sur le flux à l'aide de termes (éléments d'annotation). Ceux-ci annotent des morceaux de flux (unités audiovisuelles), sont en relation entre eux, et sont instances d'éléments d'annotations abstraits décrits dans un graphe de relations conceptuelles. L'ensemble du système représente alors un graphe de connaissances global dans lequel nous définissons la notion de contexte comme extrémité de chemin contextuel et pour l'exploitation duquel nous décrivons divers outils contextuels basés sur la notion de graphe potentiel. Les graphes potentiels représentent des visées de description de l'utilisateur liées à ses tâches particulières. Ils s'instancient dans le graphe global (recherche d'isomorphismes de sous-graphes partiels) et nous en proposons un algorithme efficace de multi-propagation. Nous proposons également une modélisation dessystèmes documentaires permettant le stockage intelligent de l'expérience sous la forme de cas d'utilisation en vue d'une réutilisation pour l'assistance. Enfin, nous discutons plus généralement les rapports entre documents et connaissances.
Mots-clés
Modélisation de documents et contenus audiovisuels, représentation de connaissances, exploitation contextuelle, isomorphisme de sous-graphes, Strates Interconnectées par les Annotations, expérience d'utilisation
Lire la thèse in-extenso...
Dans un navigateur, la télécharger en pdf, ou bien en postscript compressé.
...regarder les transparents de la soutenance...
...ou bien se contenter d'un peu plus de détails (avec quelques images)
Contexte
Le contexte de la thèse est le projet SESAME soutenu par le CCETT-CNET France Télécom, résultant de l'appel d'offres 96-ME-17, et lancé le 21 novembre 1996 pour une durée de trois ans. SESAME (Système d'Exploration de Séquences Audiovisuelles et Multimédia enrichi par l'Expérience) se donnait pour objectif d'étudier les possibilités offertes par l'exploitation de documents audiovisuels numériques sous les angles suivants : traitement d'image pour l'indexation ; distribution et accès parallèles à des données audiovisuelles ; bases de données audiovisuelles ; aide à l'utilisateur fondée sur l'expérience des sessions d'exploitation d'un système de recherche d'information audiovisuelle. Deux partenaires industriels étaient associés au projet, l'INA Rhône-Alpes et France3 Rhône-Alpes-Auvergne.
Ma recherche s'est déroulée sur cette dernière problématique,au sein des équipe Document et Aide à la Décision (DAD) du LISI et Raisonnement à Partir de Cas (ERàPC) du LISA, plus précisément sur lespoints suivants :
- la représentation de documents audiovisuels de façon à prendre en compte leurs caractéristiques essentielles, telle que la temporalité, la composante fortement visuelle, la multiplicité des analyses possibles (traitement du signal pour le calcul de primitives de description de bas-niveau d'abstraction, analyse de haut-niveau conceptuel) ;
- l'indexation pour la recherche d'information et l'utilisation de documents dans le cadre de tâches multiples (recherche simple pour la visualisation, analyse, réutilisation, etc.), lesquelles ne sont pas toutes prévues à l'indexation, par des utilisateurs qui tous diffèrent : la question est donc celle du partage de descriptions documentaires ;
- l'assistance aux diverses tâches d'exploitation des documents audiovisuels basées sur les descriptions des documents, et de façon plus générale l'exploitation de document fondée sur les connaissances documentaires, les rapports entre documents et connaissances.
Il s'agissait donc de se placer au carrefour de plusieurs domaines de recherche (intelligence artificielle, recherche d'information documentaire, description documentaire, systèmes à base deconnaissances), afin d'essayer d'appréhender de façon globale le problème.
Déroulement et résultats
La thèse s'est tout d'abord déroulée autour des problématiques de la recherche d'information, de la prise en compte de l'expérience dans le raisonnement à partir de cas, et de l'indexation audiovisuelle. Sur la constatation qu'il n'existait pas de modèle de représentation suffisamment adapté à notre volonté de gérer connaissances documentaires et expérience d'utilisation, j'ai mis au point le modèle des Strates Interconnectées par les Annotations (Strates-IA).
Ce modèle est fondé sur une approche de stratification améliorée dans laquelle on considère le système dans son ensemble comme un graphe (voir un exemple) dont les sommets sont :
- des unités audiovisuelles, représentant des morceaux de documents audiovisuels ;
- des éléments d'annotation, liés aux unités audiovisuelles par des arcs représentant des relations d'annotation, et contenant l'annotation de celles-ci. Les éléments d'annotation peuvent représenter n'importe quelle caractéristique audiovisuelle (à rapprocher des descripteurs de MPEG7), et sont liés entre eux par des relations élémentaires purement syntaxiques, qui permettent par extension de mettre en relation autres que temporelles les unités audiovisuelles ;
- et des éléments d'annotation abstraits}, organisés dans une base de connaissances (donc au minimum avec des relations de spécialisation/abstraction), et qui représentent le vocabulaire d'annotation. Les EAA sont en relation d'inscription dans le flux} avec les EA qu'ils décrivent.
L'exploitation du graphe des Strates-IA se ramène à l'expression de contextes considérés comme extrémités de chemins dans ce graphe. Afin de décrire ces contextes, nous avons mis au point la notion de graphes potentiels, qui sont composés suivant les mêmes contraintes que le graphe du système, avec la possibilité supplémentaire de définir des sommets génériques (*). Les graphes potentiels, en tant que marques et signatures de la visée de contextualisation de l'utilisateur, peuvent se manipuler comme tels, être joints, étendus, etc.
Un graphe potentiel s'instancie (exemples d'instanciations) dans le graphe général s'il est possible de trouver un sous-graphe de celui-ci qui lui soit isomorphe, au sommets génériques près. Deux algorithmes (propagation récursive et multi-propagation) ont été mis au point pour l'instanciation de graphes potentiels, et bénéficient d'une limitation de l'espace de recherche raisonnable, qui consiste à considérer que tout graphe potentiel possède au moins un noeud parfaitement connu : soit une unité audiovisuelle connue, soit une élément d'annotation abstrait (unique par définition), soit un élément d'annotation explicitement spécifié par l'utilisateur.
Le modèle des Strates-IA permet de résoudre le conflit entre les approches de segmentation a priori et de stratification. Il permet de plus de prendre en compte les contextes audiovisuels, en considérant que toute annotation participe d'une structure, laquelle est support d'annotation contextuelle.
Un certain nombre d'outils de plus haut-niveau ont été construits à partir des graphes potentiels et permettent d'exploiter (en se fondant toujours sur les contextes) un système de Strates-IA. Tout d'abord, les dimensions d'analyse servent à regrouper des éléments d'annotation utiles pour une tâche d'annotation particulière. Diverses opérations de manipulation de dimensions d'analyse sont possibles (jonction, fusion, etc.). Une dimension d'analyse se résoud en dernier lieu - par instanciation des graphes potentiels dont elle est composée - en un ensemble d'éléments d'annotation abstraits à utiliser.
Les tâches d'utilisation d'un système d'information audiovisuelle (indexation, navigation, recherche, analyse, édition) se ramènent à une tâche de description de ces documents par un utilisateur. C'est pourquoi les schémas de description sont des graphes particuliers permettant de décrire des schémas d'annotation (unités audiovisuelles à créer, éléments d'annotation les annotant et contraintes sur leurs attributs, relations entre ces éléments). Les schémas de description utilisent naturellement les dimensions d'analyse, représentent des schémas locaux d'annotation et peuvent à ce titre fournir des graphes potentiels permettant d'interroger la base.
La thèse a donné lieu au développement de deux prototypes. Le premier prototype nous a permis de valider et de tester les différentes possibilités offertes par l'isomorphisme de sous-graphe comme support générique de l'inférence "contextuelle" que nous proposons (unix, C++, LEDA). Il souffre cependant de possibilités d'exploitation limitées. Le second prototype implante graphiquement l'ensemble des notions que nous avons présentées et fournit une base solide d'expérimentation (WindowsNT, C++, LEDA, xml4c). Il permet à l'heure actuelle de créer et gérer la base de connaissances, d'annoter de manière assez simple et en étant guidé par les dimensions d'analyse, d'exploiter les graphes potentiels pour les tâches de navigation et de recherche.
Discussion
Un résultat important de la recherche est le modèle des Strates-IApour la représentation de documents audiovisuels. Ce modèle autorise en effet une description libre ("écrite") des documents, sans accorder le moindre primat à une structure documentaire à partir de laquelle toute autre description devrait s'organiser. L'approche documentaire classique suppose en effet un type d'utilisation partagé par tous, et une manière de décrire qui ne l'est pas moins, ce qui d'une certaine manière contraint (voire fige) les protocoles d'indexation et de recherche. Dans notre cas, au contraire, l'objectif de réutilisation des descriptions dans le cadre de tâches variées nécessite un cadre de description homogène des contenus documentaires et une réutilisation contextuelle des descriptions. Le cadre fourni permet également d'envisager de façon raisonnée (c'est à dire selon un point de vue explicite) l'association des connaissances de haut et de bas-niveau d'abstraction.
Au delà de ces principes de modélisation extrêmement flexibles et puissants, un second résultat important est la proposition d'outils et de mécanismes génériques d'exploitation contextuelle des Strates-IA. Les graphes potentiels qui s'instancient dans le graphedes Strates-IA représentent un outil de base à partir duquel tous les autres sont construits. L'algorithme de multi-propagation pour l'instanciation de graphes potentiels que nous proposons possède quelques caractéristiques intéressantes, telle que celle d'être anytime et d'être piloté par une heuristique simple qu'il est possible de redéfinir. Les schémas de description nous permettent de fournir des guides sur la manière de décrire, et s'expriment de manière très semblable aux descriptions elles-mêmes. Il est ainsi aisé de passer des descriptions (réellement utilisées) aux schémas de descriptions abstraits qui pourront alors êtreorganisés et réutilisés. L'exploitation contextuelle des Strates-IA permet de plus de faire le lien entre la tâche et la volonté de l'utilisateur (non atteignables directement) et l'expression des celles-ci sous la forme de graphes potentiels c'est à dire de visées de contextualisation qui sont eux manipulables.
La proposition de compléter la description d'un système d'information documentaire à l'aide d'un modèle d'utilisation (par exemple celui des Strates-IA) et de modèles simplifiés mais explicites de tâches permet le stockage d'une expérience d'utilisation expliquée par des connaissances (par opposition à une trace "brute" sans référence à une base de connaissances) et ouvre des voies prometteuses pour l'aide à l'utilisateur fondée sur l'expérience.
Références
On trouvera les références des rapports semestriels du projet Sesame, ainsi que d'un certain nombre de publications liées à la thèse ici.