Next: Vers un système d'information Up: Contexte général de la Previous: Contexte général de la

Sous-sections

Introduction générale

Contexte de la recherche

Le projet SESAME

C'est sur la constatation que la puissance des ordinateurs, les capacités de stockage les normes de compression et les débits de réseaux permettraient dans un futur proche de diffuser et d'exploiter des documents audiovisuels numériques que le CNET-CCETT France Télécom (Centre National des Etudes en Télécommunication, Centre Commun d'Etudes en Télédiffusion et Télécommunications) a lancé en 1996 un appel d'offre dans la cadre d'une CTI (Concertation Thématique Informelle) sur le thème Indexation et recherche par le contenu pour les services multimédias.

Le projet SESAME (contrat 96-ME-17) est un des projets retenus et associe quatre laboratoires lyonnais¹, deux entreprises partenaires² ainsi qu'un partenaire technique³

.

SESAME (Système d'Exploration de Séquences Audiovisuelles et Multimédia enrichi par l'Expérience) se donnait pour objectif d'étudier les possibilités offertes par l'exploitation de documents audiovisuels numériques sous les angles suivants : traitement d'image pour l'indexation (RFV) ; distribution et accès parallèles à des données audiovisuelles (LIP) ; bases de données audiovisuelles (LISI) ; aide à l'utilisateur fondée sur l'expérience des sessions d'exploitation d'un système de recherche d'information audiovisuelle (LISA-LISI).

.

La recherche présentée dans ce mémoire s'est déroulée à partir du 20 novembre 1996 sous la direction conjointe de Alain Mille (LISA, CPE, équipe RàPC) et de Jean-Marie Pinon (LISI, INSA-Lyon) sur cette dernière problématique, avec un statut de chercheur contractuel de l'Insa de Lyon financé par le projet SESAME.

Problématique scientifique

Les objectifs du projet initial résument bien les enjeux scientifiques de la recherche menée, et le passage suivant tiré du dossier soumis au CNET dans le cadre de l'appel d'offre en définit les contours : << Le challenge est de réussir à ``indexer'' ces informations pour les retrouver efficacement en fonction de demandes qui peuvent être multimodales et varieront d'un contexte à l'autre, voire d'un individu à l'autre. Pour tracer les contours plus précis de la recherche impliquée par un tel objectif général, il convient d'analyser les différentes facettes du problème à résoudre pour réaliser un système correspondant à notre projet. [...] Certaines caractéristiques brutes (entités géométriques, qualité, etc.) peuvent être, en partie, extraites de l'examen des images, formant un jeu de descripteurs ``résumant'' les propriétés ``objectives'' de la séquence audiovisuelle. Une sémantique externe (par exemple un titre, des mots-clés, un résumé, etc.) peut être ajoutée par un opérateur. Ces deux niveaux sémantiques sont associés avec l'information brute dans la base de données [...] Il peut s'agir de points de vue que l'on pourrait qualifier de ``canoniques'', c'est à dire correspondant à une classe générique d'utilisateurs, ou de points de vue individuels. Les premiers peuvent faire appel à la modélisation, tandis que les seconds nécessitent de mémoriser la sémantique individuelle liée à l'information dans ce contexte, ce qui implique d'analyser la manière dont la recherche y est menée. [...] Il existe potentiellement autant de systèmes d'indexations secondaires qu'il existe de contextes pour les sémantiques de contenu (canoniques ou individuelles) [...] Un index peut être vu comme une extension de la base de séquences audiovisuelles devant permettre de retrouver ``efficacement'' les séquences elles-mêmes [...] L'utilisateur exploite les possibilités des index grâce à un moteur de recherche qui l'assiste dans sa tâche. La recherche est interactive et le moteur de restitution permet de rendre compte de l'avancement de la recherche (aperçus par exemple) et bien entendu de fournir l'accès à l'information quand elle est déterminée sans ambiguïté. [...] Le moteur de recherche doit élaborer ces informations à partir des indications fournies par l'utilisateur et des informations mises en correspondances dans les index. >>.

.

La problématique scientifique du travail de recherche s'articule donc autour de ces quelques problèmes :

la représentation de documents audiovisuels de façon à prendre en compte leurs caractéristiques essentielles, telle que la temporalité, la composante fortement visuelle, la multiplicité des analyses possibles (traitement du signal pour le calcul de primitives de description de bas-niveau d'abstraction, analyse de haut-niveau conceptuel) ;
l'indexation pour la recherche d'information et l'utilisation de documents dans le cadre de tâches multiples (recherche simple pour la visualisation, analyse, réutilisation, etc.), lesquelles ne sont pas toutes prévues à l'indexation, par des utilisateurs qui tous diffèrent : bref le partage de descriptions documentaires ;
l'assistance aux diverses tâches d'exploitation des documents audiovisuels basées sur les descriptions des documents, et de façon plus générale l'exploitation de document fondée sur les connaissances documentaires, les rapports entre documents et connaissances.

Déroulement et principaux résultats

Il s'agissait donc de se placer au carrefour de plusieurs domaines de recherche (intelligence artificielle, recherche d'information documentaire, description documentaire, systèmes à base de connaissances), afin d'essayer d'appréhender de façon globale le problème.

La thèse s'est tout d'abord déroulée autour des problématiques de la recherche d'information, de la prise en compte de l'expérience dans le raisonnement à partir de cas, et de l'indexation audiovisuelle. Sur la constatation qu'il n'existait pas de modèle de représentation suffisamment adapté à notre volonté de gérer connaissances documentaires et expérience d'utilisation, nous avons mis au point le modèle des Strates Interconnectées par les Annotations (Strates-IA). Ce modèle permet de résoudre le conflit entre les approches de segmentation a priori et de stratification. Il permet de plus de prendre en compte les contextes audiovisuels, en considérant que toute annotation participe d'une structure, laquelle est support d'annotation contextuelle. La suite de la thèse a consisté en la mise au point des outils d'exploitation contextuelle des Strates-IA et de l'algorithme fondamental d'instanciation, l'étude de la possibilité de stocker l'expérience d'utilisation de façon expliquée, ainsi que la comparaison avec d'autres systèmes émergeants dans le cadre du couplage entre documents et connaissances. Un premier prototype validant l'approche par graphes et un deuxième permettant une exploitation des graphes de connaissances Strates-IA ont été mis au point. Un travail sur des aspects plus liés à l'utilisation de l'audiovisuel en sciences humaines a également été mené et a conduit à quelques publications.

.

Un résultat important de la recherche est le modèle des Strates-IA pour la représentation de documents audiovisuels. Ce modèle autorise en effet une description libre (<< écrite >>) des documents, sans accorder le moindre primat à une structure documentaire à partir de laquelle toute autre description devrait s'organiser. L'approche documentaire classique suppose en effet un type d'utilisation partagé par tous, et une manière de décrire qui ne l'est pas moins, ce qui d'une certaine manière contraint voire fige les protocoles d'indexation et de recherche. Dans notre cas, au contraire, l'objectif de réutilisation des descriptions dans le cadre de tâches variées nécessite un cadre de description homogène des contenus documentaires et une réutilisation contextuelle des descriptions. Le cadre fourni permet également d'envisager de façon raisonnée (c'est à dire selon un point de vue explicite) l'association des connaissances de haut et de bas-niveau d'abstraction.

Un second résultat important est la proposition d'outils et de mécanismes génériques d'exploitation contextuelle des Strates-IA. Les graphes potentiels qui s'instancient dans le graphe des Strates-IA représentent un outil de base à partir duquel tous les autres sont construits. L'algorithme de multi-propagation pour l'instanciation de graphes potentiels que nous proposons possède quelques caractéristiques intéressantes, telle que celle d'être anytime et d'être piloté par une heuristique simple qu'il est possible de redéfinir. Les schémas de description nous permettent de fournir des guides sur la manière de décrire, et s'expriment de manière très semblable aux descriptions elles-mêmes. Il est ainsi aisé de passer des descriptions (réellement utilisées) aux schémas de descriptions abstraits qui pourront alors être organisés et réutilisés. L'exploitation contextuelle des Strates-IA permet de plus de faire le lien entre la tâche et la volonté de l'utilisateur (non atteignables directement) et l'expression des celles-ci sous la forme de graphes potentiels c'est à dire de visées de contextualisation qui sont eux manipulables.

La proposition de compléter la description d'un système d'information documentaire à l'aide d'un modèle d'utilisation (par exemple celui des Strates-IA) et de modèles simplifiés mais explicites de tâches permet le stockage d'une expérience d'utilisation expliquée par des connaissances⁴ (et non brute) ouvre des voies prometteuses pour l'aide à l'utilisateur fondée sur l'expérience.

Plan du mémoire

Le chapitre introductif de ce mémoire 1- Vers un système d'information documentaire idéal est consacré à une étude générale des systèmes d'information documentaire, qui nous permet d'aborder tour à tour les notions de documents numériques et multimédia, de recherche d'information documentaire et d'indexation. Nous proposons alors ce que seraient les caractéristiques d'un système d'information documentaire multimédia idéal, les tâches qu'il permettrait d'accomplir, et définissons une indexation << intelligente >> comme permettant de définir nativement des index manipulables comme des connaissances.

.

La première partie de ce document I- Modélisation de documents audiovisuels numériques est consacrée à une étude des documents audiovisuels et de leur représentation dans les systèmes d'information documentaire. Cette partie se compose des chapitres 2 à 4.

.

Le chapitre 2- Exploitation de documents audiovisuels numériques dans un système d'information audiovisuelle nous permet de faire connaissance avec le médium audiovisuel et ses principales caractéristiques, notamment le fait qu'un document audiovisuel soit monté. Nous étudions ensuite les apports du numérique à l'audiovisuel en terme de formats, avant de nous intéresser à l'utilisation des documents audiovisuels, aux archives audiovisuelles et aux fonctionnalités attendues d'un système d'information audiovisuelle (SIAV). Nous présentons enfin la notion d'annotation qui sera centrale à notre recherche.

.

Le chapitre 3- Etat de l'art de la représentation de documents audiovisuels, a un caractère essentiellement bibliographique. Après une introduction permettant de situer les différents champs de recherche intéressés par la modélisation audiovisuelle, nous organisons les caractéristiques d'annotation en trois niveaux dépendant de la manière dont elles ont été mises en place. Nous étudions ensuite un certain nombre d'approches de structuration de caractéristiques (implicites, hiérarchiques, en graphes), avant de présenter les fonctionnalités principales des SIAV que nous avons pu rencontrer.

.

Le chapitre 4- Réflexions sur la modélisation audiovisuelle est une mise en perspective de l'ensemble des notions vues dans la première partie. Nous discutons ainsi à nouveau le statut des descriptions et des connaissances d'exploitation d'un SIAV, d'une part au niveau des caractéristiques de représentation (où nous montrons qu'il est nécessaire de s'appuyer sur des descriptions symboliques), d'autre part, en ce qui concerne la structure d'organisation de ces caractéristiques (qui doivent prendre la forme la plus générale possible). Nous évoquons ensuite la notion de contexte, dans les documents audiovisuels, mais aussi comme contexte de tâche d'exploitation, et proposons de considérer toute tâche d'exploitation d'un SIAV comme tâche de description contextuelle de documents audiovisuels. Nous définissons alors la notion de description comme écriture en contexte d'annotations, et concluons ce chapitre en énumérant quelques unes des nécessités à notre sens fondamentales pour la modélisation audiovisuelle.

.

La seconde partie de ce mémoire II- Strates-Interconnectées par les Annotations pour l'exploitation contextuelle de documents audiovisuels présente notre modèle de description de documents audiovisuels ainsi que la manière dont il est possible d'exploiter contextuellement un système Strates-IA. Nous proposons également un cadre enrichi à la modélisation des systèmes d'information permettant de penser le stockage de l'expérience d'utilisation, avant de nous intéresser aux rapports entre documents et connaissances et de situer les Strates-IA dans ce contexte. Cette partie se compose des chapitres 5 à 9.

.

Le chapitre 5- Modélisation de documents audiovisuels en Strates-Interconnectées par les Annotations présente les bases de notre approche de description, qui consiste à repérer des objets d'intérêt dans le flux audiovisuel. Nous proposons alors de décrire les objets d'intérêt par des éléments d'annotation annotant des unités audiovisuelles. Les éléments d'annotation sont structurés entre eux à l'aide d'un seul type de relation, la relation élémentaire. Une base de connaissances, ensemble organisé d'éléments d'annotation abstraits, permet de structurer les connaissances d'annotation. Au final, les unités audiovisuelles, éléments d'annotation, éléments d'annotation abstraits et leurs relations forment un unique graphe. Nous présentons alors de manière plus formelle ce graphe comme un graphe orienté étiqueté par des objets.

.

Le chapitre 6- Manipulation de contextes dans les Strates-IA présente un exemple de description en Strates-IA d'un document audiovisuel, ainsi que la notion de contexte dans le graphe Strates-IA, qui est défini comme extrémité de chemin⁵. Nous illustrons ce concept et définissons les graphes potentiels comme graphes génériques permettant de décrire des contextes. Les graphes potentiels s'instancient dans le graphe général, et cette opération correspond à une recherche d'isomorphisme de sous-graphes partiels. Nous présentons en conséquence un algorithme de multi-propagation pour la recherche d'instances, lequel est piloté par une heuristique simple et donne de bons résultats. La section suivante est consacrée à divers outils d'exploitation contextuelle des Strates-IA : dimensions d'analyse, graphes potentiels caractérisés, schémas de description pour pouvoir contraindre l'annotation, valence comme possibilités de relations pour les éléments d'annotation en contexte. La suite du chapitre présente de quelle manière il est possible d'utiliser les outils mis en place dans les diverses tâches d'exploitation d'un système d'information audiovisuelle : annotation, recherche, navigation, etc.

.

Le chapitre 7- Réalisations présente rapidement les deux prototypes construits autour des concepts des Strates-IA. Le premier nous permet de valider les algorithmes d'instanciations, mais souffre de possibilités d'exploitation limitées. Le second prototype implante graphiquement l'ensemble des notions que nous avons présentées et fournit une base solide d'expérimentation.

.

Le chapitre 8- Vers une utilisation de l'expérience pour l'assistance à l'utilisateur est pour nous l'occasion de proposer un cadre enrichi pour la modélisation de systèmes d'information à l'aide d'un modèle d'utilisation unique et de modèles de tâches décrivant les éléments du modèle d'utilisation mobilisés dans le cadre de tâches et sous-tâches. Il devient alors possible de mettre en place des cas d'utilisation rationalisés par les modèles de tâche et d'utilisation, mais aussi par des explications internes, non prévues à la base, sous la forme de relations. Nous présentons quelques pistes d'exploitation de l'expérience expliquée stockée dans les cas d'utilisation pour l'apprentissage et l'aide à l'utilisateur.

.

Le chapitre 9- Strates-IA : documents et connaissances est consacré au thème général des documents et des connaissances, et nous permet de compléter la bibliographie du chapitre 3. Nous étudions dans un premier temps l'évolution des structures documentaires en lien avec les structures de présentation, et proposons de considérer finalement l'ensemble des structures documentaires comme des structures de connaissances, utilisées dans des tâches quelconques, pouvant entre autres concerner la présentation. Nous étudions alors les descriptions documentaires en considérant deux tentatives de décrire des documents audiovisuels à l'aide de langages de balises. Nous situons les Strates-IA par rapport à ces approches et décrivons l'état actuel de la future norme de description de documents multimédia MPEG-7, avant de la comparer aux Strates-IA. Nous présentons ensuite cinq approches orientées << connaissances >> pour la description de documents, et analysons ces approches sous l'angle de l'inférence comme opération sur des connaissances de description. Nous étudions enfin les Strates-IA sous l'angle des connaissances, présentons la notion d'inférence contextuelle et discutons la notion d'écriture sur le flux audiovisuel. Quelques propositions sur la gestion et l'évolution des connaissances Strates-IA viennent terminer ce chapitre.

.

La conclusion est l'occasion de présenter les perspectives d'application et de poursuite de la recherche entreprise.

Next: Vers un système d'information Up: Contexte général de la Previous: Contexte général de la

Yannick Prié
2000-01-25