Next: Vers un système d'information
Up: Contexte général de la
Previous: Contexte général de la
Sous-sections
Contexte de la recherche
C'est sur la constatation que la puissance des ordinateurs, les
capacités de stockage les normes de compression et les débits de
réseaux permettraient dans un futur proche de diffuser et
d'exploiter des documents audiovisuels numériques que le CNET-CCETT
France Télécom (Centre National des Etudes en
Télécommunication, Centre Commun d'Etudes en Télédiffusion et
Télécommunications) a lancé en 1996 un appel d'offre dans la
cadre d'une CTI (Concertation Thématique Informelle) sur le thème Indexation et recherche par le contenu pour les services
multimédias.
Le projet SESAME (contrat 96-ME-17) est un des projets retenus et
associe quatre laboratoires lyonnais1, deux entreprises partenaires2 ainsi qu'un partenaire technique3
SESAME (Système d'Exploration de Séquences Audiovisuelles et
Multimédia enrichi par l'Expérience) se donnait pour objectif
d'étudier les possibilités offertes par l'exploitation de
documents audiovisuels numériques sous les angles suivants : traitement d'image pour l'indexation (RFV) ; distribution et
accès parallèles à des données audiovisuelles (LIP) ; bases de données audiovisuelles (LISI) ; aide à
l'utilisateur fondée sur l'expérience des sessions
d'exploitation d'un système de recherche d'information
audiovisuelle (LISA-LISI).
La recherche présentée dans ce mémoire s'est déroulée à
partir du 20 novembre 1996 sous la direction conjointe de Alain Mille
(LISA, CPE, équipe RàPC) et de Jean-Marie Pinon (LISI, INSA-Lyon) sur
cette dernière problématique, avec un statut de chercheur
contractuel de l'Insa de Lyon financé par le projet SESAME.
Les objectifs du projet initial résument bien les enjeux
scientifiques de la recherche menée, et le passage suivant tiré du
dossier soumis au CNET dans le cadre de l'appel d'offre en définit
les contours : << Le challenge est de réussir à ``indexer''
ces informations pour les retrouver efficacement en fonction de
demandes qui peuvent être multimodales et varieront d'un contexte
à l'autre, voire d'un individu à l'autre. Pour tracer les
contours plus précis de la recherche impliquée par un tel
objectif général, il convient d'analyser les différentes
facettes du problème à résoudre pour réaliser un système
correspondant à notre projet. [...] Certaines caractéristiques
brutes (entités géométriques, qualité, etc.) peuvent
être, en partie, extraites de l'examen des images, formant un jeu
de descripteurs ``résumant'' les propriétés ``objectives'' de
la séquence audiovisuelle. Une sémantique externe (par exemple
un titre, des mots-clés, un résumé, etc.) peut être
ajoutée par un opérateur. Ces deux niveaux sémantiques sont
associés avec l'information brute dans la base de données [...]
Il peut s'agir de points de vue que l'on pourrait qualifier de
``canoniques'', c'est à dire correspondant à une classe
générique d'utilisateurs, ou de points de vue individuels. Les
premiers peuvent faire appel à la modélisation, tandis que les
seconds nécessitent de mémoriser la sémantique individuelle
liée à l'information dans ce contexte, ce qui implique
d'analyser la manière dont la recherche y est menée. [...] Il
existe potentiellement autant de systèmes d'indexations
secondaires qu'il existe de contextes pour les sémantiques de
contenu (canoniques ou individuelles) [...] Un index peut être vu
comme une extension de la base de séquences audiovisuelles devant
permettre de retrouver ``efficacement'' les séquences
elles-mêmes [...] L'utilisateur exploite les possibilités des
index grâce à un moteur de recherche qui l'assiste dans sa
tâche. La recherche est interactive et le moteur de restitution
permet de rendre compte de l'avancement de la recherche (aperçus
par exemple) et bien entendu de fournir l'accès à l'information
quand elle est déterminée sans ambiguïté. [...] Le moteur de
recherche doit élaborer ces informations à partir des
indications fournies par l'utilisateur et des informations mises en
correspondances dans les index. >>.
La problématique scientifique du travail de recherche s'articule donc
autour de ces quelques problèmes :
- la représentation de documents audiovisuels de façon à
prendre en compte leurs caractéristiques essentielles, telle que la
temporalité, la composante fortement visuelle, la multiplicité
des analyses possibles (traitement du signal pour le calcul de
primitives de description de bas-niveau d'abstraction, analyse de
haut-niveau conceptuel) ;
- l'indexation pour la recherche d'information et l'utilisation de
documents dans le cadre de tâches multiples (recherche simple pour
la visualisation, analyse, réutilisation, etc.), lesquelles ne
sont pas toutes prévues à l'indexation, par des utilisateurs qui
tous diffèrent : bref le partage de descriptions documentaires ;
- l'assistance aux diverses tâches d'exploitation des documents
audiovisuels basées sur les descriptions des documents, et de
façon plus générale l'exploitation de document fondée sur
les connaissances documentaires, les rapports entre documents et
connaissances.
Il s'agissait donc de se placer au carrefour de plusieurs domaines de
recherche (intelligence artificielle, recherche d'information
documentaire, description documentaire, systèmes à base de
connaissances), afin d'essayer d'appréhender de façon globale le
problème.
La thèse s'est tout d'abord déroulée autour des problématiques
de la recherche d'information, de la prise en compte de l'expérience
dans le raisonnement à partir de cas, et de l'indexation
audiovisuelle. Sur la constatation qu'il n'existait pas de modèle de
représentation suffisamment adapté à notre volonté de gérer
connaissances documentaires et expérience d'utilisation, nous avons
mis au point le modèle des Strates Interconnectées par les
Annotations (Strates-IA). Ce modèle permet de résoudre le conflit
entre les approches de segmentation a priori et de
stratification. Il permet de plus de prendre en compte les contextes
audiovisuels, en considérant que toute annotation participe d'une
structure, laquelle est support d'annotation contextuelle. La suite de
la thèse a consisté en la mise au point des outils d'exploitation
contextuelle des Strates-IA et de l'algorithme fondamental
d'instanciation, l'étude de la possibilité de stocker
l'expérience d'utilisation de façon expliquée, ainsi que la
comparaison avec d'autres systèmes émergeants dans le cadre du
couplage entre documents et connaissances. Un premier prototype
validant l'approche par graphes et un deuxième permettant une
exploitation des graphes de connaissances Strates-IA ont été mis
au point. Un travail sur des aspects plus liés à l'utilisation de
l'audiovisuel en sciences humaines a également été mené et a
conduit à quelques publications.
Un résultat important de la recherche est le modèle des Strates-IA
pour la représentation de documents audiovisuels. Ce modèle
autorise en effet une description libre (<< écrite >>) des
documents, sans accorder le moindre primat à une structure
documentaire à partir de laquelle toute autre description devrait
s'organiser. L'approche documentaire classique suppose en effet un
type d'utilisation partagé par tous, et une manière de décrire qui
ne l'est pas moins, ce qui d'une certaine manière contraint voire
fige les protocoles d'indexation et de recherche. Dans notre cas, au
contraire, l'objectif de réutilisation des descriptions dans le
cadre de tâches variées nécessite un cadre de description
homogène des contenus documentaires et une réutilisation contextuelle des descriptions. Le cadre fourni permet également
d'envisager de façon raisonnée (c'est à dire selon un point de
vue explicite) l'association des connaissances de haut et de
bas-niveau d'abstraction.
Un second résultat important est la proposition d'outils et de
mécanismes génériques d'exploitation contextuelle des Strates-IA.
Les graphes potentiels qui s'instancient dans le graphe des Strates-IA
représentent un outil de base à partir duquel tous les autres sont
construits. L'algorithme de multi-propagation pour l'instanciation de
graphes potentiels que nous proposons possède quelques
caractéristiques intéressantes, telle que celle d'être anytime et d'être piloté par une heuristique simple qu'il est
possible de redéfinir. Les schémas de description nous permettent
de fournir des guides sur la manière de décrire, et s'expriment de
manière très semblable aux descriptions elles-mêmes. Il est ainsi
aisé de passer des descriptions (réellement utilisées) aux
schémas de descriptions abstraits qui pourront alors être
organisés et réutilisés. L'exploitation contextuelle des
Strates-IA permet de plus de faire le lien entre la tâche et la
volonté de l'utilisateur (non atteignables directement) et
l'expression des celles-ci sous la forme de graphes potentiels c'est
à dire de visées de contextualisation qui sont eux manipulables.
La proposition de compléter la description d'un système
d'information documentaire à l'aide d'un modèle d'utilisation (par
exemple celui des Strates-IA) et de modèles simplifiés mais
explicites de tâches permet le stockage d'une expérience
d'utilisation expliquée par des connaissances4 (et non brute) ouvre des voies prometteuses pour
l'aide à l'utilisateur fondée sur l'expérience.
Plan du mémoire
Le chapitre introductif de ce mémoire 1- Vers un système
d'information documentaire idéal est consacré à une étude
générale des systèmes d'information documentaire, qui nous
permet d'aborder tour à tour les notions de documents numériques
et multimédia, de recherche d'information documentaire et
d'indexation. Nous proposons alors ce que seraient les
caractéristiques d'un système d'information documentaire
multimédia idéal, les tâches qu'il permettrait d'accomplir, et
définissons une indexation << intelligente >> comme permettant de
définir nativement des index manipulables comme des connaissances.
La première partie de ce document I- Modélisation de
documents audiovisuels numériques est consacrée à une étude
des documents audiovisuels et de leur représentation dans les
systèmes d'information documentaire. Cette partie se compose des
chapitres 2 à 4.
Le chapitre 2- Exploitation de documents audiovisuels
numériques dans un système d'information audiovisuelle nous
permet de faire connaissance avec le médium audiovisuel et ses
principales caractéristiques, notamment le fait qu'un document
audiovisuel soit monté. Nous étudions ensuite les apports du
numérique à l'audiovisuel en terme de formats, avant de nous
intéresser à l'utilisation des documents audiovisuels, aux
archives audiovisuelles et aux fonctionnalités attendues d'un
système d'information audiovisuelle (SIAV). Nous présentons enfin
la notion d'annotation qui sera centrale à notre recherche.
Le chapitre 3- Etat de l'art de la représentation de documents
audiovisuels, a un caractère essentiellement bibliographique.
Après une introduction permettant de situer les différents champs
de recherche intéressés par la modélisation audiovisuelle, nous
organisons les caractéristiques d'annotation en trois niveaux
dépendant de la manière dont elles ont été mises en place.
Nous étudions ensuite un certain nombre d'approches de structuration
de caractéristiques (implicites, hiérarchiques, en graphes), avant
de présenter les fonctionnalités principales des SIAV que nous
avons pu rencontrer.
Le chapitre 4- Réflexions sur la modélisation audiovisuelle
est une mise en perspective de l'ensemble des notions vues dans la
première partie. Nous discutons ainsi à nouveau le statut des
descriptions et des connaissances d'exploitation d'un SIAV, d'une part
au niveau des caractéristiques de représentation (où nous
montrons qu'il est nécessaire de s'appuyer sur des descriptions
symboliques), d'autre part, en ce qui concerne la structure
d'organisation de ces caractéristiques (qui doivent prendre la forme
la plus générale possible). Nous évoquons ensuite la notion de
contexte, dans les documents audiovisuels, mais aussi comme contexte
de tâche d'exploitation, et proposons de considérer toute tâche
d'exploitation d'un SIAV comme tâche de description contextuelle de
documents audiovisuels. Nous définissons alors la notion de
description comme écriture en contexte d'annotations, et concluons
ce chapitre en énumérant quelques unes des nécessités à
notre sens fondamentales pour la modélisation audiovisuelle.
La seconde partie de ce mémoire II- Strates-Interconnectées par
les Annotations pour l'exploitation contextuelle de documents
audiovisuels présente notre modèle de description de documents
audiovisuels ainsi que la manière dont il est possible d'exploiter
contextuellement un système Strates-IA. Nous proposons également
un cadre enrichi à la modélisation des systèmes d'information
permettant de penser le stockage de l'expérience d'utilisation,
avant de nous intéresser aux rapports entre documents et
connaissances et de situer les Strates-IA dans ce contexte. Cette
partie se compose des chapitres 5 à 9.
Le chapitre 5- Modélisation de documents audiovisuels en
Strates-Interconnectées par les Annotations présente les bases
de notre approche de description, qui consiste à repérer des objets d'intérêt dans le flux audiovisuel. Nous proposons alors
de décrire les objets d'intérêt par des éléments
d'annotation annotant des unités audiovisuelles. Les
éléments d'annotation sont structurés entre eux à l'aide d'un
seul type de relation, la relation élémentaire. Une base de
connaissances, ensemble organisé d'éléments d'annotation
abstraits, permet de structurer les connaissances d'annotation. Au
final, les unités audiovisuelles, éléments d'annotation,
éléments d'annotation abstraits et leurs relations forment un
unique graphe. Nous présentons alors de manière plus formelle ce
graphe comme un graphe orienté étiqueté par des objets.
Le chapitre 6- Manipulation de contextes dans les Strates-IA
présente un exemple de description en Strates-IA d'un document
audiovisuel, ainsi que la notion de contexte dans le graphe
Strates-IA, qui est défini comme extrémité de chemin5. Nous illustrons
ce concept et définissons les graphes potentiels comme graphes
génériques permettant de décrire des contextes. Les graphes
potentiels s'instancient dans le graphe général, et cette
opération correspond à une recherche d'isomorphisme de
sous-graphes partiels. Nous présentons en conséquence un algorithme de multi-propagation pour la recherche d'instances,
lequel est piloté par une heuristique simple et donne de bons
résultats. La section suivante est consacrée à divers outils
d'exploitation contextuelle des Strates-IA : dimensions
d'analyse, graphes potentiels caractérisés, schémas de description pour pouvoir contraindre l'annotation,
valence comme possibilités de relations pour les éléments
d'annotation en contexte. La suite du chapitre présente de quelle
manière il est possible d'utiliser les outils mis en place dans les
diverses tâches d'exploitation d'un système d'information
audiovisuelle : annotation, recherche, navigation, etc.
Le chapitre 7- Réalisations présente rapidement les deux
prototypes construits autour des concepts des Strates-IA. Le premier
nous permet de valider les algorithmes d'instanciations, mais souffre
de possibilités d'exploitation limitées. Le second prototype
implante graphiquement l'ensemble des notions que nous avons
présentées et fournit une base solide d'expérimentation.
Le chapitre 8- Vers une utilisation de l'expérience pour
l'assistance à l'utilisateur est pour nous l'occasion de proposer
un cadre enrichi pour la modélisation de systèmes d'information
à l'aide d'un modèle d'utilisation unique et de modèles de tâches décrivant les éléments du modèle
d'utilisation mobilisés dans le cadre de tâches et sous-tâches.
Il devient alors possible de mettre en place des cas
d'utilisation rationalisés par les modèles de tâche et
d'utilisation, mais aussi par des explications internes, non prévues
à la base, sous la forme de relations. Nous présentons quelques
pistes d'exploitation de l'expérience expliquée stockée dans les
cas d'utilisation pour l'apprentissage et l'aide à l'utilisateur.
Le chapitre 9- Strates-IA : documents et connaissances est
consacré au thème général des documents et des connaissances,
et nous permet de compléter la bibliographie du chapitre 3. Nous
étudions dans un premier temps l'évolution des structures
documentaires en lien avec les structures de présentation, et
proposons de considérer finalement l'ensemble des structures
documentaires comme des structures de connaissances, utilisées dans
des tâches quelconques, pouvant entre autres concerner la
présentation. Nous étudions alors les descriptions documentaires
en considérant deux tentatives de décrire des documents
audiovisuels à l'aide de langages de balises. Nous situons les
Strates-IA par rapport à ces approches et décrivons l'état
actuel de la future norme de description de documents multimédia
MPEG-7, avant de la comparer aux Strates-IA. Nous présentons ensuite
cinq approches orientées << connaissances >> pour la description de
documents, et analysons ces approches sous l'angle de l'inférence
comme opération sur des connaissances de description. Nous
étudions enfin les Strates-IA sous l'angle des connaissances,
présentons la notion d'inférence contextuelle et discutons la
notion d'écriture sur le flux audiovisuel. Quelques propositions sur
la gestion et l'évolution des connaissances Strates-IA viennent
terminer ce chapitre.
La conclusion est l'occasion de présenter les perspectives
d'application et de poursuite de la recherche entreprise.
Next: Vers un système d'information
Up: Contexte général de la
Previous: Contexte général de la
Yannick Prié
2000-01-25