Nous constatons dans un premier temps que les documents << simplement numérisés >> évoluent vers des documents multimédias, et que les systèmes d'information documentaire prennent en compte cette dimension, intégrant recherche par requêtes et exploration, gestion des connaissances documentaires et aide à l'utilisateur fondée sur ces connaissances. L'enjeu est donc de définir une indexation intelligente, qui permette de manipuler les descripteurs à la fois comme index et connaissances.
Les documents audiovisuels n'échappent pas à la règle, et leur exploitation dépassant la simple visualisation doit passer par leur indexation, sous une forme structurée qui en permettra un accès direct. La seule structure disponible actuellement pour les documents audiovisuels étant une structure de présentation associant simplement flux vidéo (suites d'images) et flux audio, on se trouve (à la différence des documents textuels) dans une situation dans laquelle toute structuration doit être mise en place à partir de rien.
Nous définissons l'annotation, c'est à dire l'attachement d'une description à un morceau de flux comme le support d'analyse fondamental de la représentation audiovisuelle, et nous constatons, en étudiant les diverses propositions de modélisation de la littérature que : (1) différentes caractéristiques d'annotation existent et dépendent de la manière dont elle sont mises en place (automatiquement, manuellement) et interprétées par un utilisateur ; (2) différents types de structuration des annotations sont possibles. Nous constatons également que les différentes fonctionnalités d'un système d'information audiovisuelle dépendent totalement de la modélisation choisie pour les documents.
Nous discutons les nécessités de modélisation induites par les exploitations possibles, mais aussi la prise en compte des contextes internes aux documents et ceux liés à la tâche de l'utilisateur, et argumentons sur le fait que les contextes documentaires dépendent de la tâche de l'utilisateur, et doivent être pris en compte dans une modélisation. Nous justifions le fait qu'une modélisation doit pour l'instant être basée sur des caractéristiques d'annotation interprétables telles que les textes ou les termes, comme unités sémiotiquement pertinentes pour l'homme et manipulables par la machine, l'utilisation des primitives venant en complément. La modélisation doit également être suffisamment générale pour s'adapter à toute activité de description de document audiovisuel, quelle que soit la tâche que cette activité supporte. En bref, il s'agit d'écrire sur le flux pour contextualiser les annotations, et de lire en (re-)contextualisant celles-ci.
Nous proposons en conséquence le modèle des Strates Interconnectées par les Annotations pour la représentation de documents audiovisuels, qui se caractérise par plusieurs proprietés fondamentales : (1) toutes les caractéristiques d'annotation sont exprimées dans des objets ayant un nom qui est un terme d'annotation (éléments d'annotation) ; (2) les parties de flux annotées (unités audiovisuelles) sont dépourvues de toute sémantique dans le modèle, et représentent un pur découpage du flux audiovisuel ; (3) l'annotation est structurée à l'aide d'un unique type de relation, à la manière de l'annotation (mettre en relation est également annoter) ; (4) les connaissances de description (éléments d'annotation abstraits) sont organisées dans une base de connaissances qui est au minimum un thésaurus. Au final, l'ensemble des connaissances d'un système Strates-IA est contenu dans un graphe orienté étiqueté par des objets Strates-IA.
Nous définissons opératoirement le contexte d'un élément du graphe comme les extrémités de chemins partant de cet élément. Nous justifions cette notion par rapport aux différents cas de figures des Strates-IA, en considérant que chaque élément est une connaissance locale qui doit être éclairée contextuellement par un entour privilégié au cours d'une tâche (par exemple l'annotation contextuelle d'une UAV par un EA), et proposons la notion de graphe potentiel pour permettre la gestion de contextes. Les graphes potentiels s'instancient dans le graphe Strates-IA, et nous considérons que toute recherche d'instance est une recherche d'isomorphismes de sous-graphes partiels à partir de correspondances connues, ce qui nous permet de proposer un algorithme efficace de multi-propagation ayant le triple avantage d'être pilotable par une heuristique simple, de rendre des solutions dès qu'elles sont trouvées, et d'avoir de meilleures performances que les algorithmes auxquels nous l'avons comparé.
Sur la base des graphes potentiels, nous définissons plusieurs outils d'exploitation contextuelle des Strates-IA. Les graphes potentiels caractérisés permettent de définir les sommets utiles de graphes potentiels et de les manipuler. Les relations contextuelles potentielles sont particulièrement adaptées à l'expression de chemins et les filtres de désignation permettent de désigner des éléments de la base de connaissances. Les dimensions d'analyse permettent d'exprimer une visée de description de l'annotateur en regroupant des EAA ayant un rapport à la tâche en cours. Plus précis, les schémas de description permettent de contraindre l'annotation, en exprimant des relations syntagmatiques entre ensembles paradigmatiques de termes d'annotation. Nous présentons comment ces différents concepts et outils peuvent être utilisés dans les diverses tâches d'exploitation d'un système Strates-IA, et remarquons notamment qu'il est possible d'intégrer requêtes et navigations dans un schéma unique. Le principe qui régit l'ensemble des utilisations repose sur le fait que l'expression d'un graphe potentiel est l'expression d'une visée de contextualisation (de description) liée à la tâche.
Nous nous intéressons à la mise en place d'un modèle de description de systèmes d'information permettant de stocker l'expérience d'utilisation sous la forme de cas d'utilisation expliqués par les modèles d'utilisation et de tâches. Nous montrons que ce genre de considération s'adapte aux Strates-IA comme système permettant de représenter des connaissances dans un format semi-structuré, adaptés à un grand nombre de tâches. Nous proposons quelques pistes d'exploitation des cas pour l'apprentissage et l'aide à l'utilisateur fondée sur l'expérience.
Nous terminons enfin en opérant un retour sur l'utilisation de représentation de documents à la fois comme index et connaissances dans le cadre de tâches diverses. Nous proposons de considérer toute description documentaire comme structure de connaissances, à partir de laquelle il est possible de construire des structures de présentation pour des tâches de présentation, mais aussi d'inférer de nouvelles connaissances si besoin. Nous confrontons les Strates-IA à différents modèles de description de documents : les premiers sont basés sur des langages de balises, le suivant est la norme actuellement en discussion de description de documents audiovisuels MPEG-7, les autres modèles ont une approche orientée connaissances et inférence documentaire.
Nous situons alors les Strates-IA dans le cadre des connaissances pour l'inférence, et discutons l'inférence contextuelle comme inférence unique liée au formalisme du modèle. La réalisation des tâches est pilotée par l'expression des graphes potentiels, et l'indexation se révèle bien << intelligente >>, au sens où il est nativement possible de l'utiliser à la fois comme index et comme connaissance mobilisée dans une tâche.
Nous discutons à nouveau les notions d'écriture et de lecture contextuelles sur le flux, avant de proposer quelques pistes d'apprentissage et d'évolution des connaissances de description Strates-IA. Nous présentons notamment la notion de connaissances << dynamiques >>, c'est à dire liées à la reconfiguration de la base de connaissances en fonction de l'usage qui en est fait, exprimé au travers des dimensions d'analyse utilisées.
Notre approche se situe fondamentalement entre une approche libre utilisant des mots-clés et une approche strictement basée sur les connaissances, dans laquelle les concepts sont non ambigus et les inférences strictement et globalement définies.
Nous nous intéressons successivement à quelques sujets d'intérêt qui nous semblent importants au regard de la recherche que nous avons menée. Nous discutons ainsi rapidement la transmission de connaissances entre utilisateurs des Strates-IA ; l'évolution des utilisations des documents audiovisuels documentés ; la probable émergence de langages audiovisuels et ses conséquences possibles ; et enfin quelques points dont il nous semble que nous sommes redevables à la théorie linguistique de la Sémantique Interprétative.
Un système minimal de Strates-IA comprend un ensemble de connaissances d'annotation, qui est un ensemble d'éléments d'annotation abstraits (un vocabulaire d'annotation), à partir desquels il est possible de mettre en place des graphes de descriptions. Ces connaissances minimales sont complétées par des connaissances << supplémentaires >>, qui sont les dimensions d'analyses, les schémas de description, les modèles de tâches, etc.
L'utilisation minimale des Strates-IA consiste en la présentation des différentes unités audiovisuelles annotées, en l'exploration des graphes d'annotation, en des recherches faisant appel à des graphes potentiels et à des contextes simples et génériques. Par exemple une recherche peut s'apparenter à une recherche par mots-clés, ou bien il est possible de définir une annotation contextuelle par une longueur de chemin. Les connaissances partagées sont donc la base de connaissances1 d'une part et d'autre part la langue (par exemple le français). La mise à disposition des connaissances supplémentaires d'annotation peut fournir des indications supplémentaires sur la manière de poser des requêtes plus complexes, sur des contextualisations conduisant à des inférences contextuelles plus complexes ou plus strictes.
Les Strates-IA permettent donc de gérer de plusieurs façons des mêmes annotations, suivant la manière dont les connaissances supplémentaires -- si elles existent -- sont partagées entre utilisateurs. Cette caractéristique du modèle nous semble importante, car elle permet toujours une utilisation minimale d'un document annoté, sur lequel toutes les visées de contextualisation peuvent toujours être appliquées, mais ne correspondront pas obligatoirement aux contextualisations utilisées à l'annotation. L'important problème sous-jacent que nous évoquons ici est celui de << l'inter-opérabilité sémantique >> entre utilisateurs d'un même système d'information, laquelle se révéle impérative pour que des connaissances de toutes formes puissent être partagées et réutilisées. Dépasser le niveau du simple échange de documents ou de tuples (alors supposés auto-suffisants) nécessite un partage de connaissances à des niveaux variés et pose des questions non triviales. En ce qui concerne les documents audiovisuels, les Strates-IA, les mécanismes de contextualisation associés et les différentes connaissances supplémentaires échangeables permettent de gérer à divers degrés le partage de connaissances.
Le sujet d'intérêt suivant concerne l'intégration et la documentation (l'enrichissement) des documents audiovisuels dans les systèmes d'information, qui leur permet de devenir eux-mêmes pleinement multimédia au sens que nous avons défini dans notre chapitre introductif. Ainsi, l'accès direct au flux et sa documentation en permettront une manipulation qui changera notre manière d'appréhender les documents audiovisuels. Par exemple, les hyperliens, la possibilité d'arrêt sur image (et surtout de retour sur image), ou de présentation simultanée de plusieurs images permettront de délinéariser et de détemporaliser le flux. La possibilité de navigation et d'interaction avec celui-ci changeront les modes de lecture et d'engagement des spectateurs (ou utilisateurs) de flux.
D'autre part, les documents audiovisuels documentés peuvent être réellement intégrés à des ensembles de documents multimédias tels que le Web (ou d'un certaine manière les cédéroms), non plus en tant que documents/fichiers indépendants inclus en tant que tels dans des document plus vaste, mais comme parties de document à part entière permettant d'accéder à d'autres parties. Passer d'un reportage télévisé ou d'une émission à ses rushs, aux articles de presse qui l'accompagnent, aux dépêches de presse qui y sont liés et inversement devient possible par la documentation et la description intégrées de documents audiovisuels. L'INA propose par exemple une démonstration illustrant la documentation d'une émission littéraire : << Roger Caillois interactif >>2, et participe au projet EuroDelphes3 de mise en place d'environnement pédagogique multimédia pour l'enseignement de l'histoire. Il semble donc que la documentation, l'instrumentation des documents audiovisuels permette d'utiliser ceux-ci de manière différente de ce pour quoi ils avaient été prévus, et de les intégrer dans des systèmes multimédias. Alors change également l'appréhension des documents. Par exemple, Groensteen [110] remarque que l'esthétique et le plaisir de la bande dessinée proviennent du fait qu'il est possible de revenir sur une case du récit, ce qui n'est pas le cas du roman (où la phrase est noyée), ni du film (où le plan disparaît). L'instrumentation d'un document audiovisuel, permettant d'en gérer une détemporalisation, nous semble réduire cette limitation, et conduire à une appréhension nouvelle des documents audiovisuels.
Les Strates-IA permettent d'opérationaliser des descriptions documentaires riches autorisant des tâches de lecture et d'exploitation variées telles que celles que nous avons présentées.
Nous avons déjà souligné que le fait que les structures de présentation actuelles des documents audiovisuels soient minimales et brutes (simplement images + sons) se révèle extrêmement intéressant pour la Recherche sur l'étude de la modélisation de ceux-ci. Ainsi, les documents audiovisuels peuvent être étudiés suivant une grande richesse de points de vue non contraints par les structures informatiques sous-jacentes, et de nombreux modèles en sont proposés, qui dépassent largement la simple réutilisation de modèles textuels4.
Il apparaît en conséquence qu'il est utile de proposer des modèles de description se basant sur le concept minimal de l'annotation comme attachement de description à une partie de flux, afin d'être à même de tester différents modèles de façon aisée. Les Strates-IA nous semblent un bon candidat, car elles fournissent un cadre riche et des possibilités de contraintes étendues permettant de mener ce type d'expérimentation, et de faire émerger -- à partir des descriptions -- des modèles de description adaptés à des tâches diverses. L'analyse assistée d'un flux peut permettre de mettre en place de véritables langages audiovisuels suivant les différents types de documents et les pratiques visées par la description.
Le niveau syntaxique minimal (les unités signifiantes) choisi jouera alors un rôle : choisir de décrire des unités audiovisuelles comme simples strates temporelles revient à se limiter à une approche << classique >> de l'analyse (type Metz) correspondant à celle qui pouvait être menée avec un magnétoscope. De façon plus poussée, s'intéresser à des strates << étendues >> (video, video+audio, audio), y compris par la désignation de formes dans les images, entraînera d'autres types d'analyses et de langages, plus novateurs, peut être plus liés au << sens commun >> de l'audiovisuel (mouvements de caméra liés aux mouvement d'objets, aux types d'actions, etc.).
Ces derniers langages audiovisuels, dont le niveau syntaxique descend jusqu'aux parties d'image pourraient, de descriptifs, devenir prescriptifs, c'est à dire être utilisés pour construire des documents autrement que comme regroupements de strates5.
Une telle approche est d'ores et déjà utilisée pour la construction de documents audiovisuels. Ainsi, le format MPEG-4 permet de définir des documents comme composés d'objets vidéo temporels, c'est à dire de spécifier et de construire au besoin la représentation des documents à l'écran. Si les résultats sont pour l'instant peu concluants pour les scènes naturelles, un premier pas est cependant fait vers une description à un niveau de décomposition inférieur à celui de l'image des documents. Les jeux vidéos sont un autre exemple de construction de documents audiovisuels au besoin à partir de descriptions variées.
Les langages audiovisuels de description pourraient donc permettre de définir des prescriptions documentaires, avec l'avantage d'avoir été conçus par l'analyse de documents réels dans le cadre de pratiques d'utilisation avérées ayant permis l'émergence d'unités syntaxiques signifiantes utiles, et non construites ad-hoc (par exemple, le présentateur du journal télévisé comme unité visuelle signifiante est utile si on construit un journal télévisé, et il n'a pas de jambes, le bureau n'est pas forcément utile et peut faire partie du fond de la scène).
Après ces prévisions d'utilisation sans doute ambitieuses, mais qui correspondent sans conteste à l'importance que va prendre la génération automatique de documents audiovisuels dans les prochaines années ou décennies, nous disons un mot sur les rapport entre notre approche et la théorie sémantique linguistique de la Sémantique Interprétative (SI).
La SI a été mise au point par Rastier [193] et nous avons étudié au cours de notre DEA ses rapports avec l'informatique [185]. La SI pose qu'il n'existe pas de sens définitif pour les mots et que toute analyse de texte doit faire appel à des descriptions sémantiques de ceux-ci à l'aide de sèmes (ou traits sémantiques) permettant de les comparer (sèmes génériques communs et sèmes spécifiques de différenciation). De plus tous les sèmes de mots peuvent toujours être virtualisés ou transmis dans le contexte d'autres mots, par exemple l'énumération pomme, poire, scoubidou peut permettre de transmettre le sème /fruit/ à scoubidou. Les isotopies sont constituées par des récurrences de sèmes équivalents (mettre pomme et poire ensemble permet de définir une isotopie liée à /fruit/).
Il nous semble a posteriori que la Sémantique Interprétative nous a inspiré à certains niveaux de notre approche, et surtout que les correspondances qu'il est possible de pointer entre SI et Strates-IA pourraient peut-être servir de source future d'inspiration. Nous en donnons ci-après quelques exemples.
Tout d'abord, comme le présente Cavazza [46], le modèle interprétatif de la SI peut être décrit comme une sorte d'annotation sémantique. L'interprétation d'un texte consiste alors dans l'activation de primitives sémantiques (sèmes) et de leur association avec des entrées lexicales (mots exprimant les sèmes). Cela correspondrait alors à notre annotation comme interprétation d'un document audiovisuel.
D'autre part, dans la SI, les sèmes mis en place sont virtualisés ou transmis en fonction de contextes. Nous considérons également que les contextes jouent une importance capitale dans la compréhension par exemple de l'annotation d'unités audiovisuelles, en fonction de relations aussi bien temporelles que sémantiques. De la même manière, le sens des mots dans un document varie par rapport au sens hors-document du fait par exemple de la transmission de sèmes. Le principe est le même chez nous, où nous considérons que tout EA est unique, et peut posséder un sens différent de l'EAA duquel il provient, en fonction des EA auxquels il est lié.
Nos dimensions d'analyse, qui forcent une analyse cohérente d'un flux nous semblent avoir des résonnances avec la notion d'isotopie sémantique. De la même manière, l'appartenance à des dimensions d'analyse différentes d'un EA, en fonction de la tâche de description et d'interprétation en cours est à mettre en liaison avec les taxèmes de la SI dans lesquels sont regroupés les mots en fonction des besoins de description (par exemple chat, léopard, panthère si l'on s'intéresse à la zoologie, mais chat, chien, canari si ce sont les animaux familiers qui sont visés). Considérer la base de connaissances différemment en fonction des visées de la tâche en cours exprimées par des dimensions d'analyse participe de ce principe d'adaptation.
Au chapitre des parallèles qui pourraient se révéler féconds, citons la possible adaptation de la notion de molécule sémique, c'est à dire d'arrangement de sèmes en graphes pour exprimer des << personnages >> d'une interprétation (par exemple /jaune/+/sale/ est un personnage récurrent de l'Assommoir de Zola). Adapté aux Strates-IA, cela reviendrait à rechercher des régularités de description sous la forme de sous-graphes récurrents).
Enfin, remarquons qu'il pourrait être intéressant d'utiliser les Strates-IA pour des documents textuels, dont la séquentialité linéaire peut être mise en parallèle avec la séquentialité temporelle des documents audiovisuels. L'adaptation des Strates-IA à des documents non séquentiels (multimédias) est possible, mais les conséquences induites sur le modèle restent à étudier. Remarquons par exemple que la notion de contexte non sémantique doit être étendue d'un axe linéaire à des axes multiples (par exemple de position) ; et qu'il ne s'agirait sans doute plus seulement de décrire des documents existants, mais d'en assumer également la définition et les instructions de construction...
Nous quittons dans cette dernière section les grandes perspectives que nous avons ouvertes et envisageons plus prosaïquement les perspectives immédiates liées au développement des Strates-IA.
Nous considérons en effet que nous avons posé les bases d'une approche de description de documents audiovisuels originale, permettant de dépasser les descriptions par mots-clé pour pouvoir atteindre (ou non) à la rigueur de systèmes à base de connaissances. Il nous semble important d'accorder une grande liberté à l'annotation et de permettre d'exprimer des inférences contextuelles liées à la tâche de l'utilisateur, qui ne peut être définie une fois pour toutes. Le principe des Strates-IA et les outils contextuels qui leur sont liés nous apparaissent donc comme pertinents et validés, mais ils ne représentent qu'un début dans la jeune histoire des documents audiovisuels numériques.
Beaucoup de travail reste donc à accomplir, et nous listons ci-après quelques-unes des perspectives à court terme des Strates-IA :
Ces perspectives trouvent leur concrétisation dans le cadre d'un projet issu de SESAME. Le projet RECIS6 est un projet RNRT et est pour Elöd Egyed-Zsigmond l'occasion de poursuivre l'effort de recherche ici présenté. Une prolongation du projet SESAME est également en cours de discussion.