next up previous contents
Next: Strates Interconnectées par les Up: Modélisation de documents audiovisuels Previous: Etat de l'art de

Sous-sections

   
Réflexions sur la modélisation audiovisuelle

L'objectif de cette partie est de définir quelques nécessités concernant la modélisation audiovisuelle, nécessités auxquelles le modèle de représentation audiovisuelle que nous définissons dans la deuxième partie de ce mémoire devra répondre. Pour cela, nous revenons tout d'abord sur la notion de représentation, que nous considérons comme centrale pour toute exploitation numérique de documents audiovisuels. Nous étudions ensuite les connaissances d'exploitation d'un système d'information audiovisuelle, en revenant sur les caractéristiques de modélisation, et sur la structuration de ces caractéristiques. La section suivante est consacrée à la notion de contexte, dans les systèmes d'information mais aussi dans les documents audiovisuels. Nous proposons enfin une approche de l'indexation et de l'exploitation de documents comme écriture pour la description. Pour conclure, nous présentons les points importants qu'un modèle de représentation doit prendre en compte.

Représenter pour exploiter

Comme nous l'avons déjà argumenté plus tôt, c'est à partir de sa représentation en machine qu'il est possible d'exploiter, c'est à dire d'utiliser un document audiovisuel. La représentation minimale du document est une suite d'images, une bande son, munies des connaissances permettant de le << jouer >>. Le codage du document est donc déjà un modèle minimal de représentation (par exemple MPEG2).

Avec la mise en place d'une indexation, le document audiovisuel est décrit par un ou plusieurs autres documents, composés de l'ensemble de ses index et de la structuration de ceux-ci.

La recherche d'un document entier ou d'une partie de celui-ci repose sur une recherche dans les documents d'indexation. Une recherche directe dans un grand fond supposerait en effet un traitement automatique de tous les documents à chaque requête pour vérifier si ceux-ci y répondent en terme d'arrangements de caractéristiques calculables, ce qui est à écarter d'emblée.

La navigation autre que temporelle repose également sur les index du document de description. Une interface de navigation dépassant les simples capacités de lecture d'un magnétoscope numérique (lecture, stop, pause, retour et avance rapide, accès direct) permettra par exemple une navigation plan par plan, ou bien une navigation << conceptuelle >> (aller directement à la prochaine apparition du personnage principal, ou bien à la résolution de l'énigme).

L'édition d'un nouveau document, son montage, prennent appui sur l'indexation de documents sources en décrivant les parties intéressantes pour la tâche en cours. Par exemple, un système peut rechercher un plan avec Jacques Chirac et Nelson Mandela, vus de dos, qu'il enchaînera avec un plan quelconque de ce dernier en noir et blanc.

Une lecture << active >> de document doit permettre à un utilisateur de l'annoter lui-même, c'est à dire d'ajouter librement ses propres données d'indexation au document. L'indexation du document par un documentaliste professionnel relève de la même démarche, à la différence que la politique de gestion du fond documentaire impose une certaine manière de décrire.

Le modèle de représentation de document choisi peut également être d'importance au niveau de l'organisation du stockage des documents numériques. Par exemple une émission de divertissement décrite séquence par séquence peut tirer avantage d'une organisation physique des données sur les mémoires basée sur ce découpage, s'il s'avère que le spectateur a tendance à sauter une chanson qui ne lui plaît pas.

Enfin, il est évident que toute aide à l'utilisateur dans ses tâches d'exploitation d'un système d'information audiovisuelle passera par une modélisation des possibilités de manipulation de documents offertes par l'application, lesquelles s'appuieront sur le modèle de représentation de l'indexation des documents.

.

L'enjeu premier de la mise en place de formats de représentation et d'indexation de document audiovisuel est donc d'importance, car si dans un premier temps la documentation (l'indexation) des documents audiovisuels sera totalement extérieure à ceux-ci, à plus long terme, il n'est pas exclu d'imaginer que certaines parties de celle-ci seront intégrées aux futurs formats audiovisuels. Le document contiendra alors les données << brutes >>, mais aussi des connaissances permettant une exploitation autre que la navigation basée sur la temporalité du médium.

.

Selon l'angle d'analyse que nous avons choisi, c'est l'annotation, c'est à dire l'alignement de connaissances sur des parties de documents audiovisuels que nous devons étudier. Il s'agit donc en premier lieu de s'interroger à nouveau sur les caractéristiques d'annotation, sur la structuration de celles-ci dans les documents et sur leur organisation dans des bases de descripteurs.

Sur les connaissances d'exploitation

Nous nous intéressons dans cette partie au connaissances d'exploitation, c'est à dire au résultat de l'annotation, mais aussi aux connaissances permettant la mise en place des connaissances d'exploitation.

L'image et le symbole

Nous avons distingué, suivant leur mode de mise en place, trois types de caractéristiques d'annotation.

Primitives.

Les primitives sont des résultats de calculs menés sur l'image, le son ou la suite d'images et fournissent des résultats non interprétables1 si ce n'est en connaissance de la sémantique du calcul. Un histogramme de couleur ou une texture en sont des exemples canoniques. La vocation des primitives est d'être des représentants de parties du flux pré-calculées, sur lesquelles il sera possible de mener des comparaisons de similarité sans faire à nouveau appel aux données brutes.

Une conséquence est qu'il est quasi-impossible de mener une recherche sur des primitives en en spécifiant un arrangement a priori. Cela reviendrait en effet pour l'utilisateur à extraire/calculer lui-même des primitives équivalentes d'une << image mentale >> représentant ce qu'il cherche (image, son, mouvement), avec les approximations qu'on imagine. Mais ce problème peut être résolu avec l'utilisation d'un exemple fourni par l'utilisateur et censé exprimer ce qu'il cherche, duquel la machine extrait elle-même les primitives2. Il n'y a alors plus qu'à espérer que la signification de la mesure de similarité-machine (qui dérive, mais n'est pas seulement fonction de la ou des primitives extraites) corresponde à quelque chose qui ait du sens pour l'utilisateur, et -- mieux -- que ce sens soit celui qui était attendu.

L'extraction de primitives pour la similarité se révèle donc un thème extrêmement délicat, car basée sur la supposition qu'une image signifie par elle-même, et qu'il est possible d'extraire le même sens qu'un humain d'un tableau de couleurs de pixels en général. Nous avons déjà vu que pour l'être humain le sens n'était pas intrinsèque à l'image : une image doit venir avec des interprétants pour être interprétable justement3. De la même manière, une image a un genre, est prise selon des canons esthétiques et est lue comme telle (en d'autres termes, le fait de partager une représentation sous la forme d'un tableau de valeurs de couleurs de pixels ne signifie pas que toutes les images sont perçues de la même manière, alors que pour la machine, si). Au niveau de l'audiovisuel, ce phénomène existe également : une émission de variétés actuelle n'est pas une série policière des années soixante-dix, et ne devrait pas toujours être traitée automatiquement de la même manière. Les calculs universels n'existent donc pas, pas plus que les vues d'une image ne sont universelles, mais partagées.

Est-ce à dire que tous les travaux sur les primitives sont voués à l'échec en termes de similarité, donc de recherche ? Auquel cas faudrait-il renoncer à les utiliser comme connaissances d'indexation et de description ?

Sans doute si l'on considère une similarité uniquement liée à la machine, et d'une part indépendante de la tâche de l'utilisateur qui l'utilise, d'autre part indépendante de cet utilisateur.

Au contraire, il nous paraît en premier lieu nécessaire que les primitives (et la similarité adjointe) soient expliquées à l'utilisateur, c'est à dire que celui-ci soit en mesure de comprendre le mode de fonctionnement de la similarité pour pouvoir l'utiliser. Ce mode de fonctionnement peut bien sûr être appris au fil des utilisations, par expérimentation, mais on gagnera du temps et de l'exactitude en l'expliquant4. La nécessité de telles explications risque de faire disparaître les primitives qui n'ont d'intérêt que pour le scientifique au profit de primitives signifiant quelque-chose pour l'utilisateur. Dans le même temps, il va de soi que ce sont de primitives basées sur des éléments ayant une pertinence pour l'homme qui seront utiles. L'extraction de celles-ci se basera alors par exemple sur des << bonnes formes >> au sens de la Gestalttheorie5.

En deuxième lieu, il est nécessaire de prendre en compte des connaissances extérieures au document. Connaissances sur le genre de document tout d'abord : par exemple, il peut être très facile de distinguer des plans de plateau dans un journal télévisé, et de les rechercher par similarité, car les arrangements de couleurs sont similaires. Connaissances sur l'utilisateur et sa tâche ensuite : reconnaître une zone potentiellement cancéreuse sur une image issue d'un scanner est une tâche qui est fortement contrainte par les connaissances médicales, le type d'image, etc. Les systèmes mis en place en informatique médicale se basent alors sur des modèles extrêmement sophistiqués et complexes. On conçoit que pour l'audiovisuel, la question ne puisse être simple, et doive disposer de réponses certes les plus génériques possibles, mais sans se faire d'illusion sur la réponse, la primitive et la similarité ultimes. Notons enfin qu'une tendance intéressante dans les systèmes utilisant des calculs de similarité pour retrouver des documents est de compléter les descriptions par des primitives à l'aide de concepts de beaucoup plus haut niveau comme des mots-clé, par exemple [139].

Caractéristiques calculées interprétables.

En fait, dès que se pose la question de la tâche (et non plus du calcul d'une primitive résolvant tous les problèmes) se pose la question de l'interprétabilité par l'utilisateur de la caractéristique : dans le cadre d'un tâche donnée, l'utilisateur va avoir des besoins précis, qui correspondent à la manipulation de caractéristiques de description précises.

Il s'agit bien alors, guidé par les besoins des utilisateurs, de mettre en place des caractéristiques calculées interprétables par l'être humain, et plus, verbalisables, descriptibles en tant que concepts. La similarité dans ces conditions devient similarité conceptuelle. Par exemple, si la machine calcule qu'une forme ronde se déplace de gauche à droite dans un plan, il est possible d'exprimer ceci par des symboles, par exemple Forme; Type=rond; Déplacement: mode=linéaire, direction=horizontal, sens=gauche/droite. De la même manière, la détection d'un plan conduit à une annotation Plan.

Comme nous l'avons déjà souligné, il convient là encore que l'utilisateur qui utilise ce genre de caractéristiques soit conscient de leur caractère calculé, et surtout des limites de validité du calcul mis en place. Cependant, le fait que le résultat soit du niveau interprétable est crucial, puisqu'il permet de jeter un pont entre la machine et l'être humain, et ouvre la voie à une collaboration fructueuse. L'utilisation intensive de connaissances extérieures au signal, de modèles de documents audiovisuels notamment fait que le calcul va plutôt s'adapter à des modèles de description humains, que l'humain s'adapter à des modèles de description calculatoires (quand cela est possible6).

Bien évidemment, tout est encore ici question de degré. Une variation d'histogramme de couleur peut être interprétée comme un changement de plan par certaines personnes. Mais on a ici un changement qualitatif ; plan désignera plus en tant que terme qu'une simple variation d'histogramme, par exemple que la partie ainsi annotée est une unité de montage, choisie à un moment donné pour s'insérer entre deux autres plans, et est donc un plan << humain >> et non calculatoire.

Le problème du calcul de caractéristiques de haut-niveau est donc bien celui de l'articulation entre des résultats de calcul signifiants en tant que résultats, et leur signification dans le cadre de la tâche humaine (en collaboration avec la machine) d'exploitation de ces résultats7.

Par exemple, une similarité d'image peut ne pas être intéressante du tout pour qu'un utilisateur fasse de la recherche, mais peut l'être par exemple pour mettre en place des correspondances entre plans signifiant leur appartenance à une même scène laquelle sera utilisée comme unité de découpage du document, y compris en oubliant tous les calculs intermédiaires.

Caractéristiques interprétées.

Dès qu'une caractéristique calculée de haut-niveau est validée par un utilisateur, elle prend le statut de caractéristique interprétée, c'est à dire qu'elle n'est plus redevable au calcul dans ses utilisations, mais bien au modèle de description de haut-niveau mis en place par l'homme. L'articulation définie plus haut disparaît donc dans la mise en place avec validation de caractéristiques de description, par exemple Plan, Chirac ou Journal télévisé.

Les mots-clé, les textes, les images ou tous documents utilisés pour décrire des documents audiovisuels résultent d'une même approche, au sens où l'être humain, appréhendant un document en réalise directement une description dans un format adapté à la machine, sans autre médiation calculatoire que la conformance, justement, au modèle de description.

Nous étudierons par la suite les modèles de description, essentiellement en terme de structuration des documents, et de structuration et d'organisation des connaissances de description.

L'organisation des connaissances décrites : la structure

Structuration interne d'une annotation de partie

Nous avons vu au chapitre précédent que les annotations d'une partie de document pouvaient être structurées, par exemple pour décrire le contenu d'une image en termes de relations entre formes simples (cf. la figure 2.3 page [*]), ou bien pour organiser des descripteurs en fonction de leurs catégories de description (par exemple une description des objets et une description des sensations ressenties sur ces objets(cf. la figure 2.2 page [*])). Il s'agit alors de mettre ensemble des caractéristiques de façon organisée (et non plus simplement les unes à côté des autres).

Structuration hiérarchique documentaire

Le niveau suivant d'organisation des caractéristiques consiste à inscrire celles-ci dans une temporalité explicite (donc allant au delà de la simple structuration implicite qui découle, rappelons-le, des relations temporelles entre les parties de documents qu'elles annotent). Il s'agit donc de mettre en place une structuration des parties de document que l'on a découpées.

Nous avons également vu que nombre d'auteurs -- commençant paradoxalement à prendre la mesure du caractère documentaire du document audiovisuel -- en proposent désormais des organisations hiérarchiques de parties. Ces hiérarchies sont le plus souvent à trois niveaux, à savoir documents, scènes et plans, et autorisent une navigation le long de la hiérarchie, mais aussi la mise en place d'annotations à tous les niveaux, c'est à dire des description multi-niveaux. Par exemple, on annotera le document dans son ensemble à l'aide d'une structure de cataloguage comportant les noms des réalisateurs, acteurs, l'année de tournage et le titre d'un film, et on annotera des plans en décrivant ce qu'il se passe à l'image. Un modèle comme celui de [68] est à cet égard un exemple paradigmatique.


  
Figure: La Grande Syntagmatique, d'après [65], page 49.
\includegraphics[width=300pt]{../fig/nec/GS.eps}

Il nous faut cependant interroger cette structuration hiérarchique, héritée d'un tradition structuraliste française organisée autour de C. Metz. En effet, celui-ci a popularisé dans sa théorie de la Grande Syntagmatique l'idée de grammaire filmique, c'est à dire d'analyse du film comme composé d'une ensemble d'unités syntaxiques, que sont les plans (équivalent à des phrases) (une décomposition dûe à Colin est présentée figure 3.1). Les plans sont à leur tour regroupés en segments autonomes (généralement appelé scènes jusqu'ici, mais plutôt séquences dans le cadre de la sémiologie du cinéma). Le segment autonome permet << un certain niveau de segmentation de la surface discursive du filmé>> [65] : un film est découpé en segments autonomes, puis en plans. Pour Metz [157], << en distinguant le ``plan'' et la ``séquence'', le langage courant marque bien qu'il y a au cinéma deux choses différentes (sans préjudice d'éventuels niveaux intermédiaires) : d'une part le segment minimum, qui est le plan, d'autre part le segment autonome >>. Colin, dans sa revisitation de la GS précise : << au départ, donc, la notion de segment autonome cherche à rendre compte de ce fait intuitif, qui est que le film en tant qu'il est discours en images, ne peut pas être simplement défini comme succession de plans, un peu de la même façon qu'un discours verbal ne peut être simplement défini comme succession de phrases >> et ajoute << il y a aussi bien entendu la différence déjà faite par les techniciens du film entre séquence et plan, pour rendre compte de la pratique du découpage et du montage, qui implique des << règles >> d'agencement entre les plans afin, notamment, de rendre intelligible les relations spatio-temporelles qu'ils entretiennent >> [65].

Il s'agit donc de découper un document en plans, et de regrouper ceux-ci en scènes, afin d'affirmer dans la documentation l'expression d'un contenu dépassant le niveau du simple plan, mais restant en deça de l'annotation du document entier.

Il convient cependant de remettre en cause ce type de hiérarchie, pour un certain nombre de raisons :

Revenons un instant sur la notion de segment autonome. Colin [65] finit par considérer qu'il y a en fait deux approches différentes dans la Grande Syntagmatique : la segmentation, et la catégorisation. La première vise au repérage des segments autonomes, la seconde se donne pour objectif de les catégoriser8. Ceci donne lieu à un certain nombre de difficultés. Ainsi, les segments autonomes tels qu'ils sont repérés peuvent ne pas avoir de pertinence dans le cadre de la catégorisation : il est possible de considérer des syntagmes trans-segmentation, de même que des syntagmes enchâssés9.

En fait, il nous semble que le syntagme metzien est une unité d'un document audiovisuel qui est définie suivant une analyse donnée, dans un contexte donné. Plus généralement, décréter un segment revient à lui attribuer une qualité sémantique au regard de l'analyse, et en vue d'une exploitation future (y compris ensuite, par exemple pour mettre en rapports deux segments). On conçoit alors que de multiples analyses pouvant coexister, de multiples types de segments le puissent aussi, tandis qu'il faut à celà ajouter la multiplicité due à la superposition de flux. Enfin, c'est seulement dans le cadre d'une analyse vidéo du flux que l'on considérera le plan comme unité minimale de structuration.

Il apparaît donc qu'un document peut être décrit par autant de hiérarchies d'analyse que désiré, les éléments minimaux des hiérarchies n'ayant pas tous la simplicité du plan et le nombre de niveaux étudiés n'est évidemment pas limité.

Cela ne signifie bien évidemment pas qu'il puisse exister des analyses valables pour tous les documents, et que des hiérarchies << génériques >> ne puissent être mises en place, mais celles-ci restent à notre sens à découvrir10.

Structuration << complexe >>

Nous avons vu dans le chapitre précédent que d'autres structurations que la structuration hiérarchique de segments pouvaient être mise en place

On peut par exemple structurer les descripteurs eux-mêmes, par exemple une structuration par abstraction entre un descripteur Victor Hugo et un descripteur Poête [249], ce qui relève alors a priori d'une organisation de connaissances permettant de décrire des connaissances utilisées pour décrire, cas que nous évoquerons à la fin de cette partie.

Il est également possible de structurer une annotation pour exprimer par exemple une action avec un graphe de concepts liés par des primitives d'action telles que celles proposées par Schank [228], l'important étant ici que la mise en place de relations entre caractéristiques annotant des parties différentes du document soit possible. Par exemple, si Gaston aime Jeanne correspond à ce qui est annoncé au début d'un film par la présentation de Gaston puis celle de Jeanne, alors il est possible de mettre en place une relation d'amour entre la caractéristique représentant Gaston (plan 1) et celle représentant Jeanne (plan 2) liant ainsi les parties de document plan1 et plan2 par une relation factuelle n'ayant a priori rien à voir avec une relation hiérarchique ni une relation temporelle entre les deux plans11. Au niveau suivant c'est l'histoire que l'on peut décrire, par exemple un film tel que la Guerre des Etoiles (1978) peut être décrit par une structure simple tirée d'une étude narratologique semblable à la morphologie du conte russe étudiée par Propp [190] : genèse du héros, problèmes du héros (les méchants), résolution du problème (victoire sur les méchants), apothéose (joie)12.

On voit donc qu'il peut être nécessaire pour les besoins d'une application de structurer des annotations situées dans des parties indépendantes d'un document audiovisuel, sans que cette structure soit hiérarchique, puisqu'elle ne fait que lier les parties par l'intermédiaire des caractéristiques (alors que dans une hiérarchie d'un match de tennis, c'est le segment désigné par jeu qui est en relation hiérarchique avec le segment désigné par set).

Organiser les connaissances de description

Les caractéristiques d'annotation peuvent être structurées hors-documents, c'est à dire organisées en tant que connaissances d'annotation. En effet, a partir du moment où les caractéristiques d'annotation ne sont pas libres, il est nécessaire de les organiser dans une << base de connaissances >>. Par exemple, un thésaurus permettra de hiérarchiser des mots-clé dans un arbre (relation de spécialisation donc), tandis que des relations annexes permettront d'en faciliter l'utilisation (par exemple voir aussi ou utilisé pour).

D'autres connaissances, par exemple les connaissances sur la structure d'un journal télévisé qui permettent de reconnaître les différentes parties, ou encore certaines règles d'édition cinématographique telles que celles reprises dans [63] sur la théorie du montage (changements de temps, d'espace, de rythme ou idéologiques) peuvent être stockées et organisées. Ce seront alors des règles de repérages de structure, par exemple, si on a repéré un plan de présentateur statique dans un document, alors ce document a des chances d'être un journal télévisé. Ces connaissances sont en fait des connaissances du domaine de l'application visée.

Enfin, terminons avec les règles de description de document, ou schémas de description, qui explicitent comment les descripteurs doivent être utilisés pour décrire les documents audiovisuels. Par exemple, une DTD en SGML ou en XML explicite comment il convient de décomposer un document pour le documenter.

La notion de contexte dans l'audiovisuel et sa nécessaire prise en compte

L'annotation d'un document audiovisuel consiste à décrire certaines de ses parties à l'aide d'annotations, elles-mêmes structurées entre elles soit directement, soit par la médiation de la structuration des segments de description. Il va de soi que toute mise en place de structure permet d'en envisager l'utilisation comme connaissances permettant des mises en contexte (un plan peut être considéré comme étant dans le contexte d'une scène par exemple).

Cette section est consacrée à l'étude du contexte et des relations contextuelles dans les systèmes d'information et dans les documents audiovisuels.

Contexte et systèmes d'information

Les systèmes d'information ont été, et sont de plus en plus étudiés sous l'angle du contexte. Il s'agit alors de définir comment la notion de contexte peut y être utilement définie, et peut permettre, de façon opératoire, d'aider à la résolution de problèmes d'exploitation d'information.

Il convient d'abord de remarquer que les termes contexte ou contextuel sont souvent utilisés incidemment parce que des phénomènes d'ordre contextuel ont été identifiés qui doivent être analysés. Par exemple, on peut calculer dynamiquement une page d'un système d'information hypertexte en fonction du contexte (i.e. du lien) qui a permis d'y accéder [217] ; le contexte peut également être, dans une recherche d'information documentaire, le genre d'un document (ce qui correspondrait à un rayonnage dans une bibliothèque) [213], etc.

C'est en fait seulement depuis peu que le contexte est étudié pour lui même13 et que des tentatives sont faites en vue de définir plus précisément le concept en tant que tel. La tâche n'en est pas moins ardue, et il est admis que la notion a des multiples définitions, suivant l'angle d'analyse et les visées des auteurs qui l'étudient [34]. Le contexte a en effet été au départ étudié en linguistique (par exemple en sémantique : comment l'entour d'un mot influe-t-il sur sa signification ?), mais aussi en sciences cognitives (e.g. comment le contexte et la situation influencent-t-ils la cognition ?), ou encore dans les systèmes à base de connaissances et les systèmes logiques.

[33,34] tirant les leçons d'une conférence interdisciplinaire sur le contexte essayent d'en dégager quelques caractéristiques essentielles, que nous présentons dans la suite.

Ainsi, le contexte est une notion utile pour les systèmes dans lesquels une part de raisonnement, de compréhension, d'interprétation ou de diagnostic sont nécessaires, car ces activités reposent entre autres sur des connaissances d'expérience en général non complètement explicitées. La notion de contexte permet alors d'introduire une part de flexibilité dans l'utilisation de la connaissance, laquelle est liée aux réactions de l'utilisateur.

Le contexte est quelque-chose autour d'un objet, qui lui donne sens, et agit alors plus sur les relations entre objets que sur les objets eux-mêmes. De même, le contexte ne peut pas être considéré indépendamment de son utilisation, c'est une notion obligatoirement opératoire.

Il y a différents types de contextes suivant les objets considérés et le domaine (si certaines définitions précises existent, elles sont trop limitatives pour pouvoir définir de façon générale le concept). Les différents contextes que l'on peut définir dans un même système sont cependant interdépendants.

Il existe de multiples représentations possibles du contexte.

Si on le considère par exemple comme ensemble de connaissances, on distinguera entre la connaissance contextualisée (effectivement utilisée) et la connaissance contextuelle (contraignant la connaissance contextualisée). Par exemple, dans beaucoup de cas, le contexte est considéré comme un ensemble de restrictions limitant l'accès à des données. Ce point de vue se rencontre plus du côté de l'ingénierie, de la représentation des connaissances où il s'agit de représenter et de raisonner sur un nombre limité de connaissances symboliques au sein duquel un problème doit être résolu. Les contextes peuvent alors être formalisés, manipulés, ordonnés, abstraits (décontextualisés), etc. et sont considérés comme discrets14. Ils représentent un ensemble de propriétés associées à une entité suivant l'environnement dans lequel celle-ci baigne, c'est à dire qu'ils permettent une variation dans la définition des connaissances en fonction de leur utilisation.

On peut aussi voir le contexte, dans le cadre de l'interaction entre agents, comme processus de contextualisation. Ce genre de considérations se rencontre plutôt au niveau des Sciences Cognitives et de l'étude et de la modélisation des interactions et des situations, des échanges d'information, par exemple entre un humain et un système. Le contexte découle alors de l'interaction comme situation partagée, et permet également de contraindre des possibilités d'interprétation. [34] distinguent connaissances, informations et données, et considère que les données deviennent informations au travers du processus de contextualisation fondé sur les connaissances disponibles au moment de l'observation. C'est alors l'étude des humains qui régit la construction des modèles de contextes, et principalement le contexte d'interaction où l'environnement de la communication sert au filtrage d'information et à la co-construction de sens (par exemple dans les modèles pragmatiques d'étude de la communication entre agents).

Les auteurs considèrent que le manque de représentation du contexte en intelligence artificielle est responsable d'échecs dans les systèmes à base de connaissances, de l'acquisition de connaissance, de l'apprentissage et de la génération d'explications. Il est donc nécessaire de rendre explicite le contexte afin de développer des systèmes dans lesquels l'utilisateur joue un rôle important de décision. On parlera alors généralement d'explications contextuelles, d'apprentissage sensible au contexte, et d'acquisition incrémentale de connaissances pour les systèmes d'assistance intelligente à l'utilisateur.

Ainsi, se limitant aux systèmes de recherche d'information, [34] proposent une adaptation d'un modèle de Newell et Simon comme cadre permettant de prendre en compte les différentes vues sur le contexte. Nous avons dans [188] étendu ce schéma (cf. figure 3.2) pour le spécialiser dans un système d'information documentaire.


  
Figure 3.2: Un cadre permettant d'intégrer les différents types de contextes
\includegraphics[width=300pt]{../fig/nec/modele-SID.eps}

Le système interagit avec un Agent (humain ou machine), et se compose de Mécanismes de raisonnement et d'une Collection d'objets sur lesquels interviennent les mécanismes, que nous subdivisons en base de Connaissances et en base de Documents. Connaissances contient par exemple des connaissances du domaine, des modèles de tâches ou des ontologies, tandis que Documents contient les documents du système d'information documentaire.

Il est alors possible de considérer des contextes à tous les niveaux du schéma : on peut définir des contextes liés aux agents (par exemple un contexte d'organisation, ou d'énonciation, ou alors liés aux objectifs des utilisateurs) ; le contexte d'interaction (lié à la pragmatique et à l'analyse du discours) se situe au niveau de la double flèche (par exemple un historique de l'ensemble des transactions) ; tandis que le contexte de la recherche d'information est lié à la flèche entre Mécanimes et Collection. Le contexte de représentation de connaissances est lié à Connaissances, et le contexte lié à la fléche entre Connaissances et Documents permet d'<< éclairer >> les documents. Au niveau des Documents, on retrouve les contextes linguistiques internes aux documents [80], résultant directement d'une interaction entre le lecteur et le document, ou bien bénéficiant d'un éclairage basé sur les Connaissances.

L'extension du schéma que nous proposons nous permet de prendre en compte les documents en tant que tels dans un système d'information documentaire, et de les séparer des données du système, donc de leur donner une indépendance. Cela nous permet de raffiner les définitions des contextes au niveau des données de la collection d'objets Collection, et d'intégrer par exemple le contexte linguistique documentaire dans le schéma.

Il nous semble en effet que la principale dichotomie dans la définition du contexte dans les systèmes d'information documentaire oppose l'approche textuelle/linguistique du contexte interne aux Documents (et liée directement à l'utilisateur), et une approche plus cognitive liées au point de vue de l'utilisateur de documents, et à la situation de sa pratique (Agent). Dans ce grossier schéma, l'intelligence artificielle se situe entre ces deux extrêmes, participant d'une part à éclairer les documents par des connaissances, et, d'autre part, au niveau de l'utilisateur, à gérer la tâche de celui-ci (en fait la représentation en machine de cette tâche).

L'ordinateur agit alors comme médiation entre le document et l'utilisateur/utilisation du document, prenant en compte aussi bien les contextes documentaires liés aux connaissances de documentation des documents que les contextes d'utilisation liés aux utilisateurs, et à leur tâches d'utilisation des documents. Nous nous intéressons dans la partie suivante au contexte documentaire dans les documents audiovisuels.

Contexte et audiovisuel

C'est une trivialité de dire qu'un document audiovisuel est éminemment contextuel, c'est à dire que la perception d'une quelconque de ses parties subit l'influence de son entour pour sa compréhension (souvenons-nous des études des formalistes russes sur le montage et la compréhension des plans en contexte). En retour, toute partie d'un document contribue par sa présence à la compréhension des autres et du document dans sa globalité. Remarquons par exemple que présenter un plan seul comme extrait d'un document à l'utilisateur dans l'interface graphique d'un système d'information audiovisuel n'est pas forcément pertinent, puisqu'il y aura alors perte de sens du fait de la perte d'enchaînement avec les plans précédents et suivant. Le montage d'un document est la mise ensemble d'éléments suivant des règles mises en place au fil des années, dans l'objectif de faire passer un contenu documentaire au spectateur, en faisant une utilisation la plus rationalisée possible des règles d'appréhension du contexte dans l'audiovisuel. Par exemple, un bruit sourd accompagnant l'image d'un coup de poing impose au spectateur de ressentir de façon bien plus importante le coup en tant que tel. Une musique pourra accompagner un personnage au début d'un film, et être ensuite utilisée pour évoquer (consciemment ou non) la présence du personnage dans la suite. Les exemples sont aussi nombreux qu'il y a de manière de filmer, de monter et bien entendu d'appréhender les documents audiovisuels.

Nous ne nous intéressons pas ici à la manière dont la vision d'un document audiovisuel et son interprétation sont contraintes par le contexte << cognitif >> et les liens réalisés dans le cerveau de l'utilisateur. Nous nous limitons au contexte tel qu'il peut être étudié au niveau de documents audiovisuels annotés, c'est à dire tels que les connaissances utilisées pour étudier le contexte soient opérationnalisées en machine15.

Nous considérons alors qu'il existe dans l'audiovisuel deux types de contextes liés à leur annotations.

Contexte temporel

Le contexte temporel est le contexte d'appréhension le plus simple, lié à la temporalité du médium. Deux plans qui se suivent seront appréhendés en tant que tels, c'est à dire que le deuxième plan sera regardé en connaissant déjà le premier. Dans le cadre de la stratification, les annotations de deux strates qui se recouvrent partagent un même contexte temporel. Davis [75], à la suite de [4] considère en effet que deux types d'informations se trouvent dans les documents audiovisuels : les informations locales, qui décrivent ce qu'il se passe à l'image16 et doivent être le plus possible décontextualisées ; et les informations globales, qui sont traitées contextuellement et mettent en relation les informations locales. Le courant de recherche autour de la stratification s'est donc dès le départ opposé à l'approche de segmentation, prônant une annotation libre du flux (i.e. autorisant autant de couches de description que nécessaire), et a étudié le contexte, reconnaissant qu'il était nécessaire de contextualiser toute partie de document afin de lui donner sens. [4] :<< The task that lies ahead is to recognize context as an essential element of the computer representation of the moving image >>.

Le vecteur du contexte temporel est simplement la temporalité du flux, qui permet de mettre en rapport les parties de documents, et dans le même temps les annotations.

Contexte conceptuel

Le contexte conceptuel ou sémantique concerne toutes les autres relations contextuelles, par exemple le fait qu'un ensemble de plans soient regroupés dans une scène, ou que la voix d'un personnage en accompagne un autre. En fait, le contexte sémantique fait appel à n'importe quel lien de co-référence explicite (explicitée) entre objets temporels du flux audiovisuel. Par exemple, le personnage habillé en noir qui est sorti de la voiture est bien le même que celui qui ouvre la porte au plan suivant, ce qui va nous permettre de comprendre ce qu'il fait ensuite.

Le contexte structurel provient de la structuration hiérarchique du document : les parties de document sont mises en contexte par le biais des liens hiérarchiques. Par transitivité, les annotations annotant des parties de documents sont en relation par ce même biais, c'est à dire que certaines annotations peuvent être expliquées et enrichies par les annotations avec lesquelles elles sont en relation. Par exemple, les annotations d'un plan peuvent annoter contextuellement la séquence qui le contient [63], tandis que le plan peut hériter des annotations du document (par exemple le nom du réalisateur). Ce type de contexte peut être rapproché de la notion d'attribut << propagé >> au long de relations structurelles [56], le problème étant alors de décider quels attributs vont être propagés et quels autres ne le seront pas.

Les contextes sémantiques autres que le contexte structurel prennent avantage de toutes les relations possibles de structuration du document. Par exemple un graphe d'annotation basé sur une description narrative telle que proposée dans [228] permet de mettre en relation contextuelle deux parties de document annotées par des actions participant d'une même histoire. D'un manière légèrement différente, les liens de connaissances entre annotations -- par exemple le fait d'utiliser deux fois la même annotation pour annoter deux parties différentes d'un même document -- permettent de mettre en relation contextuelle ces deux parties. [123] met en place des contextes basés sur la réutilisation de parties de documents dans d'autres, ce qui est fréquent dans les journaux télévisés. La structure ici utilisée concerne donc des << liens de réutilisation >> de parties de documents, très utilisée dans le domaine des journaux télévisés.

En conclusion de cette partie, retenons que le contexte audiovisuel peut et doit être pris en compte dans l'exploitation des documents, par le biais des annotations. Deux vecteurs de contextualisation existent, d'une part la temporalité inhérente aux flux audiovisuels permet de toujours situer temporellement l'une par rapport à l'autre deux annotations d'un même flux ; d'autre part la structuration de l'annotation permet de mettre en place et d'utiliser des relation contextuelles conceptuelles explicites.

Description et exploitation en contexte

Nous sommes maintenant à même de présenter ce que sera notre approche de représentation audiovisuelle. Nous considérons en effet qu'il faut mettre en place des annotations et de la même façon le contexte qui les explique au moment de l'écriture, permettant leur compréhension par contextualisation au moment de la lecture.

Description de documents

Nous considérons alors l'indexation comme une description en contexte, une écriture sur le document à l'aide des caractéristiques de description disponibles qu'il s'agira de structurer.

Plus, nous posons que les principales tâches exploitant un système d'information audiovisuelle peuvent se décrire en terme de description. Ainsi :

Ecriture et lecture en contexte

Nous avons vu qu'il était nécessaire de prendre en compte le contexte dans les annotations de documents audiovisuels, et que ce contexte prenait appui soit sur la temporalité inhérente au médium, soit sur la structure construite. En d'autres termes, l'annotation pourra toujours être interprétée dans le contexte temporel des autres annotations (et de la visualisation des parties de document qui y correspondent), mais la mise en place d'une structuration de celle-ci lui permettra d'être elle-même son propre substrat d'interprétation contextuelle.

C'est à dire que si le contexte temporel est partagé dans toute utilisation de document audiovisuel, principalement pour la visualisation (du document, mais aussi des annotations), nous considérons que le contexte sémantique est lié aux circonstances de la contextualisation par l'utilisateur, donc à ses différentes tâches d'exploitation.

Comme nous avons vu que ces tâches impliquaient toujours une description de parties de documents audiovisuels, cette description n'est rien d'autre que l'explicitation d'annotations symboliques et leur placement dans des contextes où elle prennent sens. Nous considérons que la mise en contexte, la contextualisation est une opération de base de toute tâche de description.

Ainsi,

Nous posons donc qu'il existe un lien entre les contextes orientés sur les tâches (au niveau de l'utilisateur, par exemple contexte de production ou de réception du document) et les contextes intra-documentaires (niveau du document). En effet, prendre conscience d'une relation contextuelle dans un document audiovisuel est une opération réalisée dans le cadre d'un processus de description.

 Finalement, nous ramenons toute tâche d'exploitation d'un système d'information audiovisuelle à une tâche de lecture et/ou d'écriture en contexte sur le document. Il s'agit alors d'être à même de décrire des annotations et des contextes, pour mettre en place et exploiter un texte d'annotations (le terme << texte >> est ici pris dans le sens d'ensemble structuré de symboles manipulables en machine et interprétables par l'être humain). En d'autres termes, il s'agit non seulement d'annoter un flux audiovisuel, mais aussi de documenter l'action d'annotation, c'est à dire d'expliciter contextuellement pourquoi cette annotation a été mise en place et ce qu'elle signifie. Il va de soi que c'est la structuration, autorisant les relations contextuelles, qui permettra de mettre en place cette possibilité de contextualisation.

Quelques questions qui se posent alors sont : comment décrire une image, un son, un flux audiovisuel avec des termes-symboles ? Comment structurer les connaissances de description ? Comment écrire avec des symboles sur des documents non interprétés pour les documenter en vue de leur exploitation ? Comment exploiter et lire en contexte de tels << textes >> ? Enfin comment lier une exploitation à la tâche d'un utilisateur ?

Autant de questions auxquelles nous tenterons de fournir un début de réponse dans la deuxième partie de ce mémoire.

Nécessités pour la modélisation audiovisuelle

Nous concluons ce chapitre en évoquant quelles sont à notre sens les nécessités à prendre en compte lorsqu'il s'agit de mettre en place des modèles de représentation de documents audiovisuels pour des systèmes d'information audiovisuelle modernes.

.

Tout d'abord, il nous semble nécessaire de pouvoir prendre en compte n'importe quelle caractéristique de description, quel que soit son niveau (primitive ou caractéristique) et le flux auquel elle s'adresse (un flux particulier ou l'ensemble).

Cependant il nous paraît nécessaire de nous concentrer sur les caractéristiques interprétables mises en place manuellement. Il y a plusieurs raisons à celà. La première est que les caractéristiques calculées interprétables souffrent le plus souvent de n'être calculées que parce qu'elles pourraient être utiles (par exemple un mouvement). Définir des caractéristiques de haut-niveau utiles peut alors permettre de fixer des objectifs aux calculs de caractéristiques, guidant par les besoins la recherche en traitement automatique des flux audiovisuels.

La seconde raison concerne le lien avec les primitives. Nous avons en effet vu que les calculs de similarités étaient le plus souvent considérés pour eux-mêmes, également hors-besoins18 , et ne signifiaient la plupart du temps pas grand chose. D'autre part, les calculs de primitives nécessitent beaucoup d'espace de stockage et surtout de calculs de similarité, ils gagnent donc à être utilisés associés à des caractéristiques de haut-niveau, une première recherche sur celles-ci permettant de réduire l'espace de recherche dédié à la mesure de similarité. Mieux, nous pensons que c'est la mise en contexte par les annotations de haut-niveau qui permet d'expliquer pourquoi une primitive et une similarité sont utilisées19. Il conviendra donc de permettre l'étude des relations entre caractéristiques de haut-niveau et primitives dans des modèles mêlant le plus harmonieusement possible les deux niveaux.

Enfin, il nous paraît que la modélisation de documents audiovisuels devra permettre d'intégrer toute caractéristique non encore connue ou étudiée, ainsi que toute (future) documentation livrée avec le document électroniquement créé.

.

Il est également nécessaire d'avoir une description non figée d'un document audiovisuel, qui permette tout ajout. L'annotation doit être adaptée au caractère temporel du flux, et le niveau de granularité ne peut être fixé a priori. La description doit servir de base à toute utilisation des documents audiovisuels (recherche, navigation, édition, lecture active, présentation,...), c'est à dire qu'elle servira de documentation permettant toute exploitation des documents. L'entour d'un document (articles, scripts,...) doit pouvoir être considéré par la médiation du modèle de représentation.

.

Le modèle devra aussi permettre l'annotation comme écriture sur les flux audiovisuels. Cette annotation pourra se faire en contexte, temporel ou conceptuel, c'est à dire que l'on pourra expliciter toutes les structures nécessaires. L'annotation pourra se faire de façon totalement libre.

.

Il y a également lieu de fournir le moyen de spécifier des schémas de description, c'est à dire des règles d'indexation des documents en fonction de leurs genres (comment décrire, avec quoi, avec quelle structure). Une approche documentaire de l'audiovisuel devient alors possible20, et les schémas de description devront pouvoir être étudiés pour eux-mêmes, en rapport avec les annotations qu'ils permettent de mettre en place.

.

La description de contextes, aussi bien intra- qu'inter-documentaire devra être possible, afin de pouvoir gérer les contextualisation de lecture ou d'écriture. En effet l'utilisateur (comme la machine) doivent pouvoir s'intéresser à la description d'une quelconque unité documentaire considérée comme immergée dans le document et la collection de documents auxquels elle appartient, contexte qui devra être contrôlé suivant la tâche courante. Le contexte en tant que tel (temporel21 ou conceptuel) doit être partie intégrante du système dès la mise en place de celui-ci.

.

En plus et avec les schémas de description, la modélisation de documents audiovisuels devra permettre un contrôle des connaissances de descriptions en termes de descripteurs. Ceux-ci devront être organisés en fonction des tâches de l'utilisateur et les visées du système.

.

Le système sera en fait un système d'information, qui permettra de gérer l'ensemble de ses informations comme des connaissances, idéalement de la même manière, car toute connaissance sera connaissance d'utilisation. Ainsi, il sera par exemple utile de pouvoir raisonner sur cette connaissance, l'indexation étant alors réellement intelligente22.

.

La modélisation de documents audiovisuels devra permettre de tendre vers une intégration des modélisations, c'est à dire permettre de décrire au maximum toutes les utilisations d'un document en tant que description. Par exemple, la recherche comme la navigation doivent au maximum être décrites par des descriptions dans le même modèle que les documents. Ajoutons que la recherche par requêtes et la navigation devraient idéalement converger vers des descriptions uniques permettant de fondre ces deux modes de recherche.

.

La modélisation devra permettre la prise en compte aisée, et dès la conception, de l'expérience d'exploitation du système. Deux objectifs sont liés à cette capitalisation des traces d'expérience. D'une part pouvoir analyser les exploitations diverses qui seront faites des descriptions, la pratique de l'utilisateur, ainsi par exemple pouvoir les améliorer. D'autre part assister l'utilisateur dans ses tâches d'exploitation. Ce dernier point nécessite d'être à même de décrire les tâches de l'utilisateur comme les services rendus par le système, afin de pouvoir conserver l'expérience, la documenter, la réutiliser. l'assister.

.

Enfin, la modélisation choisie doit permettre l'expérimentation. En effet, à l'inverse des textes pour lesquels des modèles de description existent déjà, et ont été largement étudiés, utilisés, etc. bref sont raisonnablement fondés, les documents audiovisuels indexés n'existent que depuis peu, et leur exploitation numérique se cherche encore. L'écriture sur les documents audiovisuels doit donc a priori être très libre, simplement dans l'objectif de pouvoir étudier celle-ci et de mettre petit à petit en place des canons de descriptions pour les tâches actuellement imaginables, mais aussi à découvrir.

Nous nous intéresserons donc à un modèle de représentation qui autorise toutes descriptions et toutes utilisations. Il s'agit alors de pouvoir exprimer le maximum de choses, de pouvoir interroger de façon très variée, tout en offrant la possibilité d'apprendre du système naturellement les descriptions et les modes de description utiles.


next up previous contents
Next: Strates Interconnectées par les Up: Modélisation de documents audiovisuels Previous: Etat de l'art de
Yannick Prié
2000-01-25