Etat de l'art de la représentation de documents audiovisuels

Les travaux que nous avons étudiés ont tous comme point commun de s'occuper de documents audiovisuels. Cependant, les approches proposées, les systèmes mis au point, la manière même d'appréhender les documents varient suivant la communauté de recherche des auteurs. De la même manière que les préoccupations d'une communauté varient, la considération de l'audiovisuel numérique n'a pas non plus été la même partout. Il n'existe donc pas de communauté de l'audiovisuel numérique stable et établie, bien que la tendance soit à la convergence, suivant en cela ce qui se passe autour du Web et du multimédia en général.

Nous présentons dans la suite quelles approches ont pu être développées en rapport avec les documents audiovisuels. Bien évidemment, les divisions que nous fournissons sont caricaturales, et de nombreux travaux transcendant les domaines existent. Nous espérons seulement que cette division permettra d'appréhender mieux l'état de l'art de la représentation audiovisuelle que nous présentons dans ce chapitre.

Traitement du signal.

Le signal ici traité est le plus souvent le signal image, et l'objectif ancien et avoué est de calculer, de trouver le sens d'une image, c'est à dire quels sont les objets qu'on y trouve, leurs relations, objets que l'on pourra ensuite utiliser, par exemple pour choisir le chemin d'un robot, ou envisager la présence d'une tumeur. Avec la possibilité de créer de grandes bases d'images se pose la question de retrouver une image dans la base à partir d'une description. Cette description s'exprime dans un langage d'indexation, qui peut être basé sur des primitives de très bas-niveau, par exemple un taux de couleur, ou encore des formes et leurs relations. Au lieu d'interroger directement la base en fournissant les descripteurs de recherche, il est également possible de les calculer à partir d'une image présentée par l'utilisateur. Ils sont alors comparés aux descripteurs de la base en fonction de mesures de similarité [10]. Les résultats ne sont pas binaires, mais peuvent être classés : la réponse à une requête n'est pas une partition de la base, mais un classement des documents de celle-ci en fonction de leur similarité [203]. S'ajoute également la possibilité de combiner différents opérateurs de similarité et d'utiliser du bouclage de pertinence [180,164].

Avec l'image animée, plusieurs champs de recherche s'ouvrent, tenant compte des caractéristiques temporelles du flux. Il devient par exemple possible d'essayer de repérer des mouvements d'objets ou de caméra [10] ; ou de segmenter le flux, c'est à dire de repérer des ruptures de plans. Enfin, considérant qu'une image bien choisie peut être représentative d'un plan (keyframe), il devient possible de retrouver des plans par similarité d'image.

Bases de données.

Les spécialistes des bases de données se sont attaqués aux documents audiovisuels suivant deux axes différents. Le premier axe concerne les flux audiovisuels eux-mêmes, il s'agit alors de considérer des bases de très grande taille, et d'organiser celles-ci de telle sorte que les requêtes sur les flux puissent être servies avec des débits de qualité suffisante. Cela peut par exemple se faire en organisant les données de telle sorte que les plus demandées soient les plus accessibles, et en parallélisant les accès [166].

L'autre point de vue concerne les index, leur organisation et les requêtes qu'il est possible de mener dessus. Les schémas de description choisis sont en général des extensions de schémas classiques intégrant la composante temporelle des descripteurs. Certaines études prennent en compte la notion de document audiovisuel, c'est à dire qu'elles cherchent à définir des schémas de description adaptés aux documents et à leur décomposition [121,2], d'autres se contentent de décrire des objets temporels sans s'intéresser à la sémantique de ceux-ci [76].

L'intégration du multimédia aux bases de données est un processus difficile au sens où les extensions ne suffisent pas et qu'il convient de prendre en compte les composantes image et son des documents [111], c'est à dire les descripteurs de bas-niveau. D'autre part, l'extension des bases de données à la recherche d'information, c'est à dire à un processus de recherche de données incomplètes, partiales, et ne répondant pas obligatoirement à des schémas figés n'est pas évidente, mais les bases de données semi-structurées [150] s'attaquent désormais à ces problèmes.

Recherche d'information.

La recherche d'information classique s'est principalement intéressée aux documents audiovisuels en tant que ceux-ci sont décrits comme des documents quelconques, par exemple à l'aide d'un ensemble de mots-clé, ce qui permet d'appliquer des algorithmes stables et réputés pour leur recherche. On notera que les seuls systèmes opérationnels et utilisés à l'heure actuelle reposent sur de telles approches, en se basant sur l'utilisation des sous-titres ou de la reconnaissance vocale des paroles pour mettre en place des textes d'indexation qui pourront alors être traités par des approches standards [35]. Ce genre d'approche est également très utilisé au Japon [221,16].

Multimédia / synthèse.

Le multimédia s'intéresse au document audiovisuel de deux manières. D'une part il s'agit d'intégrer des documents audiovisuels aux documents multimédias, en tant que << briques de construction >>, et donc d'en gérer la temporalité et les comportements [199].

Il s'agit d'autre part d'accroître les capacités multimédia du document audiovisuel, principalement en y ajoutant la possibilité de navigation suivant des liens insérés dans les images [170,107], ce qui peut conduire à créer des documents à structure non temporalisée de façon unique, puisqu'on pourra par exemple choisir comment se déroule un film, en intervenant directement sur celui-ci [204].

La synthèse de documents audiovisuels artificiels, les formats permettant de décrire des mondes en trois dimensions sont des secteurs qui prennent de l'importance du fait du développement de MPEG4, puisqu'un flux peut alors être décrit en terme d'objets, de leurs mouvements et interactions.

Intelligence artificielle.

Certains membres de la communauté d'intelligence artificielle se sont intéressés aux documents audiovisuels, dans le but de réutiliser par exemple des techniques d'organisation de termes de description en base de connaissances [82]. D'autres travaux s'intéressent à l'édition automatique de documents, par exemple [200]. Plus généralement, il s'agit d'identifier les connaissances liées à l'exploitation d'un document audiovisuel, et les règles qui peuvent y être appliquées afin de réaliser une exploitation automatique (par exemple du montage).

Document structuré.

Certains membres de la communauté des hypertextes et des hypermédias, c'est à dire des documents structurés tels que SGML, HyTime ou XML s'intéressent depuis peu aux documents audiovisuels, essayant de mettre en place des véritables définitions de types de documents (DTD) adaptées à l'audiovisuel [19]. L'objectif à long terme consiste à mettre en place des modèles de documents correspondant à des genres de documents, c'est à dire à décrire la structure d'un document et ses descripteurs dans des formats échangeables. Toutes proportions gardées, il s'agit d'essayer qu'une communauté semblable à celle de la TEI fasse le même travail, mais cette fois sur des documents audiovisuels [21].

Industrie.

Terminons en évoquant un moteur de la recherche qui n'en est pas un acteur classique, mais se révèle extrêmement vivace. Les enjeux liés à la distribution de contenus audiovisuels numériques sont en effet très importants, et nombre de sociétés (industrie du logiciel multimédia, fournisseurs de contenu, diffuseurs) se réunissent pour essayer de définir les normes qui permettront ces échanges. Le consortium W3C¹ développe par exemple simultanément un grand nombre de standards, dans des délais relativement impressionnants.

En conclusion.

Il nous paraissait nécessaire d'essayer de fixer grossièrement -- et à la manière d'un contexte de lecture -- quels étaient les enjeux de recherche, les objectifs de différentes communautés. Notons cependant que les travaux inter-communautaires existent et ne peuvent que se développer pour permettre d'avoir une vue unifiée sur les documents audiovisuels, notamment les bases de données, la recherche d'information structurée et l'intelligence artificielle (gestion des connaissances).

La suite du présent chapitre présente une analyse de l'annotation de documents audiovisuels en termes de caractéristiques de modélisation et de structuration.

Caractéristiques d'annotation de documents audiovisuels

Le terme contenu (content en anglais) apparaît plus souvent qu'à son tour dans les titres des articles consacrés aux SRI audiovisuels. Cependant, il importe de réaliser que pour beaucoup d'auteurs (pour la plupart issus du traitement d'images), ce terme ne regroupe le plus souvent que des caractéristiques extraites automatiquement des données brutes. Cela est particulièrement frappant par exemple dans [10] : <<Not only content-based retrieval reduces the high variability among human indexers...>>. Dans l'esprit des auteurs, la recherche basée sur le contenu ne s'appuie que sur une détection automatique.

Il nous semble que la notion de contenu -- ou au moins de contenu sémantique s'il faut préciser -- doit s'appliquer à des concepts de tout niveau. Ainsi un histogramme de couleur fait partie du contenu d'une image au même titre qu'un objet détecté y aurait sa place, et a fortiori toutes abstractions conceptuelles. Le contenu est donc simplement dépendant de la personne qui le met en place et qui le lit, et pourra être plus ou moins bien partagé.

De la granularité de l'annotation

Les caractéristiques d'annotation de document audiovisuel représentent des contenus de documents audiovisuels de tout niveau. Ces représentations de contenus sont attachés à des parties de documents. Il faut donc s'interroger sur la manière dont se fait le découpage de ces parties, et quelles en sont leurs caractéristiques.

Deux approches de segmentation se distinguent généralement : la segmentation a priori du document, et la segmentation au besoin, aussi appelée approche de stratification.

Segmentation a priori

La segmentation a priori suppose qu'il existe des unités du document audiovisuel qui peuvent être mises en place dans un premier temps, l'annotation, la description de ces unités se faisant dans un deuxième temps. L'unité de base considérée est en général le plan, car celui-ci correspond à une unité de montage, et -- de façon présupposée -- d'analyse.

Comme les plans peuvent de plus être détectés dans leur majorité de façon automatique², la segmentation a priori en plans semble désormais être un standard de fait de la représentation audiovisuelle.

Prenant en compte le document dans son ensemble, le niveau suivant de segmentation a priori concerne le regroupement des plans en scènes, et des scènes en documents, avec éventuellement des regroupements intermédiaires. Le problème principal de cette approche -- nous reviendrons dessus -- réside dans le fait que d'une part la décomposition primaire du document est forcément un arbre, que d'autre part si la détection et la définition des plans ne souffre pas de discussion, celles des scènes sont beaucoup plus ambiguës.

Stratification

L'approche de stratification [73] prend pour principe que toute mise en place d'une annotation correspond en même temps à la définition du segment audiovisuel annoté. C'est par exemple parce que le personnage << Chirac >> est repéré dans un document que l'on va définir une strate, laquelle sera alors annotée par le mot-clé Chirac.

L'approche de segmentation a priori est en effet critiquée par un certain nombre d'auteurs, au nombre desquels Davis [75], en se basant sur le fait qu'en dehors d'eux-mêmes, plans et séquences ne représentent pas grand chose, et que les effets de montage sont là pour nous le prouver (cf. 1.1.4). Le contenu doit donc être considéré de la façon la plus globale possible dans le document, par exemple un simple descripteur vidéo tel qu'un mot-clé attaché à un personnage peut se prolonger sur plusieurs plans, et on ne doit pas suivre à la lettre les limites << syntaxiques >> imposées par la segmentation. La redondance de l'annotation de plans différents mais ayant un élément de contenu similaire est un autre élément en défaveur de la segmentation pour Davis, ainsi que la perte de linéarité qui s'ensuit (ce qui semble un comble pour un média temporel !).

En conséquence, suivant en cela [6,5], Davis propose non plus d'attacher des descripteurs de contenu à des segments dûments repérés mais à des strates simplement repérées par leur instants début et leur fin.

La stratification permet la cohabitation de considérations différentes sur des morceaux de vidéo identiques. Son indépendance par rapport à toute segmentation permet de définir des strates liées à tout niveau d'analyse du document que celle-ci soit consacrée aux textures ou aux personnages.

La stratification lie donc de façon indissoluble l'annotation et le segment annoté. Un document annoté est alors un ensemble de strates et leurs annotations. Une structuration des strates entre elles n'existe alors pas a priori.

Granularité de l'annotation

La granularité de l'annotation globale d'un document audiovisuel correspond au degré de précision de l'annotation, c'est à dire à la taille des segments considérés dans le processus d'annotation. Il est en effet possible d'annoter une simple image d'un document comme le document dans son ensemble.

La notion de granularité peut s'étendre aux considération spatio-temporelles sur un document. Ainsi on peut considérer différentes granularités d'analyse d'une image détemporalisée, ou bien d'un flux, c'est à dire par exemple d'un objet filmé qui se maintient à l'image pendant quelques secondes.

Il va de soi que les caractéristiques d'annotation d'un document audiovisuel dépendront du niveau de granularité choisi. On annotera par exemple un document avec le nom de son réalisateur³, tandis qu'une image pourra être décrite par une composante globale de texture. Ces choix de granularité sont également guidés par les buts de l'application à mettre en place, et ce au niveau de l'indexation, mais aussi à celui de la présentation des résultats : dans un système documentaire audiovisuel basé sur des notices textuelles comme Questel⁴ par exemple, le grain choisi est gros, puisqu'une notice représente un document. Dans un système plus évolué, on pourra choisir d'indexer plan par plan, et d'offrir la possibilité à l'utilisateur de visionner les documents retrouvés plan par plan (mais on aurait aussi pu indexer le document globalement, tout en gardant la visualisation au niveau du plan).

Quelques auteurs proposent une classification des caractéristiques liées à l'audiovisuel, Jain [130] considère trois classes de caractéristiques liées aux images :

Rowe et al. [198] après une étude des utilisateurs et des types de requêtes audiovisuelles considèrent trois types de caractéristiques :

Dans [131], Jain et al. présentent le modèle de données ViMod de représentation de documents audiovisuels, et les caractéristiques utiles, qui sont réparties en cinq classes en fonction :

Primitives

Signatures globales images ou son.

Les signatures globales correspondent à un calcul sur l'ensemble d'une image ou la longueur d'une << strate sonore >>, et concernent le plus souvent les textures ou les histogrammes couleurs, sur lesquels sont réalisés des similarités. Ces primitives correspondent au plus bas-niveau de l'analyse, et nombre de systèmes ne reposent que sur elles, par exemple [140,59,99,133,238]. Ces primitives correspondent à ce qui est parfois appelé niveau physique [151]. L'extraction d'un spectre sonore relève de ce niveau de signature.

Contours, formes, positions relatives.

L'extraction de régions (ou << objets visuels >>) se base sur la détection de contours et de formes en prenant en compte les couleurs, les textures, la luminance ou toute autre caractéristique des images [251,206]. Les positions relatives entre régions peuvent également être calculées, l'image étant considérée comme un graphique dont les éléments sont détectés. Ce niveau peut également être appelé niveau image [151]. Les similarités peuvent ici se baser sur des comparaisons de régions en termes de forme et de couleur, ou encore sur des relations respectives entre régions.

Points d'intérêt.

Chercher des points d'intérêt dans une image consiste à essayer d'y trouver des points invariants qui en soient caractéristiques, le plus souvent placés sur de forts gradients de couleurs. Par exemple [32] réduisent ainsi une image à quelques centaines de points d'intérêt contenant des informations de couleurs, mais également de forme, sur lesquels il est possible de calculer des similarités.

Mouvements de caméra et d'objets.

Comparer deux images permet d'en trouver les différences, donc de détecter des mouvements globaux de formes, par exemple d'objets, qu'on peut alors coder avec leur couleur, leur texture, leur taille, leur trajectoire et leur vitesse, et rechercher avec ces critères [51,248,81], . Il est également possible de repérer les mouvements de caméra, ce qui correspond à un mouvement global du fond de l'image [89], ou bien d'extraire les arrières plan d'une scène [238].

Sons.

Les travaux sur les primitives sonores concernent principalement des caractéristiques perceptuelles et acoustiques permettant de retrouver par exemple des mélodies ou des sons [241,229], ou de détecter des occurrences de mots cherchés. Une étude des travaux sur les systèmes de recherche d'informations sonores se trouve dans [100], la navigation dans les bases sonores est également étudiée. A notre connaissance, ces travaux ne sont pas encore intégrés aux systèmes d'information audiovisuels, mais les travaux sur la norme MPEG-7⁵ prennent en compte cette dimension.

Caractéristiques calculées de haut-niveau d'abstraction

L'objectif principal du traitement automatique est de définir des caractéristiques qui aient une signification pour une majorité d'êtres humains, c'est à dire qui puissent être interprétées facilement. Tout est bien évidemment une question de degré : un taux de couleur aura sans doute du sens pour le scientifique qui l'a calculé, lequel fera le lien entre les images et les résultats de calcul, et sera donc capable d'interroger un système basé sur elles, tandis que pour le reste du monde la primitive sera incompréhensible.

L'enjeu principal est donc de passer à des caractéristiques de haut-niveau, c'est à dire ayant des résultats qui ne soient plus sous forme numérique, par exemple faire le lien entre un changement numérique d'histogramme de couleur et une rupture de plan. Parmi la multiplicité des traitements numériques possibles sur un flux audiovisuel, il s'agit donc de trouver ceux qui permettent d'atteindre au contenu de l'image tel que l'homme l'interprète. Mais il ne s'agit pas non plus de s'illusionner, nous avons en effet vu que l'image était un matériau qui nécessitait une interprétation, c'est à dire au minimum quelques prescriptions culturelles ou factuelles. C'est pourquoi un certain nombre de traitements font également appel à des connaissances extérieures au document, ou au moins des connaissances sur le type de document afin de pouvoir mettre en place des caractéristiques de haut-niveau.

Les caractéristiques calculées ont toutes des résultats sous forme numérique, et c'est l'interprétation que l'utilisateur fera de ces derniers qui permettra de les qualifier selon des caractéristiques interprétées. Par exemple, le repérage d'un ensemble de vecteurs mouvements sur les bords d'images successives ne représente que lui même. Si le dépassement d'un seuil mène à un résultat binaire 0 ou 1 pour une caractéristique, celle-ci n'en reste pas moins calculée. Alors soit le résultat du calcul est validé à la mise en place, donc interprété ; soit l'utilisateur est conscient d'avoir devant lui le résultat d'un calcul, et a accès à l'algorithme correspondant, il peut donc interpréter ce résultat ; soit l'origine de la caractéristique a disparue, et toutes les erreurs d'interprétation sont possibles.

Nous présentons dans la suite quelques classes de calcul correspondant à des caractéristiques calculées de haut-niveau.

Ruptures de plans.

Comme nous l'avons vu, le plan est l'unité de montage vidéo, et est considéré comme l'unité minimale d'analyse. Comme de plus il est relativement aisé de calculer les ruptures de plans nettes à l'aide de caractéristiques globales, on concevra qu'une littérature pléthorique soit consacrée au sujet depuis de nombreuses années. Les difficultés principales consistent d'une part à éviter les fausses ruptures de plans (par exemple dues à des mouvements rapides de la caméra, ou bien à un objet qui occulte l'image), et à détecter convenablement les effets de montage différents du simple << cut >> (par exemple les fondus ou les volets). On notera que le problème de la détection des plans ne se posera plus à moyen terme (sauf pour les documents anciens), puisque le montage numérique permet de récupérer exactement les plans tels qu'ils ont été découpés, qu'il suffira d'intégrer au format du document.

Détection de scènes.

La problématique de la détection de scènes résulte de la volonté de dépasser le niveau du plan pour atteindre à des unités structurelles de plus haut-niveau sémantique. Il s'agit donc de regrouper des plans en des unités ayant une continuité sémantique sous le rapport d'une action dramatique déterminée.

Plusieurs méthodes ont été utilisées. Une méthode totalement automatique repose sur la comparaison de similarités d'images entre plans (i.e. entre images considérées comme représentatives de plans). Par exemple [247,245] mettent en place des graphes de similarités entre plans, et considèrent des groupes (clusters) de plans similaires temporellement liés, qui sont alors supposés représenter des << unités d'histoire >>, et donc des scènes du documents. L'analyse menée sur des séries télévisées donne des résultats intéressants, mais il convient d'en considérer les limites : si une des règles de mise en place de fiction implique une unité de lieu correspondant à une scène, c'est dans le cas des séries télévisées que ce principe est appliqué de façon caricaturale (nombre de décors limité, peu de mouvements de caméra), acteurs relativement statiques, etc. Des travaux du même ordre ont été menés par [53,137].

Il est également possible d'utiliser d'autres connaissances de règles de montage pour détecter des unités structurelles de plus haut-niveau que les plans. Par exemple [9] ont mené un travail d'expertise auprès de spécialistes de l'audiovisuel, et mis en place quelques règles permettant de décider de reconnaître des séquences. Ces règles portent par exemple sur les types d'effets de transitions, la répétition de plans, l'apparition de la musique, le rythme d'édition, ou les mouvements de caméra et permettent de mettre en place une macro-segmentation basée sur des opérations de fusion, de précédence, etc. [26] ont également travaillé sur ce sujet, et détectent des types d'événements (dialogue, narration), des nombres de personnages. Si par exemple des plans similaires deux à deux en classes A et B s'enchaînent sous la forme ABABA, on pourra alors décider de regrouper tous les plans en une scène de dialogue (champs/contre-champs). Dans le même ordre d'idée, [45] propose de regrouper les plans en scènes à l'aide de règles de subsomption portant sur des concepts de montage cinématographique décrits dans une logique de description étendue à la gestion de règles temporelles. [141] regroupe les plans suivant des critères issus de l'analyse de la bande-audio. Des plans contigüs et ayant une bande sonore similaire (typiquement un commentaire dit par une même personne) sont fusionnés dans une même scène.

[237] a pour objectif de relier de façon automatique le synopsis détaillé d'un épisode d'une série télévisée à la bande vidéo, afin de segmenter celle-ci. La reconnaissance des personnages (aidée par l'utilisateur) et l'utilisation des sous-titres permettent la décomposition du document en scènes et en unités structurelles telles qu'indiquées dans le script.

Travail sur les genres de documents.

Les travaux que nous venons de citer s'appuient en fait sur des connaissances extérieures au document, qui portent sur la nature suffisamment stéréotypée de ceux-ci pour pouvoir en reconnaître la structure. Si certaines de règles sont de nature relativement générale par rapport aux documents audiovisuels (dialogue = ABAB), c'est souvent sur le genre du document que l'on s'appuie.

Par exemple, [220] décomposent un document de genre extrêmement précis⁶ << Journal Télévisé CNN >> en une structure prédéterminée, en se basant sur des diagrammes d'états et des modèles d'épisode à l'aide d'un automate. Les séquences plateau sont ainsi reconnues et séparées des séquences de reportage. [92] tirent également partie du genre du document.

La détection de formes, et leur qualification peut être guidée par des connaissances de genre. Par exemple si on étudie des journaux télévisés d'une chaîne sur une période donnée, alors la position du présentateur ne change pas dans certains plans, et donc il est possible de détecter sa présence plus facilement [154].

Des modèles de genre de documents peuvent également être utilisés pour reconnaître et identifier des documents comme leur appartenant. Par exemple [97] séparent la publicité des actualités.

Travail sur le son.

Nous mettons dans cette catégorie de travaux tout ce qui concerne la reconnaissance automatique de la parole, la transcription des dialogues par exemple, l'identification de la langue d'un locuteur, l'identification de locuteurs, etc. Si la majorité de ces travaux ne sont pas propres aux documents audiovisuels, d'autres sont plus spécialisés sur certains genres de documents (par exemple les reportages touristiques). [223] détecte ainsi l'apparition et la disparition de musique ou les applaudissements comme significatifs. La recherche de mots-clé appartient également à cette catégorie.

Textes.

L'extraction des textes d'une image se révèle de grand intérêt par exemple dans le cas de sous-titres, de bandeaux à l'écran. Les méthodes employées ne sont en général pas propres à l'audiovisuel, mais se basent sur les résultats de reconnaissance automatique de l'écriture.

Autres travaux.

Parmi les autres travaux portant sur le calcul de caractéristiques de haut-niveau, il convient de citer la reconnaissance du jour et de la nuit [93], des intérieurs et des extérieurs, de la ville et de la nature.

D'autres travaux encore s'attachent à détecter des passages importants dans un documents. [173] font de la corrélation entre les images (visages, personnes, extérieurs) et les passages textuels (discours, réunion, visite, lieu, foule) << importantes >> afin de distinguer quels sont les passages << importants >> d'un journal télévisé. Le système Informedia [62] se base sur une coopération entre une analyse textuelle du synopsis, fréquentielle de la parole et de la vidéo (introduction de plans, plans similaires, mouvements d'objets, reconnaissance de personnages) afin de segmenter celle-ci en strates d'intérêt censées être les plus représentatives du document. [223] utilise des connaissances du domaine (en fonction des types d'émission considérés) pour repérer les événements signifiants dans le flux audiovisuel (changements de plan, opérations de caméra, mouvement d'objets, apparition/disparition de musique, applaudissements, ...).

Dans un premier type d'approche, il s'agit d'identifier les connaissances du domaine et de les lier à des << indices >> calculables par la machine. C'est par exemple le cas de [47] qui montre que pour reconnaître des types de costumes dans une base d'images de vêtements, la position et le nombre de boutons sont des critères suffisamment discriminatoires. C'est encore le cas de la décomposition d'un journal télévisé en fonction d'un modèle.

Un deuxième type d'approche considère qu'il y a lieu d' apprendre de l'humain des indices repérant telle ou telle caractéristique de haut-niveau. Il s'agit alors de faire un lien entre des primitives de bas-niveau supposées fournir des briques de base de la représentation et des caractéristiques de haut-niveau sémantique. [165] apprennent par bouclage de pertinence (exemples positifs et négatifs fournis par l'utilisateur) des combinaisons de mesures de similarités décrivant des << concepts visuels >>. C'est également un des objectifs des travaux de Chang [50] que de lier bas-niveau et haut-niveau en apprenant de la manière dont l'utilisateur cherche. Plus récemment, [37] font de l'<< apprentissage visuel de sémantique simple >> toujours à partir d'exemples positifs et négatifs. [237] enfin repère des apparitions de personnages de séries télévisées en opérant un calage du script sur l'image, et apprend à reconnaître les personnages sur confirmation de l'utilisateur. [83] organise des descripteurs image de haut-niveau dans un hiérarchie, les termes les plus << concrets >> (par exemple ciel) étant illustrés par des réalisations en terme de primitives image (majorité de bleu par exemple). Enfin, des approches de types << fouille de données >> se mettent en place afin d'apprendre des descriptions des concepts par classification d'ensemble de pondération de caractéristiques dans les requêtes [29].

Caractéristiques interprétées

Les caractéristiques interprétées sont en fait tout ce qui est mis en place en présence de l'humain, que ce soit de façon semi-automatique ou manuelle. Dans le premier cas, le système automatique fournit alors un assistant à l'annotation qui fait une partie du travail de l'utilisateur, et propose à la validation les caractéristiques qu'il a extraites.

Davis [75] considère que la première tâche de représentation du contenu d'un document audiovisuel consiste à se donner un ensemble d'unités à même de représenter les flux temporels d'images et de sons, donc de parler d'événements temporels, d'actions humaines et d'objets dans l'espace, de personnages, d'objets impliqués dans les actions, de mise en scène, des propriétés du médium d'enregistrement, des positions relatives des objets dans les deux dimensions de l'écran, de montage (transitions cinématiques), de pensées subjectives à propos du document, etc.

Davis utilise alors de icônes comme caractéristiques, organisées dans un réseau de catégories⁷ permettant de les retrouver facilement, tandis que l'annotation proprement dite consiste à associer une ou plusieurs icônes à une strate.

Cette approche illustre plusieurs remarques concernant les caractéristiques de haut-niveau.

En premier lieu, celles-ci sont le plus souvent des termes, des mots-clé, associés à une partie de document audiovisuel. Cette partie peut être un morceau temporel, mais aussi une zone image. Par exemple, les systèmes FourEyes [179] ou QBIC [99] permettent à l'utilisateur de spécifier une zone à l'écran, que le système étend automatiquement à un repérage d'objet, il suffirait alors de nommer l'objet image repéré pour l'annoter

En deuxième lieu, les termes sont le plus souvent organisés en catégories correspondant à des niveaux de descriptions. Par exemple, [82] organisent les descripteurs en objets, lieux, temps, activités et personnes. L'activité est considérée comme centrale pour la recherche, et des liens dans la base de connaissance permettent de mettre en relation des concepts proches, par exemple l'activité naviguer sera connectée au lieu océan et à la chose bateau. Dans le thésaurus de l'INA, les termes sont organisés en quatre grandes catégories : personne physique⁸, personne morale, noms propres géographique, nom commun. Les relations du thésaurus sont les suivantes scope note (note d'application du terme), synonymie (utilisé pour), relation associative ou de voisinage (voir aussi), relations hiérarchiques (terme spécifique ou terme générique). Les relations hiérarchiques ne sont utilisées que pour les nom propres géographiques et les noms communs.

En troisième lieu, différents niveaux de description par des caractéristiques existent : du simple nom d'un personnage à des remarques sur l'atmosphère d'un film, toutes est possible. Les termes autorisés et utilisés dépendent bien entendu des visées de l'indexation. [2] décident par exemple que ne sont utiles que les objets vidéo, qui sont les entités présentes à l'écran, et les activités, qui sont des classes d'action : ils construisent leur schéma de base de données suivant ce principe.

Le cas particulier des images représentatives.

Un cas particulier est le suivant : certains systèmes utilisent des images-clé (K-frames) extraites d'un plan. Celles-ci peuvent être comptées comme caractéristiques de ce plan, ainsi que les primitives qui en seront extraites (grâce à une transitivité de bon aloi). Lorsque l'on utilise une image clé comme annotation, on peut parler d'indexation iconique. [114] y voit un certain nombre d'avantages : l'expression du contenu est plus explicite et liée au média, et permet de faire (voire est) une synthèse de différents niveaux d'analyse ; il est possible d'en extraire des caractéristiques automatiquement (comme déjà remarqué plus haut) et donc de définir des mesures de similarité ou d'envisager des requêtes visuelles. Restent cependant un certain nombre de problèmes, liés au non captage de la dynamique du média, aux problèmes de choix de l'image représentative dans le plan, et à la limite du plan elle-même, qui n'autorise des recherches qu'à ce niveau.

Considérer une image clé comme caractéristique d'un plan relève donc du choix de détemporaliser le contenu image du plan, en suspendant éventuellement l'analyse automatique de celle-ci, ou en réservant l'image clé à l'interprétation : l'utilisateur navigant dans les images peut choisir celles qui conviennent à ses désirs et ainsi atteindre le contenu audiovisuel.

Conclusion.

Nous avons distingué trois types parmi les caractéristiques qui sont les briques de base de l'annotation. D'abord, les primitives concernent principalement les données numériques non interprétables. Ensuite, les caractéristiques calculées de haut-niveau résultent d'une extraction plus ou moins automatique de caractéristiques interprétables, à partir du document audiovisuel, mais aussi de ses documents d'accompagnement et de connaissances sur les genres. Enfin, les caractéristiques interprétées sont mises en place par un utilisateur. Nous nous intéressons dans la partie suivante aux structurations possibles des caractéristiques.

Modèles de structuration

Considérant qu'il existe deux types d'informations dans les documents audiovisuels, à savoir celles qui ne dépendent pas du contexte -- car attachées à un morceau de vidéo --, et celles qui en dépendent -- car ce morceau est lui même immergé dans un document, Davis [75] considère que l'objectif de la représentation audiovisuelle en général est de fournir un cadre à même de déterminer, de représenter et de rendre compte de ces deux types d'informations.

La représentation d'un document audiovisuel dans un système de recherche d'information contient alors des informations tout à la fois locales, c'est-à-dire attachées à des parties du document, et des informations globales, concernant le document dans son ensemble.

Les informations locales peuvent être intrinsèques au morceau considéré, elles sont alors organisées structurellement en tant qu'annotation (2.3.1). Elles peuvent également découler de considérations plus contextuelles, auquel cas la médiation de l'action du contexte se fait par le biais de la description structurelle du document, et ce de façon implicite ou explicite.

La notion d'<< informations globales >> recouvre toutes les informations ayant trait à la structure du document, structure implicite quand l'axe temporel est le seul lien entre parties (2.3.2), structure explicite quand cet axe temporel se redouble d'une structure logique hiérarchique de document, (2.3.3) ou d'une structure de graphe d'annotation (2.3.4).

Une recherche d'ordre temporel dans le document peut donc se faire dans tous les cas en utilisant l'axe temporel, mais si une structure explicite est disponible, il est possible d'utiliser celle-ci et les parties qu'elle organise.

Structuration des annotations

Suivant l'approche d'analyse que nous choisissons, une partie de document audiovisuel est décrite par une annotation construite à partir de caractéristiques audiovisuelles. L'annotation peut être simplement composée d'une caractéristique, par exemple on associe un histogramme de couleur à un plan ; ou d'un ensemble de caractéristiques.

Organisation d'un ensemble de caractéristiques

Cet ensemble peut être organisé (structuré) ou non. Par exemple, une suite de mots-clé annotant un document entier est un ensemble de caractéristiques non structuré⁹. Au contraire, si l'ordre des mots-clé à de l'importance¹⁰ alors on peut parler d'annotation structurée.

Ainsi, [75] considère la possibilité de construire des << phrases >> d'icônes (cf. figure 2.1), par exemple du type sujet - action - [objet|direction] ou sujet - positionRelative - objet ou encore camera - mouvement - objet (ex. : << la caméra suit Steve >>).

**Figure:** << Arnold enfile son manteau >> et << la scène se passe au Texas, en haut d'une rue >> dans MediaStream. L'icône *Texas* nous semble un argument contre l'universalité des icônes que suppose [75].
$\includegraphics[width=200pt]{../fig/repr/icones.eps}$

Similairement, organiser les caractéristiques en ensemble de couples d'attributs-valeurs participe d'une structuration. Par exemple, dans VideoStar [124], l'annotation attachée à un segment de document audiovisuel est divisée en lieux, personnes, et événements (dans le cadre des journaux télévisés), les atttributs d'objets d'annotation dans le système OVID [178] sont équivalents.

Dans [118], les objets descriptifs contenus dans les annotations de strates se limitent au champs suivants : nom (de la personne qui fait l'action), action, receveur (objet de l'action), et à deux champs libres (l'un à mots-clé, l'autre à texte libre). Enfin, pour Adali et al. [2], l'annotation se limite à des descripteurs classifiés en objets vidéo (personnages, objets), en types d'activités (aller à la pêche), et en événements, qui sont des instanciations de types d'activité.

**Figure 2.2:** Modélisation générale d'un segment de vidéo sous la forme d'un graphe conceptuel
$\includegraphics[width=350pt]{../fig/repr/GC-simmonot}$

Il est possible de mêler caractéristiques de haut et de bas-niveau dans l'annotation. Par exemple [208] adapte l'annotation image basée sur les graphes conceptuels aux segments vidéo (figure 2.2). Un morceau de flux est alors décrit par des facettes, elles aussi organisées en graphes conceptuels. La facette signalétique contient les méta-caractéristiques classiques (auteur, date), et représente une facette contenu qui fournit des renseignements tels que la description d'actions, avec des possibilités de préciser les lieux, intervalles de temps, instruments. La facette morphologie (le << moyen de la description >>) contient quant à elle des primitives image (couleur, type de plan, mouvement de caméra) et la facette connotation se limite à des descripteurs textuels. [115] propose également de décrire des plan de façon multifacette pour réaliser une recherche d'information vectorielle.

Organisation du contenu image

Comme on peut considérer qu'une image représente un plan, l'annotation d'une image peut valoir pour celle du plan. Mechkour [151] propose avec le modèle EMIR² un modèle très riche de représentation d'image basé sur des objets-image à vues symboliques, spatiales, structurelles et perceptives intégrées avec les relations idoines dans une vue logique de l'image. La vue structurelle permet de définir dans l'image des objets, lesquels peuvent être décomposés à volonté en d'autres objets structurels. La vue spatiale et les relations spatiales permettent de spécifier les positions relatives des objets dans l'image. La vue perceptive concerne les primitives de couleur, luminosité et texture des objets, tandis que la vue symbolique permet de nommer et classifier dans une hiérarchie de types les concepts de description de haut-niveau d'abstraction (tronc par exemple)¹¹. On définit également une relation composé-de permettant d'inclure les objets les uns dans les autres. Un exemple est donné figure 2.3. On extrait de la vue logique (i.e. de l'ensemble des vues et leurs relations) un graphe conceptuel de description de l'image, et les requêtes dans la base image se font à partir de graphes conceptuels de requête. [3] proposent de représenter une image par les objets d'intérêt que l'on y trouve (personnages, objets), et les relations entre ceux-ci à l'image (par exemple touches, beneath ou right). La description se fait donc purement au niveau conceptuel.

**Figure 2.3:** Exemple de description d'image dans *EMIR*²
$\includegraphics[width=\linewidth]{../fig/repr/ex-mechkour}$

[118], qui s'intéressent en priorité aux requêtes spatio-temporelles sur les mouvements dans la vidéo organisent les annotations de segments avec la position dans l'image de l'objet en mouvement et un descriptif de cet objet (couleur, forme...).

[68] considère des annotations structurées de plans par des descriptions spatio-temporelles d'objets (c'est-à-dire un ensemble de types instanciés et de relations spatiales et temporelles entre ces instances) qui reproduisent le contenu visuel en trois dimensions¹².

Structuration implicite de documents audiovisuels

La représentation implicite de la structure du document découle de l'utilisation des parties choisies qui y sont temporellement situées. La représentation du document audiovisuel est donc la somme des annotations temporellement situées qui le composent. Cette organisation implicite est commune à tous les systèmes d'annotation annotant un document en parties temporellement comparables (i.e. situées dans une même base temporelle).

Si certains auteurs négligent au niveau de la recherche la possibilité d'exploiter les relations temporelles implicites mises en place ([75] ne gère que des réponses comme intersections de strates annotées par les termes-icônes utilisés dans une requête), d'autres au contraire se basent sur elles comme fondamentales. Par exemple [118] ont pour objectif avoué de permettre aux chercheurs de découvrir et de capter de façon assistée les relations entre objets et événements à l'intérieur d'une vidéo, ceci passant par la mise en place d'un outil graphique puissant d'expression de requêtes à caractère temporel.

La recherche dans la base objet se fait à la fois sur des requêtes textuelles de valeurs d'attributs, ou bien en naviguant dans la base d'objets, avec notamment la possibilité de désagrégation d'objets vidéo, basée sur l'héritage d'inclusion d'intervalles. Le modèle objet étendu permet de prendre en compte de façon simultanée le contenu des strates, mais aussi de leurs caractéristiques temporelles, avec les multiples possibilités d'héritage que cela permet.

Structuration hiérarchique

La structuration hiérarchique de documents audiovisuels se base sur le plan comme unité minimale (on est donc dans l'approche de la segmentation a priori), et sur l'organisation des plans en unités de plus haut niveau sémantique, telles les scènes. Celles-ci peuvent alors être regroupées au sein du document, ou dans d'autres unités encore. La structure du document est celle d'un arbre, qui peut s'apparenter à une structure documentaire classique telle qu'on la trouve dans les documents décrits dans des langages de balises (SGML, XML [234,160]).

L'arbre peut être construit automatiquement si on fait de la détection de scène telle que déjà présentée en 2.2.3. Une approche plus générale, telle celle de [52] consiste à construire une << pyramide de similarité >> par regroupement successif d'images de plus en plus représentatives du document (la pyramide est ensuite utilisée pour la recherche et la navigation).

L'arbre est cependant le plus souvent construit manuellement en suivant par exemple une hiérarchie document/scène/plan. A chacune des parties représentées par les n $\oe$ uds de l'arbre sont associées des annotations. L'exemple suivant est représentatif de ce schéma général d'annotation, qui s'est mis en place quand le statut de document audiovisuel a été perçu en tant que tel¹³.

[68] attachent aux différents segments de leur structure hiérarchique filmique un certain nombre de caractéristiques : les caractéristiques générales (auteur, date, titre) sont associées au document dans son ensemble, des descriptions textuelles aux scènes. Les plans sont quant à eux caractérisés par des primitives techniques d'une part (mouvement de caméra, angle, profondeur de champ), ainsi que par des objets. Les auteurs se basent sur les études sémiologiques de Metz [159] et en insistant sur la nécessité de prendre en compte les unités structurelles du cinéma, considèrent un film suivant une métaphore linguistique, opposant l'axe syntaxique (les éléments structurels du film) et l'axe sémantique (contenu des unités syntaxiques précédemment définies) qui lui est orthogonal. Les transitions sont considérées comme << signes de ponctuation >> de la syntaxe du cinéma. Un film est alors représenté comme illustré figure 2.4. La recherche dans un tel système peut s'assimiler à un appariement de sous-graphes dans le graphe global du film¹⁴.

**Figure 2.4:** Schéma de graphe modélisant la structure d'un film.
$\includegraphics[width=370pt]{../fig/repr/corridoni}$

La structure logique hiérarchique d'un document semble maintenant communément admise [182], et certains auteurs ont tenté de se baser sur elle pour mettre en place des DTD SGML de description de documents audiovisuels. [44] sont à notre connaissance les premiers à avoir stocké des annotations de documents audiovisuels sous la forme de documents structurés. Considérant en effet que la structure d'un document est un arbre à trois niveaux, ils décident de décrire les éléments de ces niveaux avec des éléments SGML dont les noms sont issus du domaine (par exemple un cours se divisera en sujets et sous-sujets). Les parties de documents sont alors annotées par des mots-clé à l'aide d'une interface d'annotation, qui offre la possibilité de modifier la DTD du document en fonction de l'annotation que l'on veut réaliser, et stocke les documents dans une base de données relationnelle pour les requêtes.

Un autre type de structuration hiérarchique << libre >> est défini dans le système Algebraic Video [239]. Les annotations de parties de documents sont quelconques, et forment les feuilles d'un arbre qu'il est possible de construire en les connectant à des n $\oe$ uds de niveau supérieur, eux-mêmes annotés. La structure globale est alors un modèle stratifié hiérarchique emboîté. Les auteurs proposent des primitives de manipulation des segments décrits par les feuilles et les n $\oe$ uds supérieurs, notamment en vue de leur recomposition, et l'héritage d'attributs entre n $\oe$ uds est possible.

**Figure 2.5:** Schéma de graphe modélisant la structure d'un film.
$\includegraphics[width=370pt]{../fig/repr/algebraic-video}$

Structuration par graphes

L'approche de [249]¹⁵ est la suivante : certains << points >> temporels du document audiovisuel sont annotés par un terme (timestamp) (un personnage, une action par exemple) dès que l'annotateur le désire. Les annotations sont ensuite mises en relations de trois manières : par des relations de généralisation (par exemple entre avion et Chasseur F15) ; de << sens commun >> (par exemple entre Aladin et Contes de mille et une nuits) ; et des relations << normales >> (notion assez floue¹⁶). La recherche se fait alors par mots-clés, les différentes relations entre ceux-ci servant à déterminer quelle partie du document il convient de rendre comme réponse.

L'approche de [228] se décompose en deux niveaux de structuration. D'un part des événements temporels sont représentés à l'aide de graphes de dépendance conceptuelle (dûs à Schank), dans lesquels des concepts hors du flux (le bandit, la santé, etc.), sont connectés à l'aide d'un nombre limité de marqueurs de primitives d'action (par exemple MOVE ou PTRANS pour un transfert physique), lesquels peuvent être reliées à des parties temporelles du document. Cela revient donc à avoir une description d'événement sous la forme d'un graphe dont certains n $\oe$ uds sont connectés au flux. Un deuxième niveau de structuration -- hiérarchique -- permet de structurer les événements selon un arbre d'histoire généré grâce à une << grammaire d'histoire >> due à Rummelhart (par exemple story se réécrit en Setting + episodes, et episode en Event_Description, etc.). Une fois la structure d'arbre organisant les graphes mise en place, la recherche se fait par recherche d'isomorphismes de sous-graphe. Les auteurs organisent également les graphes d'événement en les classifiant afin de permettre une recherche plus aisée, et proposent d'acquérir des concepts de l'annotation en repérant des sous-graphes qui se répètent. Ils considèrent également de la recherche << fondée sur l'inférence >>, laquelle consiste à traverser un graphe de description décrivant une action.

Fonctionnalités de systèmes d'information audiovisuelle

Après avoir présenté la manière dont il était possible de structurer les caractéristiques d'annotation pour la description de documents audiovisuels, nous décrivons dans cette partie quelques fonctionnalités de systèmes -- ou systèmes complets -- d'information audiovisuelle de la littérature.

Indexation textuelle

Les approches textuelles concernent en fait l'annotation de documents audiovisuels dans leur ensemble par un certain nombre de caractéristiques de cataloguage (auteur, titre, format) et de mots-clé, voire de caractéristiques sous la forme de textes libres.

Un exemple prototypique est le système utilisé à l'INA, du type Questel ou Mistral. Les notices sont stockées dans un système de gestion de documents, sur lequel la recherche se fait par mots-clé ou par données de cataloguage. Une interface graphique permet de construire les requêtes de façon simple, de les stocker, présente le thésaurus à l'utilisateur, etc. Les notices de l'Inathèque¹⁷ diffèrent légèrement par les champs et la considération du découpage d'un journal télévisé en séquences. La Vidéothèque de Paris¹⁸ indexe ses documents en signalement, résumé, générique (personnes ayant participé à la création du document).

Un autre exemple concerne le moteur de recherche Altavista, qui reconnaît les documents audiovisuels indexés à leur extension, et collecte des mots-clé de description dans les pages Web qui entourent le fichier-document. Une image clé est également extraite de celui-ci. Il est alors possible de spécifier dans la requête qu'on cherche explicitement des documents audiovisuels.

[155] présentent un système utilisé par des chaînes de télévision, dans lequel les journaux télévisés sont découpés en reportages, et annotés par des champs Lieu, Personne, Date... L'annotation est mise en place automatiquement à partir des sous-titres (dans lesquels on détecte les mots-importants), et d'un modèle de journal télévisé.

Le système Informedia [211], passé dans le domaine industriel¹⁹, annote les documents audiovisuel en repérant les passages importants par une analyse de la bande-son et de l'image. Un ensemble de mots-clé est alors extrait pour un passage important, et cette annotation est calée sur le flux temporel. La recherche se fait alors textuellement, à un tel point que [61] présentent une interface intelligente de présentation multidimensionnelle de mots-clé, dans laquelle l'utilisateur navigue, sans lien²⁰ avec le documents audiovisuel !

Recherche par similarités et évolutions

A l'opposé de la recherche textuelle pure, la recherche par similarité a la faveur d'une communauté issue du traitement du signal. Les systèmes utilisés se limitent le plus souvent à des prototypes.

On notera la possibilité de recherche par similarité pure, en utilisant une ou plusieurs primitives [15,250,140] dans des prototypes ayant pour granularité le plan.

La navigation par similarités est possible dans une base d'images (donc une base de documents audiovisuels si celles-ci représentent des plans) [8,113,101], mais aussi dans des bases de documents sonores où il s'agit de passer d'une image (d'un son) à une image (à un son) qui lui ressemble dans un espace en général multi-dimensionel [25].

Les approches mixtes associent plus raisonnablement une recherche de haut-niveau et de bas-niveau, c'est à dire des mots-clé et des primitives image, par exemple [139,103]. [26] affirme qu'une recherche dans une base de documents audiovisuels commence par une phase de navigation et de recherche dans des descripteurs interprétés, avant éventuellement de mener une recherche plus fine faisant appel à des primitives image, une fois que l'espace de recherche est déjà relativement réduit. Une recherche dans la base WebSEEK [212] passe d'abord par une réduction de l'espace de recherche à l'aide d'un terme choisi dans une hiérarchie (par exemple transport, avion), avant de chercher une image par similarité, avec la possibilité d'utiliser du bouclage de pertinence. L'apprentissage de critères de similarité adaptés aux utilisateurs permet dans certains cas d'améliorer les performances des systèmes [176,117].

Présentation de documents

La présentation de documents audiovisuels à l'utilisateur d'un système est intégrée au système audiovisuel et à l'interface elle-même. Nous nous interrogerons tout d'abord sur les liens entre présentation et recherche, avant de présenter quelques méthodes de présentation actuelles.

La présentation devenant partie intégrante du SIAV, celle-ci est fortement liée à la représentation des données et la recherche, que celle-ci se fasse par requêtes directes, par l'exemple ou par navigation.

Recherche et présentation

La recherche par l'exemple peut se faire sur un certain nombre de documents tels que : images, dessins ou schémas, parties de vidéo, morceaux de bande-audio, morceaux de documents audiovisuels.

La recherche par navigation consiste à passer d'un document à un autre dans la base de documents, mais aussi à l'intérieur d'un même document audiovisuel. Les types de lien considérés peuvent alors varier dans les limites imposées par la représentation choisie. Les liens peuvent être mis en place manuellement avant la présentation, ou bien calculés. Il est encore possible de naviguer en calculant au besoin le ou les documents cibles (ou le morceau de document cible si l'on navigue dans le document), ce qui peut revenir à la mise en place transparente ou non d'une nouvelle requête, etc.

La granularité joue également un rôle : quel est le niveau de granularité récupéré en retour de requête ? Cela peut aller d'une image au document entier, en passant par toutes les variations possibles (plans, scènes, strates quelconques). Il va de soi que la représentation choisie joue encore à ce niveau. Une requête à composante structurelle peut permettre de spécifier ce que l'on attend, tandis qu'une simple requête par termes se limitera aux parties de document qui y répondent. Simonnot [209] met en place un système qui choisit en fonction du type de requête (exploratoire, précis, etc.) le type de granularité de retour qui y correspond.

Une fois fixé le niveau de granularité, encore faut-il décider de la manière dont le résultat de la requête va être présenté. Le plus simple consiste bien entendu à jouer le morceau de vidéo récupéré, mais il est possible et même souhaitable d'utiliser une présentation plus évoluée prenant en compte le média temporel qu'est l'audiovisuel, ainsi que les limitations inhérentes à un écran d'ordinateur. On peut donc par exemple souhaiter présenter l'ensemble d'une séquence audiovisuelle en un écran, avec une appréhension immédiate de son contenu, ce qui ne peut que passer par l'utilisation de méthodes permettant de projeter la composante temporelle autrement que sur l'axe temporel << réel >>.

En résumé, une requête rend un certain nombre de documents ou de morceaux de documents à un certain niveau de granularité. Ces documents sont présentés à l'utilisateur selon un niveau de granularité qui peut être différent, et avec certaines méthodes de présentation : toutes les possibilités sont loin d'avoir été explorées.

Temporalité et présentation

Le caractère temporel de la vidéo pose évidemment problème quand on veut dépasser la visualisation simple de documents audiovisuels. Si une requête retourne une heure de documents audiovisuels, il faudra une heure pour les visualiser afin de découvrir les quelques secondes ou minutes d'intérêt, ce qu'on ne peut se permettre a priori pas plus qu'on ne visualisera tout un film à cet effet.

Nous avons vu qu'il était souhaitable de disposer de possibilités plus étendues de présentation, permettant l'appréhension du contenu d'un morceau de document de façon plus rapide que le simple défilement²¹. Il s'agit en conséquence de réduire artificiellement la dimension temporelle du document, mais aussi, et afin de ne pas perdre ce caractère fondamental de présenter explicitement celle-ci. Pour dépasser cette temporalité sans la gommer, l'approche structurelle explicite est nécessaire.

Dans les parties suivantes, nous essayerons de voir quelles réponses à ces questions ont pu être proposées.

Présenter une partie de document audiovisuel

La partie dont il est question ici se rapporte le plus souvent à un plan dont les frontières ont été détectées automatiquement, l'enjeu est alors de présenter de la façon la plus synthétique possible le contenu du plan, notamment avec les objets les plus marquants. On peut cependant décider de présenter par exemple une minute de vidéo, sans s'attacher à la succession des plans.

La présentation d'un plan de façon synthétique doit souvent passer par des connaissances du domaine à même de favoriser la construction d'icônes vidéo, qui se définissent pour comme des images physiques associées à des informations complémentaires (durée, titre, annotation, indices visuels) résumant le contenu d'une suite d'images. L'objectif est de permettre de se rendre compte d'un simple coup d' $\oe$ il du contenu du plan considéré.

La méthode la plus simple consiste bien entendu à extraire une image clé de l'ensemble des images dont la partie considérée est composée²². A ce niveau se posent déjà un grand nombre de questions, concernant l'image particulière à extraire. Plusieurs propositions ont été faites : certains auteurs prennent systématiquement la première (ou une des premières) image(s) du plan, d'autres préfèrent extraire une image du milieu. D'autres encore, se basant sur les mouvements de caméra détectés préconisent d'en tenir compte : par exemple si le mouvement est un zoom avant, on prendra la première image. Mais en cas de travelling horizontal, une seule image peut ne pas être suffisante : il y aurait alors lieu d'en prendre plusieurs...Ajoutons qu'une détection automatique de certaines caractéristiques peut permettre de choisir la ou les bonnes images, par exemple si un gros objet y bouge (caractéristiques de couleur) et qu'il y a possibilité de définir des densités d'images-clé par plan, par minutes, etc.

Afin de rendre compte des divers mouvements (caméra et objets), l'ajout de renseignements à l'image représentative choisie se révèle utile. On ajoutera ainsi des éléments indiquant la durée du plan présenté, ou bien les mouvements de caméra. Dans le projet IMPACT, [227] définissent des Micons ( moving icons) qui sont des présentations de plan composées d'une image clé dont la profondeur (en 3D) indique la durée, et sur laquelle des flèches (traces) indiquent les mouvements. Les images représentatives [17] mêlent également image clé, indications de mouvement et de durée. [54] proposent de construire une représentation synthétique d'une portion de vidéo (une portion est un morceau de vidéo où n'apparaît qu'un seul mouvement de caméra), qui comprendra notamment les objets contenus dans la portion, mais aussi les mouvements. Pour cela, il s'agit de choisir en fonction des mouvements de une à trois images représentatives (par exemple, pour un travelling horizontal, on choisira les première et dernière images, ainsi qu'une image intermédiaire), tandis que les mouvements d'objets seront décrits par des traces. Ceci reste de l'ordre de la proposition cependant, mais procède d'un domaine encore peu exploré qui est celui de la schématisation d'images ou de séquences vidéo.

La simple extraction d'une image-clé et l'ajout de traces ne suffisant généralement pas, il est possible de synthétiser une image décrivant le contenu de façon globale. Ainsi les salient stills (<< instantanés pertinents >>) développés au MIT [148] se donnent-ils pour objectif de représenter en une image le contenu d'un morceau de vidéo de façon à préserver le contexte spatial et temporel du plan tout en en représentant les objets les plus marquants. L'objectif avoué des auteurs est de faire des salient stills de véritable images ayant un contenu cinématique marqué. Le processus de synthèse passe par une phase de détection du flot optique (mouvement), suivi d'une opération de superposition d'images extraites du plan, avant un filtrage des objets non marquants en fonction de leur durée d'apparition à l'écran. Le résultat permet d'associer sur une image (dont le cadre n'existe souvent plus du fait des mouvements de caméra) un fond mouvant et des objets mouvants²³. A noter que les VideoSpaceIcons [226] sont des images du même type. [127] améliorent les salient-stills en mosaic images, et les panorama excerpts de [222] relèvent de principes similaires.

Un autre exemple de construction d'image représentative d'un morceau de vidéo est possible. [246] mettent en place des posters qui sont des résumés en images. Les auteurs partent du principe que la présentation vidéo doit être compacte, intuitive et facile à comprendre et que les éléments les plus importants (personnages principaux, actions) doivent être représentés. Ils réservent alors dans un écran un ensemble de zones, et leur attribuent des images extraites des plans de la séquence avec une taille dépendante de leur importance dans celle-ci. Un plan considéré comme très important fournira par exemple une image du poster deux fois plus grosse que les images d'autres plans, jugés moins représentatifs de la séquence.

Alors que toutes les méthodes jusqu'ici présentées négligent la composante sonore des documents audiovisuels (au moins au niveau de la présentation), [223], décrivent un plan à l'aide de mini-videos, composées d'une image-clé extraite et de la bande son associée au plan en question, considérant que dans un objectif de navigation, il n'est pas essentiel de visionner toutes les images d'un plan.

Une deuxième remarque concerne la différence entre l'image et le son. Alors qu'un ensemble d'images animées peut être présenté de façon non linéaire (par exemple par juxtaposition, ou par la synthèse de salient stills), et surtout perçu comme tel par l'observateur (comme présentation non linéaire d'un contenu qui l'était à la base), il n'est pas, ou très peu possible d'exécuter une même opération de délinéarisation avec le son, peut-être tout simplement parce que celui-ci ne se perçoit pas de manière spatiale et quasi-immédiate. Un changement de modalité est cependant possible, par exemple pour la parole, qui permet de passer au texte.

Présenter un document audiovisuel

Après avoir parlé de quelques méthodes de représentation du contenu d'un plan de façon imagée à l'aide d'icônes plus ou moins construites, nous devons nous intéresser à la présentation du contenu d'un document audiovisuel dans son ensemble, c'est-à-dire à la prise en compte de données de structuration.

La présentation de la structure d'un document est destinée à en donner une vue synthétique, mais est également liée à la navigation au moins intra-document qui peut s'ensuivre. L'objectif d'un tel système est de permettre d'accéder de façon rapide au contenu intéressant (en supposant que c'est tout le document, ou au moins une partie signifiante de celui-ci qui est retournée). La structuration choisie y joue donc un rôle important.

[10] considèrent que l'on peut distinguer trois modèles principaux pour la navigation interactive :

Nous constatons pour notre part que les différentes structurations de documents, c'est-à-dire implicites, hiérarchique ou en graphes que nous avons présentées plus haut nous permettent de classer tout à la fois les méthodes de navigation et les modèles de présentation globale en deux catégories, les documents à structure implicite ou explicite.

Présentation de documents à structure implicite

Cette catégorie de présentation s'adresse aux documents dont la représentation a été basée sur une structuration implicite (modèles de stratification notamment), qui rappelons-le découle simplement de l'inscription temporelle d'un morceau de vidéo dans le document lui-même.

Cette présentation s'effectue le long d'une ligne de temps horizontale, orientée de gauche à droite, et au niveau de laquelle on peut trouver la présentation iconique et les annotations attachées à une strate (c'est-à-dire entre deux instants matérialisés sur la ligne de temps). On notera tout de suite que la limitation de la taille de l'écran nécessitera le plus souvent qu'on considère plusieurs lignes de temps et qu'on adopte une approche soit multi-perspectives (plusieurs types d'indication sur plusieurs lignes), soit multi-échelles (plusieurs lignes de temps d'échelles variables), soit les deux ensemble (voir figure 2.6).

**Figure 2.6:** Approches multi-échelles et multi-perspectives
$\includegraphics[width=330pt]{../fig/repr/lignes-temps}$

Certains systèmes se contentent de présenter un ensemble de descripteurs classés par ordre chronologique. Par exemple un ensemble de descripteurs visuels de plans (R-frames, images-clé, mini-videos), classés dans un tableau se lisant de gauche à droite et de haut en bas, avec la possibilité de << zoomer >> sur une partie représentée par un descripteur, qui donne un autre tableau dont la couverture temporelle est moindre, etc. [246] proposent de présenter un résumé pictural d'un document comme une collection de posters arrangés chronologiquement. [35] range les << événements >> du document sur une ligne et leur attribue une importance (en taille) en fonction de leur degré de pertinence en regard de la requête posée. [75] présentent plusieurs lignes de temps simultanément, annotées par les icônes de MediaStream, mais aussi des videograms (sortes de salient-stills), ou l'amplitude du son (des barres verticales indiquant une pause)²⁴. L'interface Mediascope de l'Inathèque permet l'annotation et la visualisation d'annotation de documents le long d'une ligne de temps.

Le principe des lignes de temps est dynamique (on peut faire défiler le temps), et aussi bien multi-échelles que multi-perspectives. Le contenu du document est visible facilement avec la précision voulue. Cependant, la structure logique du document ne reste qu'implicite, c'est-à-dire centrée sur les relations temporelles basiques, à charge pour l'utilisateur de la reconstruire.

Présentation de document à structure explicite

Quand la représentation du document est explicitement structurée, il est intéressant d'utiliser les propriétés de cette description.

Le système VideoScribe d'annotations de plans de l'INA gère la structure par images-clé, structure qui a été explicitée par l'utilisateur sous la forme de regroupements de plans et de choix de nouvelles images-clé pour les regroupements effectués, jusqu'à l'image -- toute théorique -- présentant tout le document. Il y a alors possibilité de se déplacer dans l'arborescence mise en place.

[245] proposent de naviguer dans le graphe << historique >> des scènes qui a été mis en place de façon automatique, et dont on a une illustration figure 2.7. Il est cependant remarqué dans [10] que cette représentation du document en graphe amène l'utilisateur à perdre une linéarité temporelle qui était par exemple bien représentée dans les systèmes à ligne de temps.

**Figure 2.7:** Graphe de transition de scènes
$\includegraphics[width=330pt]{../fig/repr/graphe-trans}$

Dans les modèles de représentation à la fois structurels et conceptuels, les possibilités de navigation et de présentation peuvent être fournies.

Par exemple dans le système VideoStar [122,121] l'utilisateur a devant lui un véritable sommaire (au sens textuel du terme) du document, découpé en parties et sous-parties (séquences et plans vidéos), avec pour chaque entrée un descripteur textuel issu de l'annotation et une indication de durée, tandis qu'une fenêtre rappelle le contenu du document en terme d'événements marquants. On a alors accès à des possibilités de navigation aussi bien conceptuelle (par le contenu d'annotation) que structurelle.

Alors que le système VideoStar présente une abstraction du modèle de données de l'application, l'approche adoptée par [68] est autre : il s'agit ici de donner un accès multi-caractéristique au contenu du film , tout en rendant le modèle de composition explicite. Le schéma global de représentation du document sous forme de graphe (cf. figure 2.4) est alors présenté directement à l'utilisateur, qui procède à la recherche par une méthode de filtrage de données en spécifiant une partie de graphe correspondant à une perspective sur le film et en spécifiant quels sont les descripteurs qui l'intéressent suivant cette perspective. Le système mène alors une recherche sur les caractéristiques liées aux éléments structurels considérés comme pertinents²⁵. [249] choisissent également de présenter directement le graphe d'annotation à l'utilisateur.

Conclusion sur la présentation

Tous les systèmes permettent de visionner de la vidéo de façon classique, séquentielle et linéaire, mais également d'avoir une vue la plus globale possible du document afin qu'il soit possible de se faire une idée de son contenu d'un coup d' $\oe$ il. Cela passe par la mise en place d'une part de méthodes plus ou moins élaborées²⁶ de présentation du contenu de morceaux de document, ainsi que de présentation du document dans son ensemble en organisant les descripteurs audiovisuels précédents. Les possibilités de navigation offertes permettent de se déplacer dans le document (navigation intra-document), et la possibilité de navigation inter-document (i.e entre parties de documents) n'a pas ou peu été étudiée. La structuration des représentations de documents audiovisuels permet d'organiser une navigation autre que temporelle ; on retiendra en fait que tous les niveaux déjà vus d'un SIAV sont liés : requêtes, présentation, navigation dépendent essentiellement du choix du modèle de représentation.

Génération de documents

[200] proposent de générer des séquences vidéo à partir de strates annotées. Les connaissances de structuration sont des << plans d'histoires >>, et une version de GPS (General Problem Solver) est utilisée pour la planification. Cela représente une première tentative de représenter ce que les auteurs appellent << sens commun >> télévisuel, c'est à dire les contraintes dûes au média. [42] considèrent une même histoire²⁷ vue suivant plusieurs lignes de temps selon les protagonistes, un service de résumé automatique grossier est alors mis en place à l'aide de règles (unité partagées, causes-effets, scènes dominantes). [143] cherchent quant à eux à mettre en place des extraits de films (d'action) permettant de servir de représentants à ceux-ci. Ils repèrent les parties de dialogues, d'explosions et les textes, et éditent les morceaux en utilisant des règles basiques calquées sur les bandes-annonces de films d'action américain.

De façon plus systématique, [171] étudient soigneusement la manière dont les documents audiovisuels sont produits et réalisés et explore un certain nombre de théories filmiques. Les parties de documents disponibles sont alors décrites suivant des critères liés à la description du contenu image, tandis que des règles de haut-niveau et des modèles d'histoire recherchent les parties de documents nécessaire à la génération de scènettes drôles (c'est en effet au thème de l'humour que s'attaquent les auteurs). [7] étudient et annotent à l'aide de mots-clé les journaux télévisés des chaînes CNN et ABS, et en déduisent des règles de composition de reportages. Ils utilisent alors ces règles pour réutiliser les parties de reportages qu'ils ont annotées dans des nouveaux documents. Les documents générés sont alors comparés aux anciens à l'aide de métriques (par exemple continuité thématique ou structurelle, progression du contenu) portant sur les annotations, et les résultats mettent en évidence une qualité comparable entre reportages, validant ainsi les règles de composition mises en place. Curieusement, les auteurs ne valident pas leurs résultats par des tests devant de simples téléspectateurs, et il est difficile de juger de la pertinence des séquences générées.

[172] montrent également qu'alors que les progrès technologiques devraient conduire à une production numérique de DAV la plus automatisée possible, la situation n'est pas telle. Il constate alors un manque certain dans le domaine. Nous ne partageons pas son inquiétude, au sens où par exemple dans le domaine textuel, les systèmes de génération de textes ne sont pas exactement au point, alors que les textes et l'informatique cohabitent depuis des années. La génération automatique de documents audiovisuels utiles passe par une formalisation d'un système fonctionnel minimal de l'audiovisuel, qui permette de décrire les règles non écrites dûes au contraintes du média, ainsi que les structures audiovisuelles en découlant. Tant que des langages de description de ces contraintes n'existeront pas, et que les études du média et des règles de production n'auront pas été menées, la génération automatique n'a que peu de chances de fonctionner. Il est également vraisemblable que c'est du domaine des jeux vidéos qu'un ensemble de contraintes devraient provenir et permettre de générer des documents audiovisuels synthétiques.

Conclusion

Nous avons dans ce chapitre présenté ce qu'était la représentation audiovisuelle dans la littérature, en l'étudiant sous l'angle de l'annotation. Après une rapide présentation des diverses communautés de recherche impliquées dans la mise en place de systèmes d'information audiovisuelle, nous avons tout d'abord étudié quelles étaient les caractéristiques de description disponibles, à savoir les primitives images ou son, les caractéristiques calculées et interprétables, et enfin les caractéristiques interprétées. Nous nous sommes ensuite intéressés à la structuration de ces caractéristiques d'une part dans des annotations complexes, d'autres part en étudiant la structuration des documents. Nous avons ensuite présenté rapidement quelques fonctionnalités de SIAV existant, de la recherche textuelle à la génération de documents audiovisuels, en passant par leur présentation à l'utilisateur.

Nous ne conclurons pas dans ce chapitre sur la représentation audiovisuelle, car une discussion y est consacrée dans le chapitre suivant. L'objectif du prochain chapitre est de définir au regard des enseignements des trois premiers chapitres quelles sont les nécessités de modélisation de documents audiovisuels pour un système d'information audiovisuelle idéal.