next up previous contents
Next: Manipulations de contextes dans Up: Strates Interconnectées par les Previous: Strates Interconnectées par les

Sous-sections

   
Modélisation de documents audiovisuels en Strates-Interconnectées par les annotations

Dans ce chapitre nous p(résentons notre approche de description de documents audiovisuels en Strates Interconnectées par les Annotations (Strates-IA), ce qui correspond à la mise en place de graphes de description éclairés par une base de connaissances.

   
Annoter un flux audiovisuel

Nous questionnons à nouveau dans cette section la notion d'annotation de flux audiovisuels, cette fois-ci du point de vue de l'appréhension du flux, et justifions intuitivement notre approche de représentation.

Appréhension de flux et objets d'intérêt

Lorsqu'un utilisateur appréhende un flux en vue d'une utilisation autre que la simple visualisation, il en mène une analyse en vue d'objectifs liés à sa tâche courante. Par exemple un documentaliste des Archives de l'INA cherchera dans un journal télévisé principalement les séquences réutilisables facilement dans d'autres plans, les personnages principaux à l'écran, et le sujet d'actualité qui est illustré, en négligeant complètement par exemple les mouvements de caméra ou le rythme du reportage.

A partir du moment où est repéré quelque-chose répondant aux attentes (conscientes ou inconscientes) de l'utilisateur, ce quelque-chose est descripteur du flux, et peut être utilisé en tant que tel.

Nous appelons objets d'intérêt audiovisuels les objets -- au sens le plus général du terme -- qui peuvent être repérés lors de l'appréhension d'un flux audiovisuel. On peut considérer la notion d'objet d'intérêt comme le pendant conceptuel humain des caractéristiques audiovisuelles, qui en sont alors les << réifications >> sous forme symbolique.

Ainsi, le repérage de l'objet d'intérêt << Chirac >> (nous écrirons désormais par des phrases entre guillemets l'expression de ce qui est repéré) peut permettre de réifier celui-ci en la caractéristique symbolique < Chirac > .

Les caractéristiques-réifications d'objets d'intérêt sont par définition des caractéristiques interprétées de haut-niveau, puisqu'elles sont mises en place par l'homme. Exprimant le repérage dans le flux d'objets d'intérêt, il convient de leur associer la partie du flux qui y correspond. Par exemple, la caractéristique exprimant le repérage de << Chirac >> sera associée à une partie d'un flux audiovisuel allant de l'instant t1 à l'instant t2sur un flux commençant par définition à l'instant 0. Alors la caractéristique < Chirac > annotera la partie de flux délimitée et définie par (t1, t2). De la même manière, le repérage d'un << plan >> conduira à la mise en place d'une caractéristique d'annotation < Plan > .

Nous avons vu que deux approches d'annotation existaient : l'approche de segmentation a priori, dans laquelle la partie de flux est définie avant que l'utilisateur l'appréhende et l'annote ; et l'approche de stratification dans laquelle c'est le repérage de l'objet d'intérêt qui est premier, et conduit à la mise en place de la partie de flux qui lui correspond.

Notre approche sera basée sur la stratification pour la mise en place des parties de flux et des annotations qui les définissent. Les parties de flux ainsi définies (le découpage obtenu), seront alors complétées à la manière de l'approche de segmentation a priori.

Dimensions d'analyse

Il apparaît tout de suite que n'importe quel objet, à partir du moment où il a été repéré dans le flux est objet d'intérêt audiovisuel, donc qu'il y a autant d'objets d'intérêt que l'on peut mener d'analyses particulières du flux.

Nous regroupons les analyses qui permettent de repérer des objets d'intérêt de même type en dimensions d'analyse. Une dimension d'analyse au sens général est alors un regroupement d'objets d'intérêt audiovisuels.

On pourra par exemple considérer la dimension d'analyse liée au repérage des << plans >> < Plan > ou la dimension d'analyse liée à celui des << visages >>. Mais aussi des dimensions d'analyse liées à la recherche d'<< unités structurelles de tout niveau >> (< Plan > , < Scène > , < Document > ), ou encore à l'analyse de la présence d'un << personnage public >> sont également possibles : les dimensions ne sont pas figées a priori et permettent de regrouper des types de caractéristiques de façon pertinente par rapport aux objectifs de l'analyse en cours.

Relations

Nous avons jusqu'ici évoqué l'annotation de flux comme la recherche d'objets d'intérêt, leur réification informatique en caractéristiques d'annotation. Une strate est alors annotée par un certain nombre de caractéristiques. Une premier ensemble de relations entre caractéristiques d'annotations existe et découle de la manière dont elles sont temporellement situées : il est possible de calculer à partir des relations temporelles entre parties du flux des relations temporelles entre caractéristiques. Ces relations sont alors implicites. Par exemple si < Chirac > et < Mandela > annotent une même partie de flux, alors leur co-occurence temporelle permet par exemple d'inférer une relation entre ces deux personnalités, par exemple << Chirac et Mandela se rencontrent >>.

D'autres relations implicites peuvent exister. Par exemple si deux parties du flux différentes sont annotées par < Chirac > alors il est possible d'en inférer que ces < Chirac > correspondent bien à la présence du même << Chirac >> dans le flux.

D'autres relations -- explicites celles-là -- peuvent également être détectées entre des objets d'intérêt préalablement repérés. Ces relations entre objets d'intérêt sont alors considérées elles-mêmes comme objets d'intérêt. Par exemple, si on a repéré les deux objets d'intérêt << Chirac >> et << Mandela >>, alors on peut repérer un objet d'intérêt exprimant le fait qu'il est utile d'annoter << Chirac et Mandela se serrent la main >>. De la même manière, si on désire explicitement affirmer que << le plan est contenu dans la scène >>, alors peut mettre en place un objet d'intérêt exprimant une relation d'inclusion structurelle entre < Plan > et < Scène > .

Ce dernier exemple est important au sens où les relations structurelles sont dans beacoup de travaux exprimées comme relations entre parties nommées (partie de type plan, partie de type scène) et relèvent des relations entre parties, et non entre caractéristiques d'annotation.

Nous choisirons pour notre part de n'accorder aucun primat à une éventuelle décomposition structurelle d'un document. Nous exprimerons alors tout ce qui peut être dit/pensé d'un flux comme objet d'intérêt réifié en caractéristique d'annotation, et toutes les relations d'intérêt explicites comme relations entre caractéristiques.

Structuration des connaissances d'annotation

Comme nous l'avons souligné dans le chapitre précédent, il est nécessaire de contrôler les connaissances de description. Il conviendra donc de décrire les caractéristiques d'annotation au moyen de caractéristiques d'annotation << abstraites >> ou prototypiques. Celles-ci devront de plus être organisé dans une base de connaissances, de la même manière que les termes de description d'un système de recherche d'information textuel sont organisés dans un thésaurus.

La section 1.2 est consacrée à une description plus précise du modèle de représentation que nous mettons en place, tandis que la section 1.3 le présentera de manière plus formelle.

   
Présentation générale des Strates-IA

Graphes d'annotation

Notre modèle de représentation sera basé sur des graphes de description de documents audiovisuels. Nous en présentons d'abord les unités audiovisuelles, qui seront les parties de documents annotées, puis les éléments d'annotation qui permettront d'exprimer les caractéristiques d'annotation. La dernière partie est consacrée à la structuration de l'annotation.

Unités audiovisuelles

Un flux audiovisuel est un objet informatique contenant des données audio et vidéo, débutant à un instant t0, et se terminant à un instant final tf.

On définit une   (par la suite écrite UAV) comme une entité abstraite représentant un morceau quelconque du flux audiovisuel. Une unité audiovisuelle est donc au moins caractérisée par un identificateur de flux audiovisuel, ainsi que deux instants t1 et t2 du flux, et permettant de situer sans ambiguïté la partie de document audiovisuel qu'elle représente.


  
Figure 1.1: Une unité audiovisuelle et la caractéristique d'annotation qui la fonde
\includegraphics[width=200pt]{fig/sia/uav-ea}

Une UAV prend naissance à partir du moment où son existence devient d'intérêt dans l'analyse du flux, c'est-à-dire dès qu'elle a été définie comme liée à un objet d'intérêt audiovisuel. Toute UAV est par définition annotée, c'est-à-dire associée à une caractéristique correspondant à l'objet d'intérêt détecté. On appelle annotation primitive cette annotation première et définitoire de l'UAV (voir figure 1.1).

.

Plusieurs remarques sont ici nécessaires.

En premier lieu, une unité audiovisuelle ne véhicule pas de contenu sémantique, si ce n'est qu'elle a été jugée d'intérêt au moment de sa création. Elle n'est donc ni nommée ni typée. C'est son annotation qui va lui donner sens, c'est à dire qu'elle n'est qu'un support d'ancrage de l'annotation dans le document.

En second lieu, nous ne nous intéresserons dans ce travail qu'à des documents << entiers >>, c'est à dire parfaitement identifiés, et dont l'instant de départ est t0. De tels documents seront définis par des identifiants, lesquels pourront correspondre par exemple à des fichiers MPEG, pour peu que ceux-ci les recouvrent exactement ; ou bien à des documents virtuels tels que ceux définis dans [19]1.

Enfin, nous ne nous intéresserons dans ce document qu'à des parties de documents audiovisuels définies suivant la dimension temporelle, c'est à dire que nous négligeons la dimension spatiale des images du flux vidéo. Cependant, on peut aisément imaginer annoter une partie d'une image située à un instant t (par exemple une zone ronde située dans le coin supérieur gauche), voire un objet repérable tout au long d'une partie de document (par exemple la zone déformable correspondant au déplacement d'un personnage dans un plan). On conçoit donc l'intérêt de prendre en compte cette dimension spatio-temporelle.

 Nous considérons que la notion d'unité audiovisuelle peut facilement s'étendre, sans changement conceptuel, à celle d'objet audiovisuel tel que défini par MPEG4, pourvu que ces objets soient considérés comme faisant partie explicitement d'un flux, i.e. qu'ils soient situés temporellement dans celui-ci. Par exemple des objets MPEG4 pourraient représenter ces parties d'images animées. Il conviendrait alors d'annoter -- de documenter -- des objets MPEG4, par exemple le fond d'une scène MPEG4 et les objets de représentation construits au premier plan.

Eléments d'annotation

Un   (EA) est l'expression d'une caractéristique d'annotation, il possédera donc toujours un nom qui sera le terme exprimant la caractéristique interprétée. Par exemple < Chirac > , < Objet Rond > ou < Glauque > seront des noms d'éléments d'annotation.

Un élément d'annotation est en relation d'annotation (Ra) avec l'unité audiovisuelle qu'il annote, laquelle est en relation annotée par (Ra-1) avec l'EA.

Un élément d'annotation possède autant d'attributs que nécessaire en plus de l'attribut principal nom. Ces attributs supplémentaires représentent un second niveau de connaissances internes à l'EA qui viennent préciser celui-ci. Ils peuvent être de tous types, notamment des types correspondant à des primitives.

Donnons-en quelques exemples, qui sont illustrés sur la figure 1.2 (les éléments d'annotation sont représentés par leur nom dans un ovale, et leurs autres attributs leur sont associés) :


  
Figure 1.2: Quelques unités audiovisuelles et éléments d'annotation avec leurs attributs
\includegraphics[width=350pt]{fig/sia/ea-attr}

A partir de maintenant, nous noterons tout élément d'annotation sous la forme suivante : < Nom; attribut1:valeur1; attribut2:valeur2; ...> . Un EA sera obligatoirement désigné par son nom et par ses attributs utiles pour la tâche en cours. Ainsi < Chirac;Courriel:jchirac@elysee.fr > pourra également être écrit < Chirac > si l'attribut Courriel n'a pas de pertinence dans le contexte de la phrase.

Une unité audiovisuelle est créée en même temps que son annotation définitoire. Nous appellerons élément d'annotation primitif d'une unité audiovisuelle l'élément d'annotation qui la définit et la fonde. Sur la figure 1.2, les trois unités audiovisuelles UAV1, UAV2 et UAV3 ont respectivement pour annotations primitives < Document > , < Discours > et < Plan > (indiqués en gras).

Une unité audiovisuelle, mise en place comme strate, peut être annotée par autant d'éléments d'annotation que nécessaire. Figure 1.2, les UAV UAV1 et UAV3 sont ainsi annotées par des EA supplémentaires.

Si nous revenons un instant sur les attributs des éléments d'annotation, nous pouvons remarquer qu'ils permettent d'exprimer n'importe quelle caractéristique, y compris des primitives ( cf. 2.2.4). Qu'on ne s'y trompe cependant pas : le nom de l'EA est toujours une caractéristique de haut-niveau interprétable (par exemple Elément description visage ou Discours), et dans le cas des primitives, ce sont bien les attributs qui en portent le contenu. Les attributs supplémentaires (tel que Texte) permettent d'apporter des précisions utiles sur l'objet d'intérêt évoqué.

Il nous est par conséquent possible de représenter de façon homogène l'ensemble des caractéristiques que nous avons évoquées dans la première partie, quelle que soit la manière dont elles sont mises en place : analyse de couleurs, de formes, de mouvements, de ruptures de plan, des mouvements de caméra, des types de vues, de la bande-audio, d'objets, d'actions, du type de document, des auteurs, des sensations produites, etc.

Structuration des annotations

Nous avons vu dans la section introductive de ce chapitre qu'il y avait lieu d'expliciter les relations entre objets d'intérêt (qu'on peut également considérer comme des objets d'intérêt) en mettant ces derniers en relation. Celà se fera naturellement par la mise en relation des éléments d'annotation.

Cette mise en relation peut être envisagée de plusieurs façons :

C'est cette dernière solution que nous choisissons. Nous définissons la relation élémentaire Re comme l'unique relation permettant de lier deux éléments d'annotation. Nous décrirons dans le prochain chapitre comment il est possible de spécifier quels EA peuvent être mis en relation élémentaire avec quels autres EA, c'est à dire de gagner du contrôle sur la structuration des annotations.


  
Figure 1.3: Mettre des éléments d'annotation en relation
\includegraphics[width=350pt]{fig/sia/ea-rel}

Si nous continuons à nous intéresser au processus d'annotation, alors considérons la situation dans laquelle un utilisateur annotateur désire mettre en relation deux EA. Deux possibilités s'offrent alors à lui.

Mettre en relation directement les deux EA, c'est à dire exprimer sans plus de précision qu'il existe une relation entre les deux caractéristiques que ceux-ci expriment. On peut par exemple décider de lier < Discours > à < Jacques Chirac > (voir figure 1.3), sans expliciter outre mesure ce qu'on entend par là, l'important étant simplement la présence, à un moment donné dans l'esprit de l'annotateur d'un lien évident entre les deux EA. Cette mise en relation est donc libre, ou non précisée.

La deuxième possibilité consiste à expliciter le lien, en utilisant un EA intermédiaire qui servira de médiation permettant de préciser la sémantique de la relation. Cet EA intermédiaire joue le rôle de typage de la relation, et annote l'UAV déjà annotée par l'EA point de départ de la relation. Il exprime l'objet d'intérêt qu'est la relation repérée. Par exemple, pour exprimer que le focus vidéo (sujet principal image) d'un plan est une personnalité bien connue, on peut mettre en place un EA < Focus vidéo > annotant la même UAV que celle annotée par < Plan > , et mettre en relation élémentaire d'une part < Plan > avec < Focus vidéo > , d'autre part < Focus vidéo > avec < Jacques Chirac > . On a alors < Plan > Re< Focus vidéo > Re< Jacques Chirac > (cf. figure 1.3).

.

Notre manière de considérer les relations appelle plusieurs commentaires.

En premier lieu, la relation élémentaire n'a pas sens par elle même hormis le fait qu'elle met en relation deux éléments d'annotation. Le sens d'une relation élémentaire ne peut donc venir que de la connaissance de ce qu'elle met en relation. Ceci pourrait être rapproché des hyperliens tels qu'ils sont mis en place sur le Web : un lien n'a pas de sens pour lui-même, et ce sont ses extrémité qui en fournissent le sens.

Ensuite, les relations exprimées peuvent se situer à plusieurs niveaux : on peut avoir le niveau des relations directes (< Discours > ...< Jacques Chirac > ), celui des relations explicitées par un EA (< Document > ...< Discours > ), et puis les niveaux suivants, dépendant du nombre d'EA à traverser dans la relation par exemple une relation de << niveau 2 >> entre < Document > et < Jacques Chirac > , explicitée par les EA < Sujet principal > et < Discours > ). Il apparaît donc qu'un EA peut tout à la fois participer à l'annotation en tant que concept et en tant que relation, ceci dépendant de la manière dont il va être lu par un utilisateur. Nous évoquerons dans la suite des éléments d'annotation de relation (EAR) et d'autres EA de concepts (EAC) suivant la façon dont nous les considérerons2. Il s'avère donc que le fait qu'il n'y ait pas de séparation entre concepts et relations au niveau de l'annotation autorise une grande liberté pour celle-ci. De plus, cela signifie qu'un EA utilisé pour expliciter une mise en relation fait de droit partie de l'annotation de l'UAV au même titre que les autres EA, et qu'on peut par exemple chercher les unités audiovisuelles possédant cet EA, donc cette relation.

Une mise en relation par un utilisateur peut conduire à plusieurs mises en relation élémentaires avec éventuellement création d'EA. Nous ne considérons pas a priori de relations inverses explicites. Toute relation élémentaire est orientée, et donc sa relation inverse existe, et est notée Re-1. Ceci signifie qu'il est possible de parcourir les relations dans n'importe quel sens, et donc qu'une relation entre deux EA est simplement un chemin non orienté qui permet de les joindre.

La mise en relation de deux EA quelconques peut conduire à plusieurs cas de figure. Si les deux EA annotent la même UAV, alors cela revient à une structuration de l'annotation interne à l'UAV, donc à mettre en place une sorte de réseau sémantique d'annotation. Si au contraire les EA annotent deux UAV différentes, alors cette structuration intra-documentaire permet également de mettre en place une relation entre les deux UAV, donc entre deux parties de document audiovisuel. Le nom de notre approche découle directement de cette propriété, puisqu'on parle alors de Strates-Interconnectées par les Annotations ou Strates-IA (en anglais : annotation-interconnected strata ou AI-Strata). Remarquons également que comme les deux EA sont quelconques, ils peuvent appartenir à deux flux différents, il est alors possible de mettre en place une structuration inter-documentaire, par exemple pour exprimer une relation de réutilisation d'une partie de document dans une autre (e.g. < Plan > Re< Réutilisation > Re< Document > ). Cette grande liberté dans la mise en relation se rapproche de celle qui est utilisée par [74] pour permettre une présentation originale d'un document audiovisuel composé de parties de documents à lire dans un ordre dépendant du lecteur.

.

Revenons un instant sur trois caractéristiques importantes du modèle d'annotation.

En premier lieu, il apparaît bien que toute unité audiovisuelle annotée peut être considérée comme unité structurelle d'un document, pourvu que son annotation se retrouve au niveau d'autres UAV et qu'il y ait un ensemble de relations entre ces annotations. Par exemple, si des UAV sont annotées par < Voix > et une autre par < Dialogue > , et que < Dialogue > est dans les mêmes termes de relations avec tous les EA < Voix > , alors il est possible d'extraire plusieurs structures d'arbre de la partie de document, aussi valables les unes que les autres (figure 1.4). Le modèle est donc à même de prendre en compte la nécessité de multi-structuration que nous nous étions fixés3.


  
Figure 1.4: Un exemple d'annotation : dans une scène Jean et Marie discutent sur quatre plans, le premier étant fixé sur Jean (par l'intermédiaire de l'EA Focus Vidéo < FV > ). La bande son a trois composantes de voix. D'une telle structure on peut par exemple extraire trois structures hiérarchiques, suivant la tâche de lecture en cours.
\includegraphics[width=300pt]{fig/sia/multi-struct}

Une deuxième caractéristique intéressante du modèle concerne les rapports entre attributs d'éléments d'annotation et éléments d'annotation eux-mêmes. Le schéma 1.5 illustre deux cas de figure permettant de représenter la même information. Dans le premier cas, le nom du réalisateur du document est un attribut de < Document > , dans le deuxième cas, on met en place un EA d'annotation exprimant que l'objet d'intérêt << Jean Dupond >> a été repéré pendant l'appréhension du flux (par exemple dans le générique), tandis que < Réalisateur > permet d'expliciter le lien entre < Document > et < Jean Dupond > . Le choix entre ces deux méthodes dépendra bien entendu des visées de l'application, et on remarquera que la question peut également se poser pour les autres attributs tels que Format ou Durée. En fait, ce problème est exactement le même que celui qui se pose à la création d'une DTD SGML ou XML, pour laquelle il faut choisir quelles informations seront des attributs d'éléments, et quelles autres auront le statut d'éléments, par exemple choisir entre

 <Document Realisateur=JeanDupond>...<\Document>}
et
<Document><Realisateur>Jean Dupond<\Realisateur>...<\Document>

Notre politique consistera à privilégier a priori l'annotation à l'aide des EA et de leurs relations, c'est à dire au premier niveau d'annotation. Le second niveau, celui des attributs internes aux EA, est alors à réserver à la prise en compte des primitives et à d'autres renseignements supplémentaires dépendant de l'application, qui seront décrits dans les connaissances d'annotation.


  
Figure 1.5: Deux manières de décrire le réalisateur d'un document, avec attribut interne et externe
\includegraphics[width=300pt]{fig/sia/ea-attr-pb}

Enfin, remarquons que l'annotation est toujours incrémentale : dès qu'un flux audiovisuel est inséré dans la base -- par exemple en créant une unité audiovisuelle lui servant de représentant annotée par < Flux > -- toute annotation est analyse d'une partie de document correspondant à une unité audiovisuelle, qui vise à la compléter. L'évolutivité de l'annotation est naturelle à l'approche, (sur-)annoter un document déjà annoté se fait exactement de la même manière. Quelle que soit la volonté de description, que ce soit par un documentaliste ou par exemple un chercheur analysant pour ses propres besoins un flux, l'annotation découle de principes identiques.

Connaissances d'annotation

L'approche que nous avons adoptée jusqu'ici est à la base fondée sur une forte extension des concepts de la description en Recherche d'Information textuelle classique :

De la description par mots-clé de documents, nous sommes donc passés à une description par mots-clé << étendus >> (ayant des attributs), qui portent toute la sémantique de l'annotation, laquelle est également connaissance de structuration du document et de la base de documents. En d'autres termes, l'utilisateur a toute latitude d'écriture d'un texte (comme ensemble organisé de symboles manipulables en machine et interprétables par l'homme) sur les documents (au moyen de l'ancrage fourni par les UAV) afin d'exprimer toute annotation symbolique structurée correspondant à sa tâche de description. Il s'agit bien ici de fournir des moyens d'accès direct et de manipulation des documents audiovisuels en machine6 largement supérieurs aux fonctions standards de type commande de magnétoscope, afin d'en permettre une exploitation.

.

Il apparaît alors qu'il y a plusieurs enjeux dans l'organisation des connaissances de description.

Il faut d'abord mettre à disposition de l'annotateur un ensemble d'éléments d'annotation abstraits permettant de définir les éléments d'annotations qui pourront être utilisés et leurs attributs. Ce niveau d'organisation ne dépasse pas celui d'un thésaurus organisant des mots-clé.

Il est ensuite souhaitable de mettre en place des connaissances permettant de décrire comment peuvent être mis en relation les éléments d'annotation. Ces connaissances peuvent apparaître sous deux formes : soit comme connaissances locales aux éléments d'annotation abstraits (par exemple comme pour les concepts d'une logique terminologique) ; soit comme connaissance globale extérieure aux EAA (ce qui s'apparenterait plus par exemple à une DTD expliquant comment structurer un document avec des éléments). Dans le premier cas, on spécifiera par exemple dans l'abstaction de < Document > que celui-ci peut être mis en relation avec < Discours > par l'intermédiaire de < Sujet principal > . Dans le deuxième, il s'agit de préciser qu'il y a lieu de décrire un document audiovisuel avec < Document > et < Discours > , les deux étant mis en relation par l'intermédiaire de < Sujet principal > .

Nous ne présenterons dans ce chapitre que la mise en place d'une << base de connaissances >> d'éléments d'annotation abstraits, la mise en place des connaissances de mise en relation, de structuration étant traitée dans le chapitre suivant.

Eléments d'annotation abstraits

Un   (EAA) permet de définir un élément d'annotation. Il possède donc le même nom et contient les définitions des attributs de celui-ci, ainsi que leur caractère d'obligation (obligatoire,facultatif).

Par exemple l'EA < Document; Duree:00H03MIN; Format:MPEG2 > découlera de l'éléments d'annotation abstrait < EAA:Document; Durée:TypeDuree:obligatoire; Format: TypeFormat: obligatoire; Date Diffusion: TypeListeDate: facultatif >7.

 D'autres attributs d'EAA, appelés valences, et exprimant des possibilités de mise en relation de l'élément d'annotation découlant de l'EAA sont également définis, et seront détaillés dans le chapitre suivant.

Un élément d'annotation abstrait est en relation d' inscription dans le flux Rif avec l'EA qui en est extrait. Inversement, celui-ci est en relation de décontextualisation avec l'EAA dont il est extrait (cf. figure 1.6). On aura alors par exemple < EAA:Document >Rif< Document > et < Document > Rd< EAA:Document >. L'inscription dans un flux signifie que l'annotation prend substance, se réifie par la médiation du flux, et en devient indissociable, en tant qu'élément d'annotation d'une UAV issue du flux. Chaque inscription est a priori considérée comme unique8 : on ne peut avoir un même EA en relation d'annotation avec deux UAV, tout EA est unique.

A l'inscription dans le flux, l'EA se contextualise, ce qui veut dire que si le nom ne change pas par rapport à l'EAA, ses attributs peuvent être instanciés, tandis que sa valeur, son contenu sémantique << de surface >> varie avec les relations qu'il entretient en contexte.


  
Figure 1.6: Eléments d'annotation abstraits et base de connaissance
\includegraphics[width=\linewidth]{fig/sia/ea-eaa}

Base de connaissances

Les éléments d'annotation abstraits sont organisés dans ce que nous appelons base de connaissances (BC). Une base de connaissances est donc une structure d'éléments d'annotation abstraits, basés sur des relations de concepts (à la différence des relations entre EA qui sont des relations d'instances).

Nous ne faisons pas a priori d'hypothèses sur les relations de la base de connaissances, si ce n'est que le graphe des EAA doit être connexe, c'est à dire qu'il doit exister un chemin (non orienté) entre deux EAA quelconques.

Une organisation de base de connaissances utilisée en recherche d'information documentaire est l'organisation en thésaurus. On a alors une hiérarchie des descripteurs suivant des relations de spécialisation/abstraction, ainsi que des relations transversales telles que synonymie, voir aussi, etc. On peut donc organiser les EAA en thésaurus, la figure 1.6 en donne un exemple indicatif (dans lequel on ne spécifie que certaines relations entre éléments, en négligeant les relations inverses, par exemple Ra-1 relation inverse de la relation d'annotation Ra).

Mais il est également possible d'organiser les EAA pour exprimer des connaissances du domaine, par exemple pour lier < Chirac > à < Président de la République > , ou < Pédalier > à < Bicyclette > , auquel cas on a une relation de méréonymie (partie-tout) [240].

Tous les niveaux de relations sont donc possibles, et éventuellement superposables afin d'organiser les éléments d'annotation abstraits.

Nous pourrons, comme hypothèse de travail, considérer les EAA comme organisés dans un graphe (a minima un thésaurus) duquel il est possible d'extraire une hiérarchie en ne considérant que les relations de spécialisation/abstraction. On notera donc que cette hiérarchie n'est pas a priori une hiérarchie d'héritage d'attributs entre éléments d'annotation abstraits. Nous discuterons plus loin les diverses façons de considérer l'organisation des connaissances d'annotation. Rappelons simplement que notre approche d'annotation s'apparente à une écriture sur le document à l'aide d'un ensemble de termes-éléments d'annotation. Dans le cas le plus lâche, l'utilisateur écrira librement à partir des EAA de la base de connaissance qui serviront de vocabulaire contrôlé. Dans les environnements de description plus prescriptifs, la base de connaissances sera plus structurée et contraignante, par exemple toute relation mise en place sera explicitée par un EA intermédiaire, et son statut se rapprochera des véritables bases de connaissances des systèmes à base de connaissances.

Discussion

Nous venons de présenter la manière dont le système de représentation des Strates-IA était organisé.

Remarquons tout d'abord que pour arriver à une telle approche, il était nécessaire de s'abstraire d'une vision standard du document comme structure hiérarchique. Nous avons en effet au départ tenté d'étudier des structures générales du document audiovisuel, valables pour tous les documents, ainsi que des descripteurs généraux. Mais cette recherche ne pouvait aboutir, à moins de se spécialiser dans un domaine particulier et surtout à type d'analyse particulière des documents audiovisuels, ce qui ne correspondait pas à notre volonté de trouver un modèle suffisamment général. Nous avons donc dû passer à un niveau d'abstraction supplémentaire permettant de décrire la manière dont il était possible d'organiser toute description de document. Il était également nécessaire de réconcilier de façon harmonieuse les approches de segmentation hiérarchique et de stratification. Considérant que la stratification est plus générale que l'approche de segmentation hiérarchique, il est alors nécessaire d'utiliser une approche de stratification permettant d'exprimer les hiérarchies d'une segmentation, d'où la mise en place des concepts d'unités audiovisuelles banalisées et d'éléments d'annotation. La mise en place d'une base de connaissances est naturelle et permet de contrôler au moins le vocabulaire d'annotation.

Le modèle de représentation des Strates-IA est à même de prendre en compte l'ensemble des modèles de représentation que nous avons étudiés. Sa validité est donc avérée théoriquement à ce niveau, comme réponse générique de modélisation de toute représentation audiovisuelle. Nous avons présenté dans [187] un tableau comparant les approches de segmentation hiérarchique standards, l'approche de stratification de [75] et les Strates-IA suivant les critères d'analyse des modèles de représentation audiovisuelle que nous avons évoqués dans le chapitre 2 (tableau 1.1).


 
Tableau: Comparaison entre segmentation hiérarchique, stratification et Strates-IA
  Segmentation hiérarchique Stratification Strates-IA
Granularité liée à une structure hiérarchique non limitée non limitée
Complexité Attributs/Valeurs Icônes ou phrases d'icônes non limitée
Structure arbre pas de structuration non limitée
 

Un format de représentation tel que celui des Strates-IA ne fait pas a priori d'hypothèses sur la manière dont il est possible d'annoter ou d'exploiter les annotations mises en place. Ainsi, on peut très bien imaginer de l'utiliser selon un modèle de base de données standard pour faire des recherches, et en extraire des portions pour les présenter à l'utilisateur, ou bien alors pour naviguer dans les documents. Ce ne sera qu'avec la notion de contexte que nous pourrons proposer une manière contextuelle d'exploiter le modèle.

Nous venons de montrer comment il était possible dans notre approche, de systématiser au maximum le principe de stratification afin que quelle que soit la strate détectée, celle-ci ne le soit qu'en vertu d'une analyse -- et suivant une dimension d'analyse -- dont l'objet d'intérêt finit par s'exprimer en un élément d'annotation annotant l'UAV correspondante. Ainsi toute annotation d'un fichier audiovisuel se résume en un ensemble d'UAV et d'EA en lien avec ces UAV, cette annotation ayant été réalisée à partir des éléments disponibles dans la base de connaissances.

On peut alors considérer que l'ensemble des documents audiovisuels annotés est un graphe composé des unités audiovisuelles, des éléments d'annotation ainsi que de leurs relations. A ce graphe est associé celui de la base de connaissances, dont les EAA sont en relation avec les éléments d'annotation. L'ensemble des connaissances du système est alors un graphe unique composé des UAV, EA et EAA et de leurs relations. La figure 1.7 présente un tel graphe, dont on peut considérer quatre sous-graphes intéressants a priori : les graphes d'annotation de flux g1, g2 et g3, ainsi que la base de connaissances. Un graphe d'annotation d'un document, un flux annoté se fond donc dans la base des documents annotés.


  
Figure 1.7: Une base de connaissances et sa base de documents annotés. L'ensemble représente un graphe composé de trois types de sommets (UAV, EA, EAA). A noter également que les flux annotés (UAV et EA associés se fondent dans la base des documents annotés.
\includegraphics[width=350pt]{fig/sia/sia-gen}

   
Une présentation plus formelle des Strates-IA

Dans cette section nous décrivons un système de représentation Strates-IA de façon plus formelle que ce que nous avons déjà présenté, c'est à dire en adoptant une notation plus systématique. Comme nous considérons l'ensemble du système comme un graphe, nous procédons de la manière suivante : nous décrivons d'abord les objets des Strates-IA (UAV, EA et EAA), qui sont les étiquettes des sommets d'un graphe Strates-IA, que nous décrivons ensuite.

Objets des Strates-IA

Soit Ea l'ensemble fini des types d'attributs des éléments des Strates-IA (nous ne faisons volontairement pas de différences entre noms d'attributs et types d'attributs dans un soucis de simplification). Pour tout a $ \in$ Ea, soit EV(a) l'ensemble dénombrable des valeurs d'attributs possibles pour l'attribut a(valeurs éventuellement complexes : tableaux, listes,...). Un couple c = (a, v) avec a $ \in$ Ea et v $ \in$ Ev(a) est un couple attribut/valeur.

.

Par exemple, si Ea = {Nom, Date, FichierImage} alors EV(Nom)est l'ensemble des chaînes de caractères de moins de 256 octets ; EV(Date) est l'ensemble des dates par exemple codées sur 8 entiers9 ; et EV(FichierImage) est l'ensemble des URI (Universal Ressource Identifier). On pourra alors considérer des couples c1 = (NomPrenom, ''DupondJean''), c2 = (Date, 07112004) ou c3 = (FichierImage, ''http : //www.insa - lyon.fr/logo.gif'').

.

Un objet o des Strates-IA est un n-uplet de couples d'attributs/valeurs d'attributs

o = < ci > = < (ai, vi) > i $\displaystyle \in$ [1..n]

.

Soit O l'ensemble des objets des Strates-IA.

.

Tout objet o des Strates-IA est muni d'un attribut de nom Typeavec EV(Type) = {UAV, EA, EAA}, et on définit des contraintes sur les objets en fonction de leur type.

Unités audiovisuelles.

Une unité audiovisuelle est un quadruplet

< (Type, UAV),(Nom, NomUAV),(IdentificateurFlux, IdF),(Intervalle,(t1, t2)) >

Nom est un identificateur unique de l'UAV, IdentificateurFluxpermettant de donner une référence à une flux, par exemple une URI, et Intervalle permettant de référer à une partie de ce flux.

Par exemple, on pourra considérer l'UAV :

< (Type, UAV),(Nom, Z6PO),(IdentificateurFlux, toto.mpg),(Intervalle,(134, 254)) >

qui identifie une partie du flux toto.mpg définie entre les instants 134 et 254 secondes, ayant un nom-identificateur unique Z6PO.

Eléments d'annotation.

Un éléments d'annotation est un n-uplet

< (Type, EA),(Nom, LeNomdelEA),(Attr1 : ValAttr1),...,(Attrn : ValAttrn) >

Nom a pour valeur le terme de caractérisation de l'EA, Attri a pour valeur celle de son i-ème attribut (rappelons que Attridésigne un nom d'attribut qui contraint totalement son type, c'est pourquoi nous ne faisons pas de différence entre les deux).

Par exemple, on aura l'EA :

< (Type, EA),(Nom, Discours),(Texte : ''LesI>paysans...''),(Date : 07031999) >

Eléments d'annotation abstraits.

Un éléments d'annotation abstrait est un n-uplet

< (Type, EAA),(Nom, LeNomdelEAA),(DefAttr : {(Attr1, Oblig1),...,(Attrn, Oblign)} >

Nom a pour valeur le terme de caractérisation de l'EAA, DefAttr permet de définir les types et obligations des attributs des EA qui en seront extraits.

Par exemple, un EAA lié à l'EA précédent pourra être

(Type, EAA),(Nom, Discours),(DefAttr : {(Texte, Facultatif )),(Date, Facultatif )}

Nous présenterons dans le chapitre suivant la manière dont il est possible de comparer deux objets des Strates-IA, c'est à dire de mettre en place des fonctions de similarités entre objets.

Graphe orienté étiqueté d'objets

Nous définissons l'ensemble R des types de relations entre objets, avec

R = {Ra, Ra-1, Re, Re-1, Rif, Rd, Rc1, Rc1-1,..., Rcn, Rcn-1}

où les Rci (resp. Rci-1) sont les relations de concepts de la base de connaissances (resp. leurs relations inverses), par exemple les relations de spécialisation et abstraction Rspec et Rabs. Soit RC = {Rc1, Rc1-1,..., Rcn, Rcn-1}.

.

Nous sommes alors à même de définir un graphe G des Strates-IA comme un quadruplet < S, A,$ \mu$,$ \nu$ > avec : répondant à une ensemble de contraintes C.

.

C se décompose comme suit :

.

La bijectivité de $ \mu$ permet d'assurer une << correspondance >> complète entre les sommets de S et les objets de O.

.

La contrainte C5 est minimale pour la base de connaissance. Si l'on voulait par exemple assurer la présence d'une hiérarchie de spécialisation dans celle-ci, il faudrait s'assurer

.

Un système Strates-IA -- noté SIA -- est finalement un quadruplet :

SIA = < O, R, G, C >

soit l'ensemble O des objets Strates-IA, l'ensemble R des relations possibles entre ces objets, un graphe G permettant de lier les objets de O entre eux à l'aide des relation issues de R en suivant les contraintes définies dans C.

Conclusion de cette partie

Nous avons dans ce chapitre d'abord présenté intuitivement notre approche de représentation en Strates Interconnectées par les annotations, avant de détailler d'une part ce qu'est un graphe d'annotation composé d'unité audiovisuelles et d'éléments d'annotation, d'autre part ce que sont les éléments d'annotation abstraits et leur organisation minimale dans une base de connaissances. Nous avons alors présenté de façon plus formelle les objets des Strates-IA, leur organisation dans un graphe Strates-IA et les contraintes associées.

L'approche des Strates-IA assure la possibilité d'écriture << informatisée >> sur le flux audiovisuel, et permet une liberté totale de structuration des annotations. Nous avons pour l'instant limité la structuration de la base de connaissance à une connexité minimale car nous discuterons plus loin de quelle manière il est possible de l'organiser en fonction des types d'utilisation d'un système Strates-IA.

Nous n'avons qu'évoqué la notion de contexte dans ce chapitre. Remarquons simplement que toutes les connaissances que nous décrivons sont contextualisées. Par exemple, une unité audiovisuelle peut être décrite par son annotation directe, mais également par les éléments d'annotation avec lesquels elle est liée par l'intermédiaire des éléments d'annotation qui l'annotent. D'autre part, un élément d'annotation abstrait de la base de connaissances inscrit dans le flux en EA et mis en relation avec d'autres EA se contextualise au niveau du flux du fait de sa situation temporelle, mais également de ses relations. Dans la base de connaissances même, c'est du fait de sa position dans la structure d'organisation qu'un EAA prend sens. En fait, toutes les relations contextuelles que l'on peut considérer passent par l'utilisation de chemins d'éléments du graphe des Strates-IA.

Le chapitre qui suit est consacré à ces chemins contextuels et à leur mise en \oeuvre dans le cadre des Strates-IA.


next up previous contents
Next: Manipulations de contextes dans Up: Strates Interconnectées par les Previous: Strates Interconnectées par les
Yannick Prié
2000-01-25