Strates-IA : documents et connaissances

Dans ce chapitre, nous menons d'abord une courte étude des rapports entre documents et connaissances en lien avec les structures mises en place. Nous présentons ensuite quelques exemples d'approches de descriptions et de structuration de documents, notamment au travers des langages de balises, de la future norme MPEG-7 et de réseaux sémantiques permettant de réaliser des inférences. Enfin, nous interrogeons et situons les Strates-IA dans ce contexte, et en développons quelques points d'intérêt.

Structure, documents, connaissances et annotations

Nous nous intéressons ici aux structures explicites liées aux documents, audiovisuels ou non, en distinguant tour à tour structures de présentation et structures de connaissances, avant de défendre l'idée que toutes participent dqe structures sémantiques dont l'utilisation déterminera le statut. Nous nous intéressons alors à l'annotation comme opération d'ajout de connaissances aux documents.

Evolution des structures de présentation

Nous définissons une structure de présentation comme une structure documentaire explicite liée à la présentation du document, c'est à dire au calcul de sa forme d'appropriation, à laquelle l'utilisateur est confronté.

Historiquement, la structure de présentation est donc d'abord liée à la structure physique du document, dont la numérisation entraîne la mise en place d'une forme d'enregistrement qui mime cette structure physique. Les premières structures logiques (au sens structure du document numérique) sont à la base des structures de présentation (que l'on retrouve dans les traitements de texte, le multimédia : placement des zones les unes par rapport aux autres), encodées dans des formats de présentation. Pour l'audiovisuel, cela tient par exemple simplement à une suite d'images, à un flux sonore, et à des indications sur la manière de multiplexer le tout.

La phase suivante de l'évolution historique voit la mise en place d'abstractions d'éléments de structure : les tableaux, les listes, les paragraphes, les images en sont quelques exemples. Dans le même processus sont également définies les structures organisant les éléments (ce que l'on retrouve dans les formats de sauvegarde des traitements de textes). De plus, avec la volonté de décrire de façon plus abstraite les documents, sont apparues des possibilités de décrire des types de documents, c'est à dire d'abstraire les structures de présentation elles-mêmes : un article est par exemple composé d'un titre, d'un résumé, de sections composées de sous-sections, et d'une bibliographie. Des langages ont alors été conçus permettant de décrire des langages de description de structures documentaires en général. Ainsi HTML permet de décrire des hyperdocuments pour le Web, et est un langage instance, une définition de type de document (DTD) du méta-langage SGML.

La première conséquence est que la structure documentaire n'a plus obligatoirement de rapport bi-univoque avec la structure physique de présentation du document. Ainsi, d'une structure logique¹, il devient possible de calculer, à l'aide de feuilles de style, plusieurs structures physiques (par exemple une présentation affichant ou n'affichant pas les liens d'un document HTML).

La deuxième conséquence, encore plus importante, est qu'il devient possible de définir des éléments de structure documentaire n'ayant plus de rapport avec la présentation, c'est à dire de mettre en place des << méta-connaissances >> dans le document. La balise META de HTML en est un exemple.

Structures sémantiques

Les renseignements liés à la présentation d'un document et étant contenus dans sa forme d'enregistrement sont des connaissances liées à la tâche basique de lecture du document. Nous définissons dans un premier temps les structures de connaissances en opposition aux structures de présentation, comme l'organisation des connaissances documentaires non liées à la seule tâche de présentation.

Il est en effet possible de considérer des connaissances sur le document utilisables dans d'autres tâches que la présentation. Par exemple la balise META est utilisée pour l'indexation de pages Web à l'aide des mots-clé qu'elle permet de définir. Parmi les connaissances sur le document figure également tout ce qui peut lui être rajouté, par exemple des structures de connaissances externes au document, et ayant des liens vers certaines de ses parties. Les mots-clé d'Altavista en sont un exemple, mais aussi les graphes de connaissances tels que ceux pouvant être décrits à l'aide de RDF [235] ou d'autres langages. Les << structures sémantiques >> [181] proposées pour redoubler la structure logique sont ainsi une tentative de définir un troisième niveau de connaissance (structures physique/logique/sémantique) à l'aide de graphes conceptuels.

De plus, il est maintenant reconnu que les balises liées à la présentation -- même les plus banales -- décrivent en fait des connaissances qui peuvent être utilisées dans d'autres tâches que celle de présentation. Par exemple, une balise Titre exprime deux choses : titre comme dénomination qui entraînera une certaine présentation et un arrangement de ce qui est encadré par la balise, mais aussi le fait que ce qui est encadré est un titre, c'est à dire une information sémantique utilisable en tant que telle, par exemple pour en extraire des mots-clé a priori plus pertinents que d'autres sur le document.

On constate donc que la frontière entre connaissances de présentation et méta-connaissances est en fait relativement ténue, voire s'estompe. Les structures de présentation et les structures de connaissances décrivent toutes des connaissances sur le document, et dans le même temps fondent celui-ci. Ainsi un document accompagné de sa documentation (de structures de connaissances) est encore un document, qui est désormais adapté << nativement >> à des utilisations autres que la tâche classique de présentation pour l'appréhension.

Remarquons que cette constatation est également technologique : avec le développement d'XML (eXtended Markup Language, [160]) qui est un langage de balises permettant de définir ses propres balises et leur schéma de structuration, il devient aisé d'inclure des structures de connaissances aux documents, c'est à dire de mêler de façon naturelle structure de présentation et structures de connaissances².

Le terme structure de présentation nous semble à cet égard devenir une notion dynamique et opératoire, dont la définition est finalement : << fait partie de la structure de présentation tout élément de structure de connaissance documentaire (sémantique) utilisé pour mettre en place une présentation du document >>. Dans ces conditions la structure logique pourrait perdre de son importance initiale pour n'être plus qu'une structure de présentation << canonique >> extraite d'une structure générale de connaissances.

Ajouter des connaissances par l'annotation

Nous revenons un instant sur la notion d'annotation qui consiste à ajouter des connaissances à un document, représentées de façon interne ou externe, en vue d'une tâche.

De la façon la plus générale, le concept d'annotation est utilisé comme moyen de documenter des parties de documents à l'aide de texte libre. Il est par exemple possible d'annoter des parties de documents Word (sous la forme de << post-it >>). La tâche envisagée est alors basique, et consiste simplement en la lecture de ces annotations, dans leur contexte, c'est à dire en regard du texte annoté.

De façon plus élaborée, un certain nombre de travaux s'intéressent aux annotations de documents pour que celles-ci soient partagées dans le cadre d'un travail collaboratif, et s'appliquent aux systèmes d'information et de communication de l'entreprise (par exemple Lotus Notes), ou bien aux documents Web⁴. Les tâches liées aux annotations sont alors associées à leur lecture, mais aussi à la recherche dans celles-ci, et plusieurs types d'annotations peuvent être distingués. Par exemple, dans leur travail sur la station de lecture de la BNF, [233,48] s'intéressent à la lecture savante de documents, et distinguent entre autres les annotations de soulignement, le marquage pour la réutilisation, ou encore la catégorisation de parties (par exemple << Définition >>). L'usage principal est alors la navigation dans les annotations, et l'utilisation des liens de références entre parties de documents sur la base d'annotations identiques.

Dans une perspective plus ambitieuse, [57] définissent un système d'annotation de parties de document prédéfinies non seulement pour l'aide à la compréhension de documents (basée sur un modèle des actes de communication écrite), mais aussi pour la reconstruction de documents à partir des annotations. Il s'agit alors de structurer les annotations elles-mêmes de façon à pouvoir les utiliser pour aider un utilisateur à construire de nouveaux documents à partir des anciens, dans le cadre d'un système de gestion de projet. Une unité d'annotation est par exemple définie par :

Les annotations ne sont pas liées explicitement entre elles. Une interface permet l'annotation en fournissant des guides, ainsi que de poser des requêtes sur la structure du document et le contenu des annotations.

Les questions qui se posent alors sont les suivantes : qui annote, comment, pour qui et pour quelle exploitation ?

Sur la mise en place d'annotations comme connaissances internes, nous pouvons constater que l'auteur est le premier documenteur de son texte, éventuellement de façon inconsciente lorsqu'il utilise un traitement de texte, par exemple en sélectionnant un niveau de titre, ou de façon consciente par exemple s'il indique en note quelle version d'un titre il a écartée.

Concernant la mise en place d'annotations externes, il faut remarquer que la plupart du temps, l'annotation est annotation de parties de documents qui sont déjà désignées, c'est à dire que la structure << auctoriale >> est utilisée comme support pour une description annotative qui lui est seconde. Ceci signifie qu'est généralement accepté le fait qu'il existe une analyse primordiale, qui est celle du concepteur du document, qui servira de guide pour l'analyse. Ceci est faux dans le cas général, où l'auteur d'un document ne maîtrise pas toutes les utilisations et exploitations qui en seront faites, à part dans des cas très particuliers. Il n'empêche que le point de vue du concepteur, bien que non définitif, n'en est pas moins très important, et est entièrement porté par la documentation et les prescriptions explicites du document.

La liberté de définition des annotations dépend en fait de la tâche que ces dernières doivent pouvoir supporter. Dans le cas de l'audiovisuel par exemple, on peut imaginer que dans un futur proche un auteur mette en place une structure documentant son travail créatif, à partir de laquelle il sera possible d'annoter, par exemple dans un objectif d'analyse de l' $\oe$ uvre. Il est alors certain qu'il est nécessaire de pouvoir définir d'autres unités d'annotation (UAV dans les Strates-IA) que celles qu'il aura explicitement spécifiées. Dans le cas d'un travail plus précisément défini, comme celui présenté dans [57], où des parties de documents sont clairement documentées et partagées dans le cadre d'une méthode de conception, la liberté d'annotation est plus contrainte.

Nous résumerons le cas général en spécifiant que l'auteur du document n'est pas forcément coauteur de toutes les annotations au sens où il en définirait les zones de portée.

Pour conclure.

Nous avons dans cette partie rapidement discuté les rapports entre documents et connaissances sous l'angle de la structure, et avons ré-interrogé la notion d'annotation dans ce contexte. Il apparaît finalement que :

Ainsi, un document audiovisuel annoté dans le cadre des Strates-IA devient instrumenté par les structures mises en place. Ces structures sont mises en place en vue d'une exploitation basée sur les connaissances d'annotation, et enrichissent une structure de présentation minimale non exploitable en dehors de la visualisation.

D'autre part, dans le cas des Strates-IA, l'annotation est vue comme écriture, définitoire des parties, et prenant en compte au même niveau tous les différents types d'annotation. Tous les schémas de description s'expriment de la même manière, sont normatifs à divers degrés, et peuvent être mis en relation librement. C'est le principe de contextualisation (guidée par des schémas partagés, mais qui peut également être libre) qui permet de préciser les EA en contexte au cours de l'annotation comme à la lecture/exploitation des annotations. On peut d'ores et déjà remarquer qu'on se situe entre une approche stricte contraignant les descriptions possibles (ce qui est cependant autorisé) et une approche libre dans laquelle toute annotation est possible. Nous discuterons quelques intuitions concernant l'écriture et la lecture d'annotation sur le flux dans la partie 5.3.2.

Descriptions documentaires

Nous étudions les approches fondées sur les langages de balise, puis la notion de structure d'arbre ou de graphe pour la description de documents. Nous discutons ensuite la norme en cours de mise au point MPEG-7, avant de nous intéresser aux approches de descriptions orientées << connaissances >> et liées aux formalismes de l'intelligence artificielle.

Langages de balises

Intégration de SGML pour la représentation audiovisuelle

[44] présentent un outil permettant de remplir une base de données d'annotation audiovisuelles. L'objectif est de segmenter d'abord le document audiovisuel en plan, avant d'annoter et de regrouper ceux-ci dans une structure arborescente. Les annotations se ramènent à deux types : les méta-données structurelles concernent tout à la fois ce qui est spécifique au médium (compression, durée) et la << structure cinématographique >> (objets spatio-temporels, mouvements de caméra, plans, scènes, séquences, titre) ; les méta-données de contenu permettent de décrire les objets apparaissant dans le flux (chien, disque), et les entités conceptuelles (événements, action, objets asbtraits, etc.). Les méta-données structurelles (surtout la décomposition hiérarchique) servent de base pour les annotations de contenu considéré comme partagé entre parties. On se trouve donc dans une approche de segmentation relativement classique, et SGML est naturellement utilisé pour représenter le document.

Des éléments de structure et des éléments de contenu sont définis dans une DTD, les éléments de structure étant composés de sous-éléments de structure (hiérarchie Document/Séquence/Scène/Plan) et d'attributs, par exemple date ou mots-clé pour Scène. Le niveau du document contient des éléments objets et sous-objets référencés temporellement, ce qui permet de fournir un support à la stratification. Par exemple un journal télévisé sera annoté en considérant un sujet comme Scène, et les objets contiendront des informations sur le nom du journal, la durée, ainsi qu'un objet popularité permettant d'indiquer les passages où des personnages populaires sont présents.

L'intérêt fourni ici par SGML est qu'un parseur peut valider des modèles de documents de façon simple, par exemple s'assurer que les scènes sont composées de plans. L'interface mise en place par [44] (VANE : Video Annotation Engine) s'adapte à la DTD d'un document annoté, et permet surtout de modifier dynamiquement la DTD quand l'utilisateur décide d'ajouter de nouveaux objets ou attributs. A la fin de l'annotation et en vue de l'exploitation de la base, le schéma défini par la DTD est mis en correspondance avec un schéma relationnel permettant de poser des requêtes SQL sur la base.

Formats de description et d'échange

C'est avec des objectifs différents que l'INA a développé un format appelé AEDI (Audiovisual Event Document Interface, [19]), puisqu'il s'agissait au départ de fournir un format permettant l'échange (et donc la comparaison) de résultats de traitements automatiques sur les documents audiovisuels. AEDI est à la base fondé sur le format de représentation interne de l'outil Médiascope développé à l'Inathèque de France⁶. Le format a ensuite évolué en fonction des objectifs des différents projets dans lesquels il était utilisé. Il s'agissait, comme dans l'exemple vu précédemment d'essayer d'étendre les concepts de la publication électronique (formats documentaires à base de langages de balise, ici XML) à la description de documents audiovisuels, de telle sorte qu'une DTD puisse représenter un schéma de description.

Ont alors été rajoutés des types de données à XML (différents du type original et unique PCDATA, purement textuel), puis la possibilité de mettre en place des types d'attributs, et des descripteurs comme ensemble d'attributs valués, lesquels sont situés temporellement dans des strates, qui peuvent contenir des hiérarchies de segments ou d'autres strates. Localement à une strate peuvent être définis les descripteurs qui seront utilisés dans la segmentation contenue dans cette strate. Les segments et strates du document sont décrits sur un document abstrait différent de ses réalisations physiques, ce qui permet par exemple de faire évoluer le document physique (par exemple passer d'une bande à un fichier informatique) ou d'éliminer les publicités d'un document.

La tentative de décrire des schémas de descriptions et des descriptions à l'aide des possibilités natives de XML (notamment la vérification automatique de conformité des descriptions à une DTD) s'est révélée illusoire. [18] démontrent ainsi que la description doit être multi-axiale (axe temporel, mais aussi axes spatiaux), et qu'il y a une impossibilité théorique à décrire des documents multi-axiaux dont les contraintes de descriptions soient entièrement contenues dans une DTD. En conséquence de quoi il devient nécessaire de décrire les documents et leurs schémas de description non plus en XML, mais dans un langage de description qui soit lui-même ensuite décrit en XML.

La dernière version d'AEDI permet de définir une description comme arborescence de descripteurs, possédant des bornes sur un ou plusieurs axes (par exemple l'axe temporel) et caractérisés par des attributs qui peuvent eux-mêmes être des descripteurs. Les schémas de descriptions sont des graphes définissant des classes d'objets disponibles et permettent d'exprimer des contraintes supérieures à celles exprimées par les simple DTDs et des parseurs appropriés peuvent être construits, qui valident les descriptions au niveau du modèle de description (utilisant par exemple RDF). On trouvera un exemple d'utilisation de AEDI pour décrire une description abstraite Strates-IA dans [20].

Strates-IA et langage de balises

Nous présentons rapidement dans cette partie le travail qui a été réalisé dans le cadre du DEA d'Elöd Egyed-Zsigmond [87] sur la représentation d'un graphe Strates-IA dans un langage de balises dérivé de XML.

Représenter un graphe Strates-IA en XML

L'objectif de cette étude était de mettre en place une représentation d'un graphe de connaissances Strates-IA dans un ensemble de fichiers tels qu'elle convienne aux opérations d'exploitation des Strates-IA.

Les possibilités de construction de modèle se répartissaient suivant les critères suivants.

Sept modèles de représentation ont ainsi été définis, associant à divers degrés les critères que nous venons de présenter. Le choix a été fait de séparer le graphe global en sous-graphes connectés : un sous-graphe correspond à la base de connaissances, les autres sous-graphes sont liés aux flux audiovisuels étudiés. Un flux correspond ainsi à l'ensemble des unités audiovisuelles qui réfèrent à une même base temporelle, ainsi que les éléments d'annotation qui leur sont liés. Tous les modèles ont été définis et testés à l'aide de la bibliothèque XML4C de IBM.

Tableau 5.1: Comparaison et classement des modèles selon cinq critères. 1 correspond à la meilleure note et 8 à la plus mauvaise. C'est le critère correspondant aux opérations d'instanciation de graphes potentiels qui est prépondérant chez nous.

	C₁ Richesse	C₂ Taille	C₃ Mise	C₄ Recherche	C₅ Lisibilité
	sémantique	fichiers	à jour
M1 : Modèle de base	7	4	3	6	4
M2 : Variante avec EA encapsulés dans les UAV	6	2	3	4	2
M3 : Modèle de base avec attributs	5	3	3	6	3
M4 : Variante attr. + EA encapsulés dans UAV	4	1	3	4	1
M5 : Liens exclus (ad-hoc)	3	6	1	2	7
M5' : Liens exclus (ad-hoc), EA encapsulés	2	5	1	1	6
M6 : Liens exclus (XLL)	1	8	2	3	5
M7 : RDF	2	7	4	5	5

Suivant les différentes exploitations du graphe, les critères ont une importance différente. Par exemple, représenter les liens dans les mêmes fichiers que les n $\oe$ uds entraîne des opérations complexes de mise à jour des arbres XML dès qu'il s'agit d'ajouter des relations (C₃). Le tableau 5.1 résume les résultats de l'étude pour les différents modèles proposés en fonction des critères de comparaison.

Le critère principal retenu est celui de la rapidité d'exécution de requêtes simples par l'algorithme de multi-propagation : les requêtes portant sur le contenu des n $\oe$ uds et la recherche de voisins dans le graphes sont donc considérées comme prioritaires (C₄).

Le modèle le plus pertinent correspond alors à une représentation utilisant des liens exclus conformes à la syntaxe XLL (ce qui correspond au modèles M5' dans le tableau 5.1.

Autres connaissances d'exploitation des Strates-IA

L'étude précédente portait sur la problématique générale de représentation de graphes de connaissances dans des langages de balises, à savoir ici le graphe Strates-IA.

Il peut se révéler d'intérêt de représenter les autres connaissances liées à l'exploitation des Strates-IA dans de tels langages, par exemple les schémas de description, les graphes potentiels ou les dimensions d'analyse. Le fait de pouvoir en dernière analyse ramener toutes ces connaissances à des graphes ou des ensembles de graphes permet une représentation homogène de l'ensemble des connaissances du système, qui facilite l'exploitation d'une syntaxe unique (par exemple XML) pour décrire les formats de représentation.

L'approche que nous avons présentée au chapitre 4 de représentation homogène des cas d'utilisation expliqués par un modèle d'utilisation et des modèles de tâches et sous-tâches a également des liens intéressants avec les langages documentaires. Par exemple, un cas d'utilisation peut se concevoir comme un document décrivant les éléments instanciés constituant la trace de réalisation d'une tâche. La décomposition d'un modèle de tâche en modèles de sous-tâches permet sa représentation aisée sous une forme documentaire arborescente. Ainsi, dans le cas d'utilisation de la figure 4.4, page

, le document correspondant serait constitué de la description de la structure de la tâche (notamment l'imbrication de trois niveaux pour la première sous-tâche) caractérisés par les éléments qui y sont instanciés. Des langages de description documentaire comme XML offrent la richesse d'expression suffisante pour exprimer les connaissances ainsi décrites.

Arbres et graphes

Les deux premiers exemples que nous avons présentés montrent une utilisation des langages de balises (SGML ou XML) pour le description et l'annotation de documents audiovisuels. L'enjeu primaire d'atteindre à des descriptions complètement décrites en XML s'est révélé illusoire sauf dans le cas d'applications limitées, basées sur une segmentation stricte du document, aux éléments représentant des segments étant ajoutés des annotations préalablement fixées. L'approche documentaire standard présente en effet des limites : une description d'un document audiovisuel n'est pas toujours un arbre, et fait appel à des contraintes plus complexes que celles exprimées dans une DTD.

Cela est par exemple visible dans AEDI et ses extensions qui se dirigent vers RDF pour la documentation de documents, sur laquelle il s'agira de se base pour calculer leur présentation à l'utilisateur⁷. C'est également le cas de MPEG-7 (voir paragraphe suivant 5.2.4) qui se base sur une simplification et une spécialisation de XML-Schéma [236]. A fortiori, la représentation des Strates-IA dans un langage de balise relève du même niveau, en s'abstrayant totalement des modèles structurels liés au langages documentaires. Alors XML n'est qu'un langage permettant une description homogène des modèles de graphes de connaissances, dont toute la syntaxe et la sémantique leur restent propres⁸.

Bien entendu, le résultat final d'une description est toujours un arbre XML, mais ce sont les relations, et surtout les schémas de relation entre éléments (décrits hors-DTD) qui représentent la véritable organisation des connaissances sous la forme d'un graphe.

Il nous semble donc (et nous avons argumenté ailleurs dans cette direction) que l'organisation des connaissances de description ne doit pas a priori suivre un schéma hiérarchique, ce qui signifie que les possibilités de description doivent être suffisamment riches. Le graphe comme moyen le plus général de représentation des connaissances s'impose alors. En d'autres termes, les schémas de descriptions ne doivent pas être plaqués sur les outils de description << technologiques >>.

De façon plus prosaïque, la section suivante est consacrée à une étude des travaux qui se déroulent autour de la norme MPEG-7.

MPEG-7

Le principe général de MPEG-7 vise à mettre en place une norme de description autorisant toutes les descriptions possibles et imaginables pour l'audiovisuel¹⁰, en vue d'en permettre l'accès et la manipulation. Lancée en 1997, cette norme devrait théoriquement voir le jour vers en juillet 2001. Après un démarrage laborieux, certaines parties sont d'ores et déjà en place, et nous essayerons d'en donner une vision résistante aux changements qui pourraient apparaître par la suite, à partir de documents publics, mais aussi de documents de travail auxquels nous avons accès, mais ne pouvons citer. Il convient de garder en mémoire cependant que les concepts que nous allons présenter peuvent évoluer rapidement.

Principes généraux de MPEG-7

Les concepteurs de MPEG-7 ont pour objectif de prendre en compte l'ensemble des applications imaginables à l'heure actuelle pour les documents audiovisuels voire multimédias : images, sons, liens doivent pouvoir être décrits de multiples manières, et la mise en place procède par accumulation.

D'après [167] : << MPEG-7 aims to create a standard for describing the multimedia content that will support these operationnal requirement [...] the requirements are derived from analysing a wide range of potential applications [...] MPEG-7 is not aimed at any one application in particular, rather, the elements that MPEG-7 standardizes shall support as broad a range of application as possible >>. Il s'agit donc de fournir des langages de description, et des descriptions de base permettant l'utilisation par des applications (recherche d'information, composition, navigation, etc.) dont ne s'occupe pas la norme, pas plus qu'elle ne s'occupe des outils permettant de mettre en place les descriptions.

MPEG-7 fournira donc principalement : un ensemble de descripteurs, un ensemble de schémas de description, un langage permettant de définir des schémas de description. Par la suite, chacun pourra définir de nouveaux schémas de description en fonction des applications visées.

Les schémas de description (DS) se définissent récursivement à l'aide de liens de << composition >>¹³. Par exemple, une définition provisoire de l'ObjectDS avec le DDL est la suivante :

Ceci signifie que le DS peut être précisé, possède deux attributs qui sont un identificateur et une URI (Universal Resource Identifier), contient un descripteur de type d'objet (pour l'instant non défini), et peut être lié à une annotation (définie dans AnnotationDS) et un ensemble de sous-objets (définis récursivement). Cet exemple montre une partie de la syntaxe du DDL, et comment sont décrits certains liens entre descripteurs et schémas de description à l'intérieur des DS.

D'autres liens entre DS -- différents de la composition -- peuvent être définis dans d'autres DS, par exemple, les liens entre le EventDS et le ObjectDS sont définis dans le EventObjectRelationDS, spécifiant une relation par un type (qui est un descripteur) et l'identificateur de l'instance de DS point de départ, ainsi que le ou les identificateurs d'instance points d'arrivée. Les liens entre segments sont de type spatial (adjacent, à gauche, etc...), temporel (avant, adjacent, près de...) ou visuel (plus jaune que, même vitesse, même forme...).

Les schémas de descriptions sont prévus pour couvrir l'ensemble des descripteurs et des descriptions imaginables, par exemple certains DS sont consacrés aux segments pour en mettre en place une hiérarchie, d'autres aux primitives image de bas-niveau, d'autres aux personnes, d'autres encore s'intéressent aux différents temps du document et à la manière de les décrire, ou bien aux poids à attribuer aux différentes descriptions (par exemple accorder plus d'importance à une description de texture que de couleurs) ou au type de média considéré (format...). Des descripteurs de << résumé >> permettent de prendre en compte des mosaïques de résumé, éventuellement hiérarchiques, ou encore des diaporamas.

Les descripteurs << syntaxiques >> appartiennent à SyntacticDS qui peut contenir des DS dérivés de SegmentDS et des DS de graphes de segments (permettant de les lier, par exemple pour mettre en place une hiérarchie de segments). Les DS dérivés de SegmentDS sont les suivants : VideoSegmentDS (l'équivalent d'une strate) ; StillRegionDS (pour désigner des zones dans une image fixe, extraite ou non d'un flux) ; MovingRegionDS (pour spécifier une zone évoluant au cours du temps) ; AudioSegment (pour définir des strates sonores). On notera que le SegmentDS peut se définir récursivement, c'est à dire qu'il est possible de mettre en place des hiérarchies de segments sans passer par le graphe de relations de segments (à l'aide d'un descripteur de décomposition). De la même manière, les StillRegionDS peuvent se décomposer. Les VideoSegmentDS et MovingRegionDS sont décrits par des TimeDS permettant de les situer temporellement.

Les descripteurs << sémantiques >> sont de plusieurs types. Le SemanticDS décrit les << notions sémantiques >> apparaissant dans le flux, par exemple voiture et se spécialise en objets et événements. Les EventDS décrivent les notions ayant une extension temporelle et peuvent être décomposés (par exemple match de tennis se décompose en sets, jeux et points), tandis que les ObjectDS sont consacrées aux notions ayant des extensions spatio-temporelles. Les liens entre éléments sémantiques sont gérés par un graphe, de même que les liens entre notions sémantiques dans le SemanticDS (les liens sont repris de WordNet [94] et décomposés en liens lexicaux, prédicatifs et d'équivalence). Les liens du SyntacticSemanticDS permettent de lier des segments aux éléments sémantiques (objets, événements, relations objets-événements), et signifient dans un sens des liens d'instance audiovisuelles d'éléments sémantiques, dans l'autre des liens d'interprétation sémantique d'unités syntaxiques. Ce DS représente un premier effort de liaison entre unités syntaxiques et sémantiques, et fait partie des originalités de MPEG-7 par rapport aux modèles précédents, tels que ceux que nous avons vus au chapitre 2.

A cela s'ajoute le MetaDS, qui permet de décrire ce qui se passe dans le document (ou même dans un segment quelconque...) selon les << 6W >> (Who?, Where?, What?...), de mettre en place des annotations textuelles, des lieux, des dates, des publics visés, etc., ainsi qu'un ContentDS liant descriptions, 6W, descriptions, objets, personnages...

**Figure 5.1:** Un exemple simplifié de décomposition du schéma de description principal de MPEG-7 *GenericAVDS*.
$\includegraphics[width=\linewidth]{fig/disc/SD.eps}$

Un exemple de description suivant le GenericAVDS de la figure 5.1 est donné figure 5.2.

**Figure 5.2:** Un exemple de description MPEG-7. La description syntaxique contient une scène et deux plans, la description sémantique contient deux événements, dont l'un est lié au flux en utilisant une relation syntaxe/sémantique.
$\includegraphics[width=\linewidth]{fig/disc/ex-mpeg7.eps}$

Synthèse et analyse de la situation actuelle

L'objectif à la base de MPEG-7 était de fournir des moyens de décrire des flux audiovisuels, mais aussi de préciser comment les décrire en termes de contenu. Les concepteurs se sont rendu compte que cela était impossible, et proposent donc un langage de description (DDL) et un ensemble de schémas de description fournissant des exemples de manière de décrire. La liberté n'est cependant pas totale : un schéma de description personnel doit être une spécialisation d'un schéma de description fourni, lequel inclue des << guides >> de description. Par exemple, un StillRegionDS est composé de zéro ou plusieurs Color/TextureDS, ou alors le PersonDS spécifie de manière stricte comment décrire une personne, y compris sa << race >>. Les schémas de description ne sont donc pas indépendants entre eux, il y a dans la norme une incursion dans le domaine de l'utilisation.

L'approche générale de MPEG-7 oscille donc entre une volonté prescriptive (afin d'obtenir une norme utile et effectivement utilisée) traditionnelle du groupe MPEG, et une volonté de généralité pour permettre de prendre en compte l'ensemble des applications visées. Le mode de travail, qui consiste à essayer d'affiner peu à peu des schémas de description issus d'un regroupement préalable de l'ensemble des manières de décrire proposées au début des travaux n'encourage pas vraiment à avoir une vue d'ensemble. Les descripteurs proposés dans les divers schémas de description se recoupent donc relativement souvent.

Cela est particulièrement le cas entre les schéma de description MetaDS et SemanticDS, dont les rôles respectifs sont peu différenciés. Par exemple, un méta-DS permet de définir le contenu d'un segment, quel que soit celui-ci, en utilisant par exemple des objets issus de ObjectDS -- spécialisation de SemanticDS -- qui peuvent à ce titre être liés avec des segments en utilisant le graphe de relations syntaxique/sémantique. La définition de ce qui se passe dans le flux peut donc être mise en place à tous les niveaux, sans que les rôles soient bien précisés.

D'autre part, les liens entre concepts utilisés en tant que descripteurs sémantiques du flux (par exemple but) et leurs éventuelles instances sont loin d'être totalement clarifiés. Par exemple, but doit n'être utilisé qu'une seule fois, et il n'est pas possible de spécifier des << instances de but >> telles que but1 et but2, qui pourraient être mis en relations avec des descripteurs liés à leurs auteurs. Dans l'esprit de la norme, le lien entre but et but1 et but2, doit être réalisé en mettant en relation syntaxique/sémantique but comme descripteur sémantique avec ses diverses occurrences << syntaxiques >> (les images) dans le flux.

Le mélange des genre nous semble à cet égard relativement dangereux, car s'appliquant à ce qui est le plus difficile à gérer, à savoir le niveau sémantique et symbolique des descriptions. Ce niveau risque pourtant d'être celui qui aura le plus d'importance en termes de recherche et de manipulation de documents audiovisuels indexés, au regard des descriptions par exemple issues du traitement du signal.

La volonté de normaliser autre chose qu'un langage de description minimal pour l'audiovisuel¹⁴ (c'est à dire permettant de lier des descripteurs à des morceaux de flux, quels que soient les uns et les autres) conduit les concepteurs de MPEG-7 a essayer de fournir dans un même élan normatif à la fois une syntaxe de l'audiovisuel, une sémantique, un sens commun et des genres principaux, au risque de n'arriver à rien. Ce genre de travail a par exemple été accompli par SGML puis par la TEI¹⁵, en de nombreuses années, sur un matériau bien mieux connu.

Il nous semble donc que c'est au prix d'une simplification relative de la volonté de description, c'est à dire en fournissant a minima un langage universel permettant de décrire des descriptions de flux audiovisuels, tenant compte de ses particularités spatio-temporelles, que les résultats pourront avoir une utilité. Alors leur utilisation dans un certain nombre d'applications permettront de faire émerger des pratiques et des genres liés à l'audiovisuel << totalement indexé >>.

**Figure 5.3:** Exemple de transposition d'une description MPEG-7 dans les Strates-IA.
$\includegraphics[width=\linewidth]{fig/disc/tansposition.eps}$

MPEG-7 et Strates-IA

Les Strates-IA fournissent tout d'abord un mécanisme d'opérationalisation des descriptions MPEG-7. En effet, toute description MPEG-7 d'un document audiovisuel, toute instance de schéma de description ou de descripteur est liée, d'une manière ou d'une autre à une partie -- éventuellement spatialisée -- d'un flux temporel. Cela est bien entendu le cas pour les segments de façon directe (lorsque ceux-ci sont liés à une instance de TimeDS), mais aussi de façon implicite, pour toutes les descriptions qui leur sont liées. Par exemple, une description globale est liée au flux comme tout ; une description sémantique liée à un événement peut-être considérée comme globale, et liée à une description locale, ou bien être elle-même locale, etc.

Il apparaît donc qui est possible de considérer tout lien effectif au flux comme lien vers une unité audiovisuelle étendue¹⁷, et de définir les instances de schémas de description comme éléments d'annotation, les diverses relations entre éléments de MPEG-7 étant explicitement décrits à l'aide d'EA de relation. Il s'agit donc de << mettre à plat >> les descriptions MPEG-7, en exprimant toute description d'annotation sémantique (au sens où nous l'avons défini, de façon très large), à l'aide d'un ou de plusieurs éléments d'annotation, situés dans le flux au moyen des unités syntaxiques minimales que sont les UAV étendues. Les relations de composition entre schémas de description MPEG-7 sont représentées explicitement comme relations Strates-IA, de même que les relations explicitement décrites dans les graphes de relations MPEG-7.

La base de connaissances Strates-IA correspondant à une telle opérationalisation devrait être construite à partir des schémas de description MPEG-7 effectivement utilisés.

La figure 5.3 présente un exemple de transposition de la succincte description présentée figure 5.2 dans les Strates-IA. Cinq unités audiovisuelles sont mises en place, correspondant au flux dans son ensemble, aux trois VideoSegment et au MovingRegion. Les instances de schémas de description sont linéarisées, c'est à dire représentées à l'aide d'éléments d'annotation et de relations (toutes ne sont pas décomposée totalement : ainsi, la relation entre < Event > et < Accident > devrait par exemple être explicitée à l'aide d'un EA < EventType > , comme c'est la cas pour la décomposition de < VideoSegment > ). On remarquera que divers choix de transposition sont également possibles en termes de descripteurs, par exemple il est possible de les passer en EA (cf. EventType), ou bien de les garder comme attributs d'EA (cas des attributs Text et Author de < Annotation > par exemple). Les liens syntaxe/sémantique sont considérés comme toujours explicités à l'aide de relation d'annotation entre EA (forcément sémantiques) et UAV étendues.

Les Strates-IA offrent donc un moyen de transposer les descriptions MPEG-7 en liant de façon explicite tous les descripteurs au flux. Tous les éléments de description sont également remis à un même niveau, qui est celui des éléments d'annotation. Dans la figure 5.3 par exemple, les descripteurs image et sémantiques annotant une même UAV se trouvent contextualisés directement et temporellement, ce qui n'était pas le cas dans la description MPEG-7. Les mécanismes d'exploitation contextuelle des Strates-IA peuvent alors être utilisés pour mettre en liaison descriptions de haut et de bas-niveau conceptuel, pour rechercher des morceaux de flux ou des descripteurs spécifiques, etc.

Au chapitre des différences, hormis la différence d'échelle, notons qu'en tant que future norme, MPEG-7 vise à autoriser tous les usages dans un format de description unique, les schémas de description MPEG-7 faisant office de points de départ et de briques de construction d'autres schémas de description, ceux-ci jouant le rôle de contraintes sur la description, à l'image des DTD de XML. Dans le cas des Strates-IA, les schémas de descriptions sont beaucoup plus proches des annotations elles-mêmes, au sens où ils peuvent en être extraits aisément, en fonction des usages avérés. Les Strates-IA définissent un usage d'annotation générique (EA, UAV, relations entre EA), toutes les annotations étant mises au même niveau en vue de pouvoir modifier et compléter aisément annotations et schémas.

Bien que ce ne soit pas un des objectifs majeurs de l'approche des Strates-IA, qui se base sur une relative évolutivité du système en fonction de son utilisation, et la réutilisation de l'expérience à tous les niveaux, il est certain qu'en fonction d'une utilisation avérée, des schémas de description stables différents des schémas de description initiaux pourront émerger et éventuellement être réutilisés de façon plus ou moins figée dans d'autres systèmes.

Approches orientées << connaissances >>

Nous allons dans cette partie nous intéresser aux aspects liés aux connaissances documentaires, en tant qu'elles sont connaissances, c'est à dire impliquées dans la réalisation d'une tâche de raisonnement ou d'inférence automatiques permettant l'exploitation des documents.

Les quelques approches que nous allons présenter représentent des connaissances documentaires à plusieurs niveaux, que nous divisons grossièrement en deux groupes.

Dans le premier cas, il s'agit de connaissances hors-documents, qui représentent une réalité hors-documents (mais qui en est éventuellement tirée) sous la forme de graphes de connaissances à partir desquels il est possible d'accéder aux documents. Ainsi, [3] présentent une organisation de connaissances zoologiques comme objets ayant diverses facettes, permettant d'accéder à leurs réalisations documentaires, tandis que [175] décrivent un réseau de connaissances techniques permettant de s'orienter dans une documentation.

Dans le deuxième cas, l'organisation de connaissances hors-documents se limite à des thésaurus ou bases de connaissances décrivant les termes et la manière de décrire les documents à l'aide d'organisation de ces termes en réseaux sémantiques << instances >>. Ces réseaux sont alors créés comme descriptions de documents particuliers [108], ou bien intégrés [56] dans la description documentaire complète.

Graphes de connaissances hors-documents

Connaissances pour l'enseignement.

[3] présentent un approche de description de connaissances audiovisuelles utilisées dans un système multimédia d'apprentissage. L'objectif est donc de décrire des connaissances factuelles, et de les illustrer à l'aide d'extraits audiovisuels.

Les auteurs définissent des unités syntaxiques au niveau des flux audiovisuels, qui serviront de points d'ancrage dans le document. Ainsi, les unités syntaxiques sont des séquences (strates quelconques), dont on peut considérer les composantes vidéo et audio, et des informations concernent les objets visibles (voire invisibles mais présents) dans une image (ou dans un plan si la situation ne change pas) et les arrangements spatiaux entre objets exprimées à l'aide d'un ensemble de relations primitives(sur, sous, à droite, devant, etc.). On aura par exemple objets: chat (30,30,50,70), télévison (0,0,30,80) exprimant les positions à l'image de deux objets, ainsi que des relations spatiales telles que (chat) [sur] (télévision), (perso1) [sous] (télévision) ou encore (chapeau) [sur] (perso1), etc. Les unités syntaxiques serviront à faire le lien entre le flux et les unités sémantiques. La description des objets des images et de leurs relations spatiales ne semble pas utilisée, les unités syntaxiques se limitent dans la suite de l'article à des strates temporelles.

Les entités d'intérêt représentent les connaissances du domaine du système d'enseignement. Une entité d'intérêt regroupe trois type d'unités sémantiques : une entité description, une entité événement et une entité action. Les unités sémantiques contiennent des éléments pouvant être liés aux flux audiovisuels, via les éléments syntaxiques.

Si on considère par exemple l'entité d'intérêt Léopard (nous sommes dans un système d'apprentissage consacré aux animaux), alors celle-ci regroupera les unités sémantiques suivantes :

Les attributs de toutes les unités sémantiques peuvent être liés au flux, c'est à dire à des ensembles d'unités syntaxiques (par exemple Etouffer peut être lié à tous les plans contenant des scènes d'étouffement¹⁸). D'autres attributs, tel Savane peuvent n'avoir pas de liens aux flux, ou avoir des liens de connaissances hors-flux tel le lien de spécialisation entre l'unité de description de nom Léopard et l'unité de description de nom Mammifère.

A partir du modèle de représentation de connaissances hors-documents que nous venons de présenter, les auteurs utilisent des réseaux de représentation conceptuelle du domaine visé dans un système d'apprentissage pour jeunes enfants (consacré au animaux), que nous ne détaillerons pas. Ce qui nous intéresse ici est en effet le modèle de représentation, pour lequel l'enjeu principal n'est pas de mettre en place une structure documentaire, mais bien de lier des connaissances conceptuelles abstraites à des << illustrations >> contenues dans le flux. Ce sont d'une certaine manière les connaissances encyclopédiques (objet de l'apprentissage) qui sont illustrées à l'aide de connaissances contenues dans le flux par l'intermédiaire des unités syntaxiques de description.

Connaissances pour la recherche de documentation.

[175] mettent en place un réseau sémantique de connaissances factuelles liées à des documents sur la maintenance d'installations nucléaires. La base de documents est alors transformée en hypertexte, dans lequel se retrouvent plusieurs types de connaissances : connaissances sur le contenu des documents, connaissances générales sur le domaine, et connaissances sur la tâche (offrant une utilisation du réseau sous la forme de scripts). La structure hypertexte est alors un graphe étiqueté orienté qui peut être parcouru automatiquement ou manuellement afin d'accéder aux documents.

Le réseau sémantique de description est obtenu en définissant un certain nombre de classes organisées en hiérarchies et connectées par des relations. Par exemple, la relation est-né-dans pourra être utilisée entre la classe Ville et la classe Humain). Les concepts (instances de classes) peuvent être définis et mis en relation, ce qui permet de décrire un graphe de connaissances factuelles (par exemple << Mickaël Jackson est né à Chicago >>). L'ensemble de ces connaissances générales est mis en place à partir de l'ensemble des documents et d'un expert.

Les documents eux-mêmes sont décrits dans un formalisme documentaire tel que SGML (+ HyTime), qui permet de définir des ancres (des termes de documents) et leur contexte (une partie de document contenant l'ancre et considérée comme minimale pour permettre de l'expliquer). Les ancres sont liées aux concepts à l'aide de liens typés, exprimant une qualification du contexte utilisé, par exemple Définition, Exemple, Exception, etc. Un lien entre concept et ancre met donc en jeu un contexte documentaire dont le rôle au regard du terme-ancre est qualifié par le type du lien. Par exemple, une ancre peut être cette valve, liée au concept Valve VZ48, dans le contexte d'une phrase, et le lien peut être qualifié par Règle générale explicitant comme il convient de considérer le lien au document du concept, ici comme règle générale qui lui est attachée.

Les utilisations les plus basiques du système concernent la navigation dans les documents en utilisant les liens explicites hypertextes, mais aussi la navigation prenant avantage du réseau de connaissances (dans les connaissances, des connaissances vers les documents, des documents vers les connaissances).

Un autre point développé dans [175] est la possibilité de mettre en place (sous la forme de scripts associés aux concepts) des expressions de chemins sémantiques spécifiant des chemins dans le graphe liant concepts entre eux et concepts et ancres. Ainsi la navigation à partir d'un concept peut consister à lancer le script associé et à naviguer jusqu'à l'extrémité du lien¹⁹. Le << modèle de tâche >> du système (ici la tâche de lire des documents dans un contexte professionnel de recherche de documentation technique), est lié à la base de connaissance et à l'ensemble des scripts mis en place dans les concepts. Un script peut par exemple être lancé après qu'un utilisateur ait navigué d'une partie de texte vers un concept qui lui est lié (e.g. valve). S'il utilise alors un script << donne moi les informations procédurales concernant ce concept >>, le système lui proposera un ensemble de liens vers des parties de documents calculées à l'aide du script, comme s'il avait utilisé un lien << informations procédurales concernant cette valve >>. L'avantage ici par rapport à des liens pré-calculées est que les scripts peuvent être hérités entre concepts d'une part, d'autre part s'appliquent sur l'état actuel du graphe de connaissances, donc prendra éventuellement en compte des ajout à celui-ci. De façon plus générale, les scripts permettent de définir des documents virtuels, en tant que connaissances dynamiques de construction (au contraire des DTD) : un document est construit en associant des connaissances structurelles (éventuellement conditionnelles et évaluables) et des contenus pré-determinés ou résultats d'application de chemins sémantiques.

Graphes conceptuels

Nous présentons ici quelques approches de description utilisant explicitement les graphes conceptuels [215,216,168] pour la représentation de connaissances sur les documents.

Rappelons rapidement ce qu'est un graphe conceptuel. Un système de représentation en graphe conceptuel est composé d'un support, qui est un ensemble de types de concepts organisés en treillis, et d'un ensemble de types de relation, également organisés en treillis. Les relations permettent de lier n instances de concepts (qui peuvent être générales, par exemple [Humain:*] ou particulières à un réfèrent [Humain:Jean]), par exemple on pourra avoir [Humain:Jean] $\rightarrow$ (Agent) $\rightarrow$ [Action:Marcher]. Un graphe conceptuel est un ensemble de concepts connectés à l'aide de relations. Il permet d'exprimer des connaissances de façon facilement lisible par l'homme, mais aussi de raisonner, au moyen d'opérations telles que la spécialisation, les joints internes et externes, la généralisation, qui s'expriment dans les termes de l'opération de projection. Toutes les connaissances et les manipulations de graphes s'expriment également dans les termes de la logique du premier ordre²⁰, ce qui permet d'assurer la validité des raisonnements en terme de logique standard. La relation est-un qui sert à organiser les treillis du support est à cet égard fondamentale et strictement définie selon les inférences qu'elle permet de réaliser : tout ce qui est valable pour un concept le sera également pour tous ses concepts fils (au niveau des types).

Le support définit donc une base de connaissances définissant des intensions d'objets du monde et les manières de les mettre en relation, et les faits et connaissances, utilisant des extensions de concepts et leurs relations sont exprimés dans les graphes conceptuels. Les inférences se ramènent à des vérifications que certains graphes dérivent logiquement d'autres (subsomption), et à des manipulations de graphes par jonction afin d'en déduire de nouvelles connaissances.

Les trois travaux que nous présentons dans la suite sont des exemples d'utilisation des graphes conceptuels pour l'exploitation de documents.

Structuration de mots-clé

L'objectif de [108] est d'exprimer des connaissances d'indexation en organisant des termes de description explicitement. Ces termes correspondent à ceux utilisés dans le langage documentaire Rameau, qui définit un thésaurus ayant des renvois d'équivalence (tel terme est utilisé pour tel autre), des relations hiérarchiques et des relations d'association. L'utilisation du langage est codifiée (pré-coordonnée) : l'ordre des termes utilisés pour décrire un document n'est pas neutre. Un terme principal pourra être précisé par des subdivisions de sujet en objets, lieu et temps, par exemple :

Le principe proposé dans [108] consiste à représenter les descriptions à l'aide de graphes conceptuels, ce qui permettra d'une part d'autoriser des relations plus explicites entre termes et subdivisions, mais aussi d'organiser les termes de description en réseau, afin d'augmenter les capacités d'expressivité du langage. Un support est alors mis en place, avec des types de relations Objet, Lieu, Temps, Agent, Influence, etc. Les types de concepts sont extraits de Rameau, et il est possible de mettre en place une transcription automatique des descriptions actuelles en description en graphes conceptuels, en utilisant simplement les trois types de subdivisions comme relations.

La recherche consiste alors à déterminer un graphe requête comme graphe conceptuel, et à chercher dans la base des graphes qui en soient des projections (ce qui permet de prendre en compte la relation de subsomption portée par la relation est-un entre types de concepts). Sur la constatation qu'une telle recherche est source de silence (on ne cherche pas les graphes répondant partiellement au graphe requête), l'auteur propose d'adapter le modèle logique de recherche d'information et son principe de transformation²¹ aux graphes conceptuels. Certaines opérations sont alors proposées qui permettent de transformer le graphe requête, principalement par joint, changement de types de sommets concepts ou relations, etc. La manière de mener efficacement ces recherches n'est pas encore étudiée.

Lier des graphes conceptuels à des parties de documents

Dans le cadre d'un outil d'acquisition de connaissances (sous la forme de graphes conceptuels) à partir de textes, [147] étudient les moyens de représenter des graphes conceptuels dans un langage de balise, mais aussi et surtout de décrire des parties de documents structurés à l'aide de graphes conceptuels représentant des connaissances²². Les graphes conceptuels de description étant décrits dans le même langage que les documents, ils peuvent y être directement inclus (dans un arbre annexe). Deux objectifs guident cette description/indexation : permettre de retrouver ou ré-assembler des morceaux de documents sur des critères sémantiques et en utilisant des techniques fondées sur les connaissances ; mais aussi documenter les éléments de connaissances par des liens aux documents.

Les éléments de documents balisés par SGML sont décrits par des graphes conceptuels, qui leur sont liés par une relation Représentation. Un << principe d'inclusion >> est utilisé qui spécifie que la description d'un élément peut soit être un concept unique (un graphe à un seul n $\oe$ ud), soit un graphe liant des graphes conceptuels décrivant des sous-éléments de l'élément considéré. Il est possible d'utiliser des graphes comme référents de concepts, par exemple le concept Proposition peut avoir pour référent un autre graphe cgdécrivant une phrase : [Proposition:cg], ce qui permet d'exprimer des connaissances<< emboîtées >>. L'utilisation des descriptions de textes mime les phrases de la langue²³, en utilisant un principe de compositionalité ascendante : par exemple, les descriptions du type symbole sont liées à des mots du texte, et comprennent des graphes concepts qui doivent exprimer des référents (telle personne, tel objet), tandis que les description du type description expriment des assertions permettant de lier les référents (telle personne utilise tel objet). La construction d'un graphe conceptuel de description est ainsi fortement contrainte par la linéarité du texte et l'organisation arborescente des éléments mis en place à l'aide de SGML.

La base de type de concepts proposée est constituée de l'ensemble des termes de Wordnet [94], et d'un ensemble de 200 relations (thématiques, mathématiques, temporelles, etc.).

La navigation est possible à tous les niveaux du système : niveau des graphes conceptuels, des graphes conceptuels vers les parties de document décrites, ainsi que dans les liens documentaires classiques. La recherche de graphes conceptuels ou des documents décrits passe soit par une utilisation d'index (trouver les graphes conceptuel contenant tels concept, par exemple [Chat], ou bien en essayant de trouver des descriptions qui soient spécialisations d'un graphe conceptuel requête (suivant la relation de spécialisation du treillis des types de concepts).

Décrire les documents avec des graphes conceptuels, propager des attributs.

Le système PRIME, développé au CLIPS-IMAG de Grenoble se base sur une approche de description de documents à l'aide de graphes conceptuels pour la recherche d'informations. L'indexation d'images est considérée [151] ainsi que l'indexation de documents structurés [102,56].

L'objectif est ici de décrire précisément des connaissances documentaires afin de pouvoir mener des recherches de documents précises, en utilisant à la fois navigation et requêtes. Les graphes conceptuels, au contraire de l'approche précédente sont utilisés tout à la fois pour représenter des connaissances structurelles (structure logique + liens de navigation), mais aussi des connaissances de contenu de documents de façon unifiée. Toutes ces connaissances sont alors disponibles aussi bien pour la navigation que pour les requêtes.

Un hyperindex contient toutes les connaissances de structure et de connaissances qui peuvent être utilisées pour décrire les documents. Il joue le rôle du thésaurus de tous les concepts utilisés dans les descriptions. Une hyperbase contient les hyperdocuments ainsi que les liens implantant leur structure logique et les liens de navigation. Différents niveaux d'abstraction dans la description logique des documents existent qui permettent d'en considérer les parties de façon autonome. Les requêtes au système portent alors sur toutes les connaissances disponibles. [56] remarque alors que la classique notion de document en recherche d'information change pour signifier n'importe quelle unité structurelle (et avec elle la notion de corpus : le corpus est l'ensemble des unités structurelles de tous les documents), tandis que la non moins classique notion d'index contient maintenant tout type de connaissances.

Une description est un graphe conceptuel utilisant par exemple les relations contains (structurelle) entre différents concepts à différents niveaux d'abstraction et is-about permettant de lier une unité structurelle à un graphe conceptuel de description (par le biais d'un graphe conceptuel emboîté dans un concept). Aux n $\oe$ uds du graphe de représentation peuvent être ajoutés des attributs, mais il est aussi possible de compléter leurs descriptions par des liens internes entre concepts, ou de liens vers d'autres documents.

Des unités d'indexation sont les unités structurelles indexées, c'est à dire ayant un graphe de représentation associé. Le langage de description est contrôlé par les types de concepts des graphes conceptuels. Les unités d'indexation sont limitées volontairement à certains niveaux d'abstraction utiles (par exemple tous les niveaux entre Chapitre et Sous-section). La stratégie d'indexation est ascendante : on considère pour une unité d'indexation qu'elle est décrite par l'aggrégation des index des unités avec lesquelles elle est liée par la relation contains, c'est à dire qu'il y a une compositionalité explicite des index suivant les relations de structure. L'aggrégation de graphes conceptuels correspond ici au calcul de leur joint maximal, exprimant leur spécialisation maximale commune : le graphe conceptuel résultant décrit tous les graphes conceptuels dont il est aggrégation, ceci faisant appel une fois de plus à la relation is-a du treillis des types de concepts.

La notion d'indexation dynamique précédente est ensuite généralisée à la notion de propagation d'attributs entre unités d'indexation qui permet de gérer la manière dont sont composées les descriptions. Sont alors définis des attributs statiques, qui restent attachés aux unités d'indexation qu'ils décrivent (par exemple un titre n'est pas propagé aux composants de l'unité dont il est attribut), ainsi que les attributs dynamiques, qui peuvent se propager le long de la structure du document, soit de façon ascendante (par exemple des mots-clé), soit de façon descendante (par exemple une date de publication).

Une requête consiste en un graphe conceptuel d'indexation à partir duquel il va falloir trouver des graphes conceptuels solutions (décrivant des unités d'indexation) qui permettent de le déduire en terme de logique du premier ordre (on est toujours dans le cadre du modèle logique de [232]). La recherche se fait de telle sorte qu'on retrouve une unité du plus petit niveau d'abstraction possible telle que son graphe indexation implique le graphe requête.

Analyse des approches

Nous présentons dans cette partie quelques conclusions sur l'approche de description de documents orientée connaissances.

Un schéma général de représentation

Base de connaissances.

La base de connaissances contient le plus souvent les termes à partir desquels les descriptions pourront être générées. Dans le cas des descriptions par graphes conceptuels, on y trouve ainsi le treillis des types de concepts et le treillis des types de relations, organisés suivant la relation est-un, c'est à dire la relation de spécialisation. Les possibilités de relations entre concepts sont spécifiées dans la définition des relations. Dans le cadre de l'approche de [175], les concepts sont définis comme classes dans un langage orienté objets, et peuvent être spécialisés suivant une relation d'héritage (par exemple humain/célébrité/auteur). Les relations définissent leur portée sur des classes et n'ont pas d'instances.

La couverture de la base de connaissances peut varier du tout au tout : elle peut ainsi contenir des connaissances techniques dans un domaine limité [175], associer descripteurs de contenu et descripteurs structurels [56] ou encore l'ensemble des mots du réseau Wordnet²⁴ et un ensemble de relations supposé quasi-exhaustif [146].

Parties de documents.

Les parties de documents décrites le sont le plus souvent à l'aide de balises SGML/XML qui en donnent la portée. L'approche de [175] permet de définir un contexte de compréhension minimal plus étendu et significatif que la simple ancre.

Descriptions.

Les parties de documents sont intégrées dans la description globale proposée dans [56], c'est à dire qu'elles font partie de la description. Les descripteurs structurels permettent ainsi de structurer et de créer le document, qui n'a pas d'existence en dehors d'eux. Dans l'ensemble des approches utilisant des graphes conceptuels, ceux-ci sont utilisés pour décrire des parties de documents, et permettent éventuellement de lier celles-ci ( cf. [147]).

Si l'approche de description par graphes conceptuels vise à générer un graphe qui annotera par une relation simple une partie de document, la notion de qualificateur de contexte définie dans [175] apporte une connaissance supplémentaire. Un concept général décrit une partie de document, mais son acception, c'est à dire le sens dans lequel il convient de l'interpréter est porté par le qualificateur de la relation au document.

Exploitation de la représentation : l'inférence

Inférence.

Nous définissons de façon générale l'inférence comme la déduction de nouvelles connaissances à partir de connaissances connues (valables selon une interprétation particulière), dans le cadre d'une tâche explicite. Il s'agit par exemple en appliquant un certain nombre de règles de répondre à des questions, en mettant explicitement en relation des faits, ou bien en déduisant de nouveaux éléments de connaissances. Toutes ces nouvelles connaissances sont bien entendu connues en puissance dans le système, mais c'est leur mise en évidence pour une certaine utilisation qui se révèle intéressante.

Dans un système à base de connaissances considéré de la façon la plus standard (un ensemble de faits, un ensemble de règles permettant de déduire des nouveaux faits), il importe que toutes les inférences soient valides dans le domaine de réalité modélisé par le système. Bachimont a montré que ceci suppose alors une organisation stricte des connaissances en fonction des calculs possibles, de telle sorte qu'elles puissent conduire à des inférences << justes >>, dont les résultats constitueront de nouvelles connaissances, c'est à dire << des actions possibles (contenu gnoséologique) >> dans le cadre d'une tâche explicite [22]. Ceci suppose notamment que les connaissances décrites en langue par des termes soient définies de façon non ambiguë et puissent ainsi devenir des primitives de modélisation, afin que l'expression en langue des résultats de calculs soient interprétables de façon juste²⁵.

Inférences documentaires.

Les différentes représentations que nous avons vues précédemment proposent plusieurs types d'inférences. Ainsi, on distinguera d'une part les inférences d'extension de requêtes, d'autre part les inférences fondées sur les chemins²⁶.

A la première catégorie appartiennent les approches de représentation fondées sur les graphes conceptuels. Par exemple [147] proposent d'utiliser l'opération de projection pour retrouver des graphes conceptuels qui correspondent à des spécialisations du graphe conceptuel requête. [108], sur un constat d'insuffisance de cette approche, définit des opérations de transformation plus élaborées (par exemple le remplacement de concept ou de relation). S'il utilise l'opération de projection comme inférence finale, [56] étend un peu le calcul général, en utilisant une construction d'index basée sur une utilisation des index des parties contenues structurellement dans une partie de document, qui correspond à de la propagation d'attribut. Dans tous les cas, on se retrouve peu ou prou avec une résolution fondée sur le principe qu'un graphe requête doit pouvoir être inféré des graphes de description de documents ou de parties de documents, cette inférence étant fondée sur la relation de spécialisation de la base de connaissances.

Ce type d'extension de requête correspond à ce qui est par exemple proposé en recherche d'information : à partir des informations données par l'utilisateur sur ses besoins (le plus souvent sous la forme de mots-clé), on essaye d'étendre la requête en remplaçant certains de ses éléments par d'autres en vertu d'une proximité sémantique se ramenant souvent à de la généralisation ou de la spécialisation. Doit alors se poser la question de la pertinence de telles extensions : inférer que je cherche un document sur les animaux parce que j'ai posé une requête sur les chats (et vice-versa) peut très bien se révéler faux de mon point de vue. Ce sont en fait les relations selon lesquelles se calcule la proximité sémantique qui importent, et leur signification pour l'utilisateur dans le cadre de sa recherche.

Nous concluons notre courte discussion sur les approches basées sur les connaissances et les inférences pour la description documentaire en évoquant le problème de la << réalité >> représentée par les descriptions, et son lien avec l'utilisation qui est faite des description.

Réalité et tâches

Les inférences réalisées dans le cadre d'une utilisation de descriptions fondées explicitement sur les connaissances le sont en effet dans le cadre d'une tâche. Les connaissances inférées se révèlent utiles car elles permettent à un utilisateur d'exploiter des documents.

On peut alors se poser rapidement le problème une réalité à laquelle se confronte un système de description à base de connaissances. Soit celui-ci fonde le document comme réalité, qui va être objet d'analyse, de description et d'inférences. Soit on s'intéresse à de la réalité hors-document, et on exprime celle-ci en faisant un lien vers une représentation de la réalité qui se trouve dans le flux (c'est par exemple explicitement le cas dans l'approche de [3]). Si nous préférons la première approche, dans laquelle toute connaissance est censée provenir des documents, la démarcation n'est bien sûr pas si tranchée. L'utilisation du sens commun, de connaissances encyclopédiques est de toute façon naturelle et le plus souvent inconsciente, et celles-ci sont encaspulées, tant dans l'organisation de la base de connaissances que des descriptions.

Nous considérons que toute la réalité est dans les textes, dans les documents, ici audiovisuels, et dans leur descriptions. Ce qu'on capte de la réalité extérieure, du sens commun, est fatalement capté dans la description²⁷ que l'on fait du document.

On représente donc une << réalité >>, on la fonde en la décrivant, ainsi que les manipulations qu'il est possible d'en faire, et celles-ci doivent n'avoir de pertinence qu'au regard des documents et de leur exploitation.

A la description, par l'expression imparfaite du signe en un graphe de descripteurs, on entraîne celui-ci dans le système. A l'utilisation, on essayera d'utiliser la documentation de la tâche, du contexte, bref tout ce qui est dans le système, ainsi que son propre sens commun pour donner une utilité à la description.

C'est pourquoi, de façon générale, une description, et les connaissances la permettant sont mises en place en considérant a priori les tâches qui pourront être accomplies en l'utilisant, les inférences qui pourront être réalisées, leur donnant un véritable statut de connaissances (description XML d'un document pourra être utilisée par une feuille de style pour sa présentation ; une description d'un document à l'aide de mots-clé liés à des parties de document sera utilisée pour rechercher celui-ci). Mais, et c'est heureux, elles peuvent également devenir connaissances dans le cadre d'autres tâches à condition qu'en existe la possibilité, c'est à dire qu'il soit possible d'utiliser des inférences, des déductions non prévues au départ.

Dans le cadre d'un système de connaissances figées, à inférences globales, il faudra alors changer de système d'inférence, c'est à dire remettre en cause les règles en vertu desquelles le système a été construit, y compris au niveau de la base de connaissances (cela revient par exemple à un changement de modèle d'interprétation logique). Dans le cadre d'inférences plus localisées, c'est à dire n'étant pas consubstancielles au système de description, cette flexibilité par rapport à la tâche et à l'utilisation est naturelle. Il va alors de soi que cette dernière approche a notre faveur, et correspond à ce qu'il est possible de réaliser dans le cadre général des Strates-IA.

Strates-IA et connaissances

Nous situons dans cette partie les Strates-IA et les mécanismes d'exploitation associés comme approche originale de description de documents fondée sur les connaissances. Nous proposons ensuite quelques intuitions sur l'annotation comme écriture sur un flux audiovisuel, et discutons enfin la gestion et l'évolution des connaissances liées aux Strates-IA.

Strates-IA et approches centrées sur les connaissances

Nous passons d'abord rapidement en revue les trois parties du schéma général de description de système fondé sur les connaissances que nous avons proposé en 5.2.6.

Base de connaissances.

Notre base de connaissances contient l'ensemble des éléments d'annotation abstraits qui permettent de décrire un document, organisés en un graphe connexe. La relation de spécialisation permet de décrire une hiérarchie de concepts, mais cette relation n'a pas a priori de signification calculatoire, c'est à dire que l'héritage d'attributs par exemple n'est pas une propriété de la relation²⁸. L'organisation de la base de connaissances est plutôt à la base celle d'un thésaurus décrivant l'ensemble des termes utiles et leurs relations, lesquelles lui permettent de dépasser le niveau de la simple liste de termes.

Les possibilités de relation entre éléments d'annotation << instances >> de concepts sont définies dans les valences et les schémas de description. Les valences peuvent, toutes proportions gardées, s'apparenter à des rôles tels que ceux que l'on peut trouver dans les logiques de description.

Ancrage des connaissances dans les documents.

Les unités audiovisuelles telles que nous les avons définies ne portent aucune sémantique autre que celle liée à leur existence. Ce sont de pures unités d'ancrage dans le flux, fondées sur sa temporalité. En un sens, ces unités pourraient être qualifiées de << pré-syntaxiques >> et correspondraient dans un texte à une suite quelconque de caractères²⁹.

Descriptions.

Les descriptions Strates-IA sont des réseaux d'éléments d'annotation instances d'éléments d'annotation abstraits et annotant des unités audiovisuelles. Une unité audiovisuelle est définie à la base par un EA primitif. Le sens des unités audiovisuelles est entièrement et contextuellement porté par les éléments d'annotations auxquels ils sont liés. Les graphes sont mis en place en utilisant des dimensions d'analyse, des schémas de description et des valences, qui fournissent des guides à l'annotation. Les relations entre éléments d'annotation sont d'un unique type, et leur sémantique est éventuellement portée par des éléments d'annotation intermédiaires. La conséquence en est que la liberté d'annotation fournie par le système est totale, et n'accorde pas de primat à une éventuelle décomposition ou description.

Toute description Strates-IA est autorisée par la base de connaissances. Ce sont les schémas de description et les valences qui fournissent la connaissance supplémentaire permettant de contraindre une description. On se trouve ici dans une approche différente de l'approche de description par graphes conceptuels où les règles d'organisation sont portées par la base de connaissances.

Inférence et tâches

Les inférences dans un système Strates-IA passent obligatoirement par l'instanciation d'un graphe potentiel, comme expression de chemin, c'est à dire de relations entre éléments du graphe général. L'instanciation permet de trouver des éléments du graphe qui sont dans les rapports qu'on souhaite leur trouver avec d'autres éléments.

On se rapproche donc, à partir de l'inférence contextuelle basée sur les chemins, de la recherche de motifs, de graphes requêtes dans le graphe général. A la différence des approches basées sur les graphes conceptuels, nulle inférence de spécialisation n'est utilisée dans une opération de projection, l'opération unique étant l'instanciation.

Cependant, il va de soi qu'indiquer dans un graphe potentiel qu'un EA générique doit être inscription dans le flux d'un EAA qui soit en relation de spécialisation avec un autre implique une inférence de spécialisation explicitement posée par le concepteur du graphe potentiel. Ainsi, spécifier qu'un EA générique devra provenir d'un EAA qui soit spécialisation de < EAA:Homme politique > par exemple signifie qu'on pose explicitement les inférences qui pourront être faites par le système.

A fortiori, utiliser un graphe requête (généralisation de graphe potentiel caractérisé) découle du même principe. Là où les dimensions d'analyse utilisées correspondent à des contextes -- ensembles d'EAA possibles -- dans la base de connaissances, exprimés avec autant de filtres de désignation que nécessaires, et pouvant utiliser a priori toutes les relations de la base de connaissances sans se limiter à la relation de spécialisation³⁰.

L'utilisation du contexte dans la base de connaissances est donc à la base des opérations de << déduction >> qu'il est possible de réaliser pour une recherche. D'une certaine manière, cela permet de parer, si on le désire, au surplus de lâcheté introduit par l'approche résolument << orientée thésaurus >> que nous avons adoptée. La perte d'une sémantique formelle précise pour tout le système autorise la mise en place d'inférences ayant une sémantique (formelle si l'on veut) localisée.

Les inférences, définies par les graphes potentiels, peuvent par conséquent être adaptées à la tâche en cours. Les schémas de description, contraignant localement la mise en place des annotations fournissent des graphes potentiels, des inférences possibles et plausibles correspondant à celles prévues lorsque l'annotation a eu lieu.

[56] définit la notion de propagation d'attributs le long d'une arborescence structurelle de documents, et précise qu'il serait utile que cette notion soit étendue à d'autres types de structures. Ceci est en partie réalisé par [102], qui définit pour tous les attributs correspondant à un attribut structurel de document leur portées en termes de relation syntaxiques (structure, hyperlien, enchînement) ainsi que les conditions dans lesquelles la propagation peut se réaliser.

L'approche contextuelle que nous adoptons, et la mise au même niveau de toutes les annotations, quelles qu'elles soient nous semble fournir une autre solution à cette extension, se basant sur n'importe quelle relation. Rechercher le contexte d'un élément du graphe (par exemple une unité audiovisuelle) comme ensemble d'éléments d'annotation à l'aide d'un graphe potentiel permet d'une certaine manière d'en considérer la transmission (comme attribut contextuel) vers l'UAV. L'intérêt est ici qu'il n'y a pas de différenciation entre les éléments à propager et le médium de transmission : tout élément d'annotation peut être considéré comme annotation contextuelle (attribut propagé), et servir de support au chemin permettant la propagation.

Entre connaissances strictes et mots-clé

L'approche des Strates-IA et les mécanismes d'exploitation qui sont associés nous semblent se situer entre deux grandes classes de systèmes de représentation.

Les premiers sont lâches dans leurs pré-supposés : les documents sont décrits par des mots-clé, éventuellement extraits d'un thésaurus, et les requêtes se limitent à des ensembles de mots-clé, dont on recherche les occurrences combinées dans les descriptions de documents. Les connaissances d'annotation sont donc peu contrôlées, peu explicites, et la mise en place de relations entre mots-clé ne peut découler que de leur juxtaposition, l'annotateur ou l'utilisateur posant une requête inférant celles-ci de façon implicite. Par exemple, poser jacques AND chirac sur un moteur de recherche implique que je cherche des pages concernant la tête de l'Etat français, et que les deux termes forment un nom complet, mais cela pourrait à la limite indiquer plutôt que je cherche des renseignements sur les révoltes paysannes dans un certain village de la Creuse.

Sur le constat du manque d'expressivité explicite des systèmes à mots-clé, l'idée de complexifier les descriptions vise à obtenir des descriptions qui dépassent ces systèmes. Dans la seconde classe de systèmes, il s'agit alors de mettre en place des possibilités d'expression de connaissances précises équivalentes à l'expression des connaissances telle qu'elle se retrouve dans les systèmes à base de connaissances. Les réseaux sémantiques deviennent des candidats idéaux, qui doivent également inclure des connaissances d'ordre structurel permettant une exploitation des documents dépassant le niveau de la simple recherche. L'exploitation se fonde alors sur des inférences logiques et supposent une organisation non ambiguë des connaissances de description si l'on veut que le formalisme puisse conduire à des résultats justes au regard de leur interprétation.

Ce sont les schémas de description qui permettent de contraindre les termes d'annotation utilisés et les relations qu'ils doivent entretenir dans les graphes d'annotation. L'organisation des connaissances de description, la base de connaissances sert alors de thésaurus, comprenant a minima une relation d'organisation par spécialisation, mais aussi éventuellement d'autres relations.

Les termes utilisés sont expliqués dans les annotations par les relations qu'ils entretiennent, par les contextes dans lesquels ils trouvent. Il n'y a donc pas de sens strict et unique pour un terme, tout dépendra de la contextualisation en cours : il est possible alors de multiplier les points de vue sur un même terme, c'est à dire d'adapter sa signification à la tâche en cours. Les inférences sont contextuelles, adaptées à la tâche en cours, et plus ou moins spécifiées par les utilisateurs. Certains graphes potentiels sont ainsi fournis par les schémas de description, d'autres peuvent être construits au besoin, par annotation d'unités audiovisuelles virtuelles.

L'organisation des connaissances dans la base de connaissances pilote les descriptions par le biais des dimensions d'analyse qui y sont induites par la relation de spécialisation. Cependant, d'autres dimensions d'analyse, construites de diverses façons et en fonction des besoins sont également mises en place. En d'autres termes, l'organisation et la signification des connaissances dans la base de connaissances est contrainte par les relations de la base de connaissances, mais aussi par les dimensions d'analyse et les schémas de description qui les utilisent³¹. La base de connaissances n'est pas une ontologie d'essences, figée pour toute utilisation, mais dépend de son utilisation. L'organisation des connaissances dans la base de connaissances (avec les dimensions d'analyse et les schémas de description) ne découle donc pas uniquement d'un questionnement différentiel sur les termes, mais également et surtout d'un questionnement sur leur utilisation en contexte, laquelle peut remettre en cause toute volonté de figement de sens hors contexte.

Si la base de connaissances est ontologie, elle ne l'est que dans le cadre des tâches qui permettent de la considérer comme telle. Ainsi, rien n'interdit de créer une base de connaissances et des graphes potentiels (inférences) stricts, et de considérer le système comme un système à base de connaissances standards, auquel cas la base de connaissances sera ontologie. Dans un autre registre, il est éventuellement possible que certaines parties de la base de connaissances, certains termes puissent être partagés par tous les utilisateurs dans l'utilisation (la contextualisation) qui en est faite, et conduire à des ontologies << locales >>.

Au final l'approche des Strates-IA est moins stricte que celle des systèmes à base de connaissances, mais permet de complexifier des approches fondées sur des description par ensembles de termes, de mots-clé, dont le fonctionnement se révèle pour l'instant le seul a peu près satisfaisant en recherche d'informations.

Il nous semble qu'il s'agit alors d'essayer de bénéficier de ces résultats pour permettre d'écrire sur les documents audiovisuels avec des termes que l'on contextualise, cette écriture pouvant atteindre à la rigueur d'une représentation logique, mais également s'en écarter totalement ; il s'ensuit que la << vérité >> des inférences n'est pour nous qu'une notion relative, utile dans certains cas, et non pertinente dans d'autres. La liberté qu'on laisse par rapport à une annotation stricte peut alors se justifier comme des incursions du fait linguistique dans le domaine du calcul, de l'inférence et des connaissances figées. Par rapport aux approches privilégiant les mots-clé, nous essayons de rester dans le fait de langue, parce que l'interrogation est fait de langue, et que la mise en place de l'annotation est également fait de langue.

Le formalisme n'est alors que manipulation, et correspond aux mécanismes d'instanciation. Pour permettre de plus d'avoir de l'effectivité -- du fait formel qui prend sens comme fait de langue -- il convient de contraindre la manière de faire des inférences (par exemple à l'aide de graphes potentiels déjà formés), ainsi que le vocabulaire utilisé par les inférence, ce qui correspond à des schémas de description stricts.

Ecriture sur le flux

Nous prenons ici le parti de considérer l'annotation comme écriture sur le flux, à partir d'un vocabulaire donné (les termes de la base de connaissances) et d'un règle de syntaxe limitée correspondant à la possibilité de mise en relation élémentaire, ainsi que des contraintes portées par les flux audiovisuels et leur appréhension.

Une écriture libre ou contrôlée

Le fait de mettre en place une unité audiovisuelle en suivant une dimension d'analyse découle du repérage d'un signe dans le flux, correspondant aux objectifs de description de la dimension d'analyse. Dans le cas de l'annotation libre, la dimension d'analyse n'est pas contrainte et décrit l'ensemble de la base de connaissances.

Après la mise en place d'un EA primitif et d'une unité audiovisuelle, soit on passe à l'annotation suivante (continuer à suivre la dimension d'analyse, ou changer d'idée de description), soit on peut compléter l'annotation de l'unité audiovisuelle, c'est à dire l'annoter par d'autres éléments d'annotations qui auront alors même portée temporelle que l'EA primitif. La mise en relation d'éléments d'annotation est également possible, qui permet de contextualiser les termes utilisés³² (cf. le diagramme de décomposition de tâches de la figure 4.1). L'annotation peut alors se concevoir comme une suite de créations d'EA et de mises en relation, guidées par le matériau audiovisuel, mais aussi par les associations d'idées de l'utilisateur. Remarquons également qu'écrire une relation explicitée de la même manière que l'on annote permet d'homogénéiser la manière de décrire, mais aussi de prendre en compte le fait que la verbalisation d'une relation sémantique quelconque est fait de langue, et n'entraîne pas obligatoirement l'utilisation d'une primitive hors-langue comme c'est le cas dans les graphes conceptuels.

Si l'écriture libre permet de décrire de façon quelconque un flux audiovisuel, à un degré de précision quelconque, et suivant un cheminement d'idées quelconque, le texte final risque de n'être que peu utilisable (en terme de requêtes), si ce n'est par l'auteur de l'annotation (il est cependant toujours possible d'explorer un graphe d'annotation). Les dimensions d'analyse permettent ainsi de contrôler l'écriture sur le flux, en proposant à l'utilisateur des regroupements de termes jouant le même rôle au regard de la description. Associées, mises en relation dans des schémas de description, les dimensions d'analyse prennent un rôle plus précis puisqu'elles spécifient alors des classes paradigmatiques au regard d'un arrangement syntagmatique (c'est à dire que les termes décrits jouent le même rôle relationnel par rapport à d'autres classes de termes³³).

Les schémas de description peuvent alors être considérés comme des expressions de règles de grammaire du langage des Strates-IA, règles plus ou moins strictes, qui peuvent être combinées, étendues, bref manipulées. De la même manière, un graphe requête propose de retrouver des instances d'arrangements syntagmatiques de classes paradigmatiques de termes, et les valences fournissent pour chaque terme les possibilités de relation, c'est à dire de participation à des phrases de termes.

Au final, il apparaît bien que l'annotation peut être considérée comme écriture sur le flux par un utilisateur, aidée par le système, d'un << texte >>. Ce << texte >> de termes doit alors être lu par un utilisateur qui en retrouvera ou non le sens initial.

Lectures

Remarquons tout d'abord que l'interprétation d'un unique terme d'annotation découle d'une description et d'une contextualisation au sens où le lecteur interprète le terme en projetant ses propres visées de contextualisation³⁴. Le degré d'ambiguité des termes peut varier, par exemple, un EA < LienHypermedia > est non ambigu, tandis qu'un EA < Chirac > l'est beaucoup plus.

Dans le cas des << textes >>, qui sont des ensembles de phrases multi-axiales³⁵ de termes, la lecture et l'interprétation découlent également de descriptions et mises en contextes. Lire un texte revient alors à être auteur de sa propre lecture, c'est à dire à suivre des cheminements de description, qui ne correspondront pas forcément à celui qui a été utilisé à l'écriture, et qui seront médiés par les contextes mobilisés et l'affichage proposé (sous la forme de phrases linéaires de termes, de graphes, d'arbres, de lignes de temps, etc.).

Les relations entre termes, suivant qu'elles sont verbalisées ou non, font plus ou moins appel aux facultés du lecteur pour interpréter les ellipses qui lui sont proposées. Par exemple Senna, Mur, Italie (qui annotent une même unité audiovisuelle) est une phrase de termes interprétable, de la même manière que Chirac Agent Toucher Objet Vaches ; ou encore Veaux Vaches Cochons répartis sur une ligne de temps.

Le fait de considérer l'annotation comme une écriture dans un langage semi-contrôlé peut se révéler intéressant notamment en ce qui concerne la dynamique de l'annotation. En effet l'annotateur dispose d'un vocabulaire, est aidé par des règles de grammaire, ainsi que des phrases toutes faites qu'il peut adapter et utiliser. Engagé à la fois dans l'annotation comme écriture et dans l'appréhension du flux, l'annotateur doit être capable d'annoter à la manière d'une prise de notes sur une fiche de lecture³⁶.

De la même manière, la description d'un graphe requête passe par une écriture dans le même langage, guidée par les mêmes règles.

La question de la lecture de l'annotation, associant l'utilisation des règles d'écriture comme filtres et la présentation des termes d'annotation et des UAV liées reste bien évidemment complexe. Cette complexité est cependant le lot commun de tout système proposant une annotation (semi-)structurée pour la recherche et l'exploitation d'information : un graphe conceptuel par exemple, dès qu'il dépasse quelques n $\oe$ uds, devient illisible, et doit être linéarisé, voire transformé en phrases pour pouvoir être lu et compris.

Gestion et évolution des connaissances Strates-IA

Nous donnons dans cette dernière partie du mémoire quelques pistes sur les possibilités de gestion et d'évolution de connaissances permettant l'annotation liées aux Strates-IA telles que la base de connaissances, les valences, les dimensions d'analyses et les schémas de description.

Manipuler les connaissances de description

Vers une conception dynamique des connaissances.

Nous avons déjà plusieurs fois évoqué le fait que certains dimensions d'analyse étaient << naturelles >> à la base de connaissances, car explicitement basées sur la relation de spécialisation (section 2.3.4, page

). La base de connaissances est donc << naturellement >> organisée en classes, éventuellement paradigmatiques si elles sont utilisées comme telles dans des schémas de description.

D'autres dimensions d'analyse, mises en place au cours de l'exploitation d'un graphe Strates-IA, peuvent prendre un caractère général si elles sont réutilisées et attestées³⁷. En d'autres termes, certaines connaissances d'utilisation, certains schémas de description existent à l'initialisation du système, tandis que d'autres sont mis en place au cours de l'utilisation. Si les éléments d'annotation abstraits de la base de connaissances sont relativement figés, la manière de les utiliser, les dimensions d'analyse et les schémas de description varient³⁸. La connaissance de description disponible varie alors pour chaque nouvelle session d'annotation, puisqu'elle comprend la base de connaissances et les schémas de description utilisés.

Gérer les connaissances à partir des dimensions d'analyse.

Les dimensions d'analyse désignant en dernier lieu, une fois qu'elles ont été totalement résolues, un ensemble d'éléments d'annotation abstraits, il est possible de les organiser dans une hiérarchie de subsomption ensembliste stricte et bien définie. Un ordre partiel peut ainsi être mis en place basé simplement sur une inclusion ensembliste des termes désignés.

Alors il devient possible d'utiliser des outils de manipulation et d'exploitation de connaissances tels que les logiques de description, qui permettent de mettre en place et de gérer des graphes de connaissances, avec pour sommets des << instances >> de ces dimensions d'analyse (qui sont alors des types de concepts).

De tels graphes se trouvent être des schémas de description. On peut alors considérer qu'il est possible de manipuler des schémas de description comme assertions de logiques terminologiques. Ceci signifie que si l'on ne se donne pas le droit de figer la connaissance dans la base de connaissances, on se donne celui de manipuler les archétypes de contraintes de description reconnus dans un cadre totalement formel.

Les manipulations et la classification des schémas de description dans un tel cadre pourraient alors se révéler d'intérêt, par exemple pour en détecter les régularités.

Apprentissages

Schémas de description.

Ainsi si on imagine qu'un système est mis en place avec un certain nombre d'EAA³⁹ et de dimensions d'analyse << naturelles >> et peu ou aucun schémas de description de départ, l'apprentissage des régularités d'annotation au travers des schémas de description mis en place permettra d'apprendre des règles de description. Les schémas de description les plus spécifiques (qui correspondent en fait directement à des sous-graphes d'annotation) peuvent alors être généralisés en schémas de description plus généraux, simplement en remplaçant les dimensions d'analyse qui les composent par des dimensions d'analyse subsumantes.

L'objectif est donc bien de réussir à décrire la manière dont décrivent les annotateurs,

Remarquons que toutes ces manipulations sont rendues possibles du fait de l'homogénéité des concepts d'exploitation des Strates-IA, par exemple entre graphes potentiels, graphes requêtes, schémas de description et graphes d'annotation.

Relations dans la base de connaissances.

La base de connaissances, une fois qu'elle a été mise en place, ne peut qu'être complétée, c'est à dire qu'on peut lui ajouter des éléments d'annotation abstraits et des relations.

Les dimensions d'analyses utilisées permettent de mettre en place une organisation virtuelle, des vues de la base de connaissances, c'est à dire une sorte de réorganisation. Cette réorganisation virtuelle pourrait devenir réelle et aller jusqu'à la création de nouveaux éléments d'annotation abstraits (correspondant aux noms des dimensions d'analyse par exemple) mis en relation avec les EAA qu'elles désignent.

Il est également possible de compléter la base de connaissances par apprentissage. Par exemple, l'utilisation quasi-systématique d'un schéma de description peut conduire à inscrire dans les EAA qui en composent les dimensions d'analyse des valences qui en sont extraites. Ces valences pourront alors être par la suite systématiquement proposées à l'utilisateur qui emploiera les EAA, même en dehors du schéma de description.

D'une autre manière, par apprentissage des relations élémentaires mises en place au cours des diverses utilisations d'un EAA, il est possible d'apprendre des possibilités de relation qui seront ensuite proposées aux utilisateurs.

Enfin des valences systématiquement utilisées devraient permettre d'une part d'en inférer des extensions de schémas de description, d'autre part d'apprendre des relations dans la base de connaissances. Par exemple, cela pourrait être un moyen d'aggréger dans la base de connaissances des connaissances de sens commun ou encyclopédiques, de par leur utilisation réelle en situation de description. Si < Winnie Mandela > est souvent mis en relation avec < Nelson Mandela > alors il peut se révéler utile de créer une relation du type Epouse entre les deux EAA correspondants dans la base de connaissances.

Unités syntaxiques et sémantiques

Terminons en évoquant le statut des unités audiovisuelles, auxquelles nous refusons a priori tout statut syntaxique dans un éventuel langage de l'audiovisuel. Suivant les éléments d'annotation primitifs qui permettent de les mettre en place, qui président à leur détection, il pourrait convenir, en cas d'utilisation régulière de distinguer un << continuum d'acceptation >>.

On pourrait par exemple placer l'ensemble des UAV dans un continuum partant des unités les plus fortes, les plus acceptées et les plus repérables (les documents, les plans) aux unités les moins consensuelles (UAV annotées sur une dimension esthétique par exemple), en passant par des régularités << de fait >> sur lesquelles peuvent s'accorder un grand nombre de gens (voir par exemple des scènes récurrentes telle que des << transitions de JT >> liées à des types d'émission particuliers, ou des unités correspondant systématiquement à des apparitions de personnalités).

Cela reviendrait à transmettre les propriétés dues à des consensus d'utilisation des éléments d'annotation aux unités audiovisuelles qu'ils définissent, et d'envisager alors un figement syntaxique des unités audiovisuelles au sein d'un langage de description plus spécialisé que les Strates-IA. Alors il deviendrait possible de faire émerger, pour l'audiovisuel, et pour certains genres, des descriptions acceptées et correspondant à une pratique avérée, ce qu'on pourrait assimiler aux descriptions de genres telles que celles mises en place au sein de la TEI.

Conclusion

Nous avons, au cours de ce dernier chapitre discuté les rapports entre documents et connaissances, en étudiant tout d'abord ceux-ci au travers de la structuration des documents. Nous avons ensuite présenté quelques tentatives d'enrégimenter les descriptions de documents dans des formats documentaires, et avons constaté qu'il convenait en fait de mettre en place des approches de description qui en soient indépendantes. Nous avons ensuite présenté quelques caractéristiques de la norme en cours de développement MPEG-7, et avons discuté les relations possibles avec les Strates-IA.

Nous nous sommes ensuite intéressés aux approches de description documentaires liées explicitement aux systèmes à base de connaissances, et avons dans ce cadre étudié les mécanismes d'inférence proposés. Nous avons ensuite comparé les Strates-IA et les mécanismes d'exploitation associés à ces approches, ainsi que la notion d'inférence contextuelle, avant de présenter une vision à notre sens féconde des Strates-IA comme écriture sur le flux, dans un langage dont il s'agit d'utiliser et de découvrir les règles. Nous avons enfin évoqué quelques intuitions sur la manipulation de schémas de description dans un cadre formel en permettant la classification, et quelques pistes d'apprentissage de nouvelles connaissances de description.