Le document audiovisuel par excellence mêle images et sons, et fait donc appel aux modalités d'appréhension visuelle et auditive. Nous appellerons composantes vidéo et audio les deux flux qui, superposés, forment un flux audiovisuel. Le terme vidéo nous semble en effet trop restrictif et limité pour un médium qui existe quand même depuis qu'une bande son a été synchronisée avec des images animées pour donner le cinéma parlant, et ce bien avant l'existence de la télévision, des magnétoscopes et des caméscopes. De plus, il nous semble que l'étude de flux audiovisuels ne peut -- ou ne devrait -- pas faire l'économie de la bande son. Le terme audiovisuel1 est donc le terme idéal, en témoigne par exemple le nom Institut National de l'Audiovisuel (INA), où sont archivés aussi bien des images issues des actualités (format cinéma), de la production télévisuelle, ou que des émissions radio.
Les documents audiovisuels auxquels nous nous intéressons sont donc des flux temporels composés de flux superposés. En général, on aura un flux d'images, et un ou plusieurs flux de sons. La décomposition de la bande sonore en plusieurs flux peut découler du montage (par exemple un flux contenant musique et bruits, et un autre pour les dialogues, qui peut être changé pour des raisons de traduction), ou bien encore des effets que l'on cherche à obtenir (un son stéréo aura par exemple deux pistes différentes). Intéressons nous tout d'abord au flux vidéo, qui est un enchaînement temporel d'images.
Une image est délimitée par un cadre explicite, le plus souvent rectangulaire, qui fixe l'attention sur son contenu : le lecteur sait où regarder, et sait que ce qui est à l'intérieur du cadre a été mis en place par un être humain dans le but d'être regardé et interprété. Il projette alors cette volonté d'interprétation sur le contenu visuel physique (l'arrangement des points de couleur), et interprète l'image en signes. Rappelons que l'on considère en général trois types de signes visuels, selon leur degré de relation au << réel >> : les signes concrets iconiques, abstrait iconiques (un panneau prévenant de la traversée d'animaux), et symboliques (une lettre, un panneau de sens interdit). L'image fait le plus souvent appel aux signes concrets iconiques, lesquels réfèrent par exemple à des objets du monde réel (une voiture, un drapeau), ce qui correspond au caractère analogique de l'image [157]. Ce premier niveau correspond à un niveau simple d'objets, pour lequel on pourrait dire que les objets sont reconnus, mais l'interprétation n'est jamais limitée (une image représentant un drapeau français peut en fait représenter la liberté ou l'oppression). De plus les signes-objets reconnus sont en relation, participent de par leurs arrangements à leur reconnaissances mutuelles et contextuelles et à des interprétations globales en signes de plus haut-niveau d'abstraction référant à d'autres signes, et ce ad libitum.
L'image, et la vision des images est fort étudiée aussi bien en sémiologie (par exemple [112,231]) qu'en psychologie cognitive [27] quand il s'agit de comprendre la construction par le cerveau de formes et de concepts précis à partir d'un ensemble de tâches colorées. Nous n'irons pas plus loin en ce qui concerne l'analyse de l'image.
Retenons simplement qu'une image est interprétée par un être humain, qu'elle contraint de façon plus ou moins forte son interprétation, mais que cette contrainte n'est jamais totale, que l'interprétation fait appel à des systèmes d'appréhension de l'image, à des systèmes de signes appris et culturels. Ainsi, l'image de la Terre prise d'un satellite n'évoquera pas grand chose à qui ne connaît pas ce genre d'image, n'a pas appris à les lire et ne sais pas par des informations extérieures à l'image dans quelles conditions celle-ci a été créée. A plus haut-niveau, on notera que toute photographie utilisée dans un journal vient avec son commentaire expliquant comment il convient d'en interpréter le contenu et les informations véhiculées. Une figure d'un article scientifique enfin est ininterpétable correctement (i.e selon la volonté de son auteur) en l'absence de sa légende. Une image ne contenant pas en elle-même la description de ses conditions de conception et de lecture, qui pourraient prescrire son interprétation de façon non ambiguë, reste le plus souvent pas interprétable sans ambigüité en dehors d'un entour fortement prescriptif disant ce qu'il y a lieu d'interpréter.
Toute image est interprétable, mais toute interprétation n'est pas forcément correcte ou utile en regard d'un contexte particulier.
En bref, une image est interprétée en situation d'action par un être humain, l'interprétation dépendant de l'image elle-même, de son entour, et de l'engagement du lecteur. Mais l'image elle-même, à la différence par exemple d'un texte n'est pas sémiotisée a priori : les signes qu'elle contient ne sont pas désignés, mais résultent d'un processus interprétatif beaucoup moins contraint que dans un texte (un mot existe dans ce dernier en tant que tel).
La vidéo est un flux temporel d'images. Si on filme une scène, c'est à dire qu'on enregistre à l'aide d'une caméra 25 ou 30 images toutes les secondes, et qu'on fait défiler ces images à la même cadence devant un téléspectateur à l'intérieur d'un cadre fixe, celui-ci ne sera pas à même de distinguer dans ce qu'il voit une suite d'images. En effet, la persistance des images sur sa rétine fait qu'une image est remplacée par une autre, de telle sorte que les zones qui ne changent pas sont perçues commue un continuum stable, tandis que les mouvements sont lissés par la perception. L'illusion de mouvement qui en résulte entraîne alors l'illusion de la réalité de ce qui est vu. Si l'objet, la personne bouge sur l'écran comme elle le ferait dans la réalité, alors elle est perçue comme réelle. Si la caméra de plus n'est pas fixe, le mouvement de l'ensemble du décor autour des objets en donne une perception qui se rapproche de celle qu'aurait le spectateur en mouvement2
La visualisation d'un plan -- suite ininterrompue d'images filmées en continu -- donne par conséquent l'illusion de voir et de percevoir ce qui a été filmé comme si cela était réel3. La dimension temporelle du flux vidéo est une de ses caractéristiques principales. Un flux vidéo est donc un ensemble d'images associé à une vitesse de défilement, mais n'est pas que cela : il nécessite d'une part un dispositif (projecteur, téléviseur) organisant la visualisation, d'autre part un spectateur, seul à même de le percevoir en tant que flux et non en tant qu'ensemble d'images.
Remarquons également que la temporalité du flux vidéo permet d'en différencier les signes. Un plan n'aura en général qu'un unique focus vidéo, lequel sera par exemple un objet en mouvement, sur lequel l'oeil se fixera sans s'attacher aux détails des images, car il n'en a pas le temps. L'interprétation d'une suite d'images différera fondamentalement de l'interprétation de chacune des images fixes, car le flux audiovisuel coïncide avec le flux de conscience dans une temporalité fixée [23]. Remarquons dès à présent que l'étude d'un document audiovisuel en passant par ses images s'attache à son objet en niant, ou au moins en en déformant la temporalité. Il reste qu'il est difficile de faire autrement, les seuls objets matériels manipulables, les seules unités accessibles facilement étant les images dont est composé le flux4.
A la composante simplement visuelle d'un flux vidéo, on peut superposer un flux sonore. Si celui-ci à été enregistré en même temps que les images par la caméra et qu'il est synchronisé avec le flux vidéo, alors l'impression de réalité peut être redoublée : le personnage remue les lèvres, parle, et je l'entends.
Mais il apparaît souvent que le son tourné en même temps que les images est de mauvaise qualité, perturbé par des éléments extérieurs à ce que l'on veut filmer. Il y a alors souvent post-synchronisation d'un flux audio créé en studio avec le flux image. Plusieurs conséquences en découlent.
D'une part, il est possible de rajouter des sons non naturels, et qui pourtant font << plus vrais >> que les sons réels afin de renforcer les liens contextuels avec les images. Un coup de poing qui n'aurait pas fait de bruit dans la réalité peut être sonorisé par un bruit sourd qui amplifiera l'impression de puissance du coup. D'autre part, on se limitera en général seulement au sons importants pour la volonté du réalisateur, les sons annexes étant réduits à zéro. Au court du XXème siècle est ainsi apparue, à force de tâtonnements un véritable répertoire des bruits de cinéma, qui sont régulièrement utilisés, et ont été appris par les spectateurs. On appelle << Foley sounds >> les bruitages.
D'autre part, une composante musicale peut faire son apparition, un plan peut être illustré par une mesure de musique, dont le volume baissera quand un personnage parlera.
Enfin, il est possible de doubler -- plus ou moins bien -- les personnages, sans que cela pose de problèmes au spectateur normal. Le cas du direct interdit bien entendu ce genre de montages.
Nous avons donc vu les trois types de sons de l'audiovisuel : les dialogues, la musique, et les bruitages, et qu'il était aisé de mettre en place une bande-son reconstruite pour accompagner les images, pour même au simple niveau du plan, construire un effet réellement audiovisuel, globalement supérieur à la juxtaposition des deux flux. Il y a donc déjà à ce niveau, montage.
L'art du montage audiovisuel consiste à mettre en place à l'aide des éléments à disposition (un ensemble de plans vidéo, des musiques, des bruitages, des dialogues, etc.) un véritable document exprimant les visées du réalisateur.
Pour celà, le réalisateur doit faire des choix à tous les niveaux.
Cela commence dès le filmage : choisir en effet de filmer telle ou telle partie du monde qui entoure la caméra relève d'une volonté de mise en scène.
Cela concerne surtout le choix des plans qui vont être découpés dans les rushes et utilisés, montés et collés ensemble afin de raconter visuellement ce que le document doit exprimer, ainsi que celui de la bande-son, elle même composée de flux superposés. Les documents sans travail de montage différé (tels que les émissions en direct, les interviews, le théâtre filmé) se différencient de la production vue plus haut en ce sens que le montage, bien que prévu avant la prise de vue ou de son est réalisé en direct et ne peut être modifié. Mais le travail de montage y existe cependant ; les documents en direct, sans montage, sont très rares.
Un exemple célèbre illustre l'importance du montage dans l'audiovisuel, que l'on doit au réalisateur soviétique Kouleshov. On étudie les réactions du public à trois montages différents : un plan immobile d'un visage inexpressif suivi d'un plan sur un bol de soupe fumante ; le même plan du visage suivi d'un plan d'une femme morte dans un cercueil, et enfin toujours le même plan de visage suivi du plan d'un enfant en train de jouer5. Interrogé sur qu'il a vu, le public répond : un homme affamé, puis triste, puis heureux. Cette expérience montre qu'un plan ne signifie pas grand chose en lui même, et que la majeure partie de sa signification provient de son entour, aussi bien visuel (les autres plans) que sonore (le commentaire). Il n'y a pas là à s'étonner, de la même manière que l'interprétation d'une image dépend des indices qui la contraignent, l'interprétation d'un plan dépend d'autres indices situés dans son entour. Mieux, une séquence (que nous définirons ici comme une << suite de plans consécutifs constituant un tout sous le rapport d'une action dramatique déterminée >> [114]) fait disparaître même la perception du plan chez le spectateur6.
Si l'unité de montage vidéo est le plan7, l'unité de montage audio est beaucoup plus floue, et ne saurait se résumer à un seul élément. Cependant, pour le flux vidéo comme pour le flux audio, mais aussi pour leur superposition existent un certain nombre de règles qui ont petit à petit été mises en place depuis que le médium existe. Ainsi il ne convient pas de superposer au même niveau sonore musique d'ambiance et voix, ainsi dans un dialogue il faut respecter la règle des 180o (deux personnes qui se parlent de doivent pas être prises suivant le même profil), ainsi encore les raccords sur les mouvements doivent-ils être travaillés (il ne doit pas y avoir d'impression de saut temporel pour le spectateur). Ces règles de << bon sens >> cinématographiques visent à ne pas troubler le spectateur et à lui permettre de s'installer dans le document.
Le document audiovisuel lui-même appartient également à un genre, ce pourra être un reportage, un film publicitaire, une explication de montage de circuit électronique, un programme scientifique, un film, un journal télévisé. Chacun de ces genres introduira des règles particulières sur la manière de raconter8, de faire progresser une intrigue, d'expliquer, de présenter des faits, etc. Chacun respectera également des canons dans la manière de filmer (en plans fixes ou tout en mouvements), de monter (fondus ou cuts), d'utiliser la musique...
Il apparaît donc que le réalisateur d'un document audiovisuel dispose d'une liberté certaine dans ses choix, mais que ceux-ci sont naturellement contraints par le média.
Ainsi, de la même manière que la possession d'un dictionnaire ne suffit pas à écrire des textes, il convient de connaître les règles qui rendront le document << lisible >> par le spectateur. Ce qu'on pourrait appeler le langage audiovisuel.
Ainsi encore, de la même façon que les textes répondent à des genres, qu'il existe des manières de communiquer des informations ou des histoires, l'audiovisuel met en place ses propres codes. Il va de soi que ceux-ci dépendent également des moyens de diffusion : les codes des émissions de télé-achat ne sont pas les mêmes que ceux des films de science-fiction. On notera ainsi par exemple que dans les seconds l'alliance de l'image et du son ont pour objectif de clouer le spectateur à son siège, ce qui n'est pas exactement l'objectif des premiers9.
Enfin, de la même manière que pour les textes, la personnalité de l'auteur peut s'épanouir au sein de ces règles, ou bien en les remettant en cause10, et on est du côté de l'art, ou bien s'accomoder de règles établies et validées11.
Un document audiovisuel peut être perçu comme une superposition de flux -- techniquement parlant -- mais la manière dont il a été composé, la mise ensemble des éléments, les règles auxquelles l'auteur a obéit, les contraintes d'interprétation qu'il a mises en place, ne sauraient se réduire à une superposition de flux. Un document audiovisuel possède, pour reprendre la terminologie vue dans la partie 2.1.1 une structure physique minimale, décrivant la mise ensemble des images et la synchronisation d'une bande-son plus ou moins complexe, tandis que sa structure logique, non explicitée, recouvre toutes les analyses possibles du document. Enfin, la diversité des types de documents audiovisuels, liée à leurs production dans des objectifs, pour des publics et sous des formes différents en font un médium difficile à appréhender en soi, globalement, en tant que document.
C'est pourtant à cet objectif que s'attachent un certain nombre de scientifiques, depuis que le document audiovisuel est devenu numérique, c'est à dire propre au calcul.
Les progrès dans les vitesses de traitement de l'audiovisuel permettent désormais de manipuler des documents audiovisuels numériques avec des tailles d'image et une qualité satisfaisantes pour de nombreuses applications. L'arrivée sur le marché des DVD (Digital Versatile/Video Disk) en est la preuve, qui doivent remplacer les supports analogiques chez les particuliers. Ajoutons que les projecteurs numériques sont seulement à leur début de carrière dans les salles de cinéma. En ce qui concerne les réseaux, si les débits augmentent, la transmission de données audiovisuelles ne semble pas encore être une réalité largement mise en place, si ce n'est à titre d'essai sur des réseaux locaux. Il n'empêche que les progrès technologiques sont là, et qu'il convient d'envisager le statut du document numérique comme une réalité qui ne peut que prendre de l'ampleur. La présente partie étudie le document audiovisuel numérique en soi, étudiant d'abord les formats de description, avant d'envisager les apports du numérique pour l'exploitation des documents. La partie suivante est réservée à ses utilisations et aux fonctions des systèmes d'information audiovisuelle.
Un document audiovisuel étant considéré comme superposition de flux audio et vidéo, un certain nombre de formats ont été mis au point afin de stocker son et image dans la forme la plus compacte possible. Les standards MPEG-1 (destiné aux CD-ROM), MPEG-2 (télévision numérique, DVD) ; les format AVI, QuickTime, RealVideo... résultent des efforts de la communauté internationale ou d'entreprises dans la mise au point des formats de représentation. Certains de ces formats sont avec pertes ou sans perte (ce qui est important quand il s'agit d'éditer des flux audiovisuels), et peuvent faire cas de la temporalité du flux ou non (par exemple prendre en compte la redondance d'information entre images qui se suivent, comme dans MPEG).
Le format MPEG-4 [138] se donne des objectifs plus ambitieux, tournés vers la télévision numérique et la vidéo à la demande, les applications graphiques interactives (avec un contenu synthétisé), et de façon plus générale liés au multimédia et au Web. Il s'agit donc principalement d'intégrer en un seul format tout ce qui est lié à la production, à la distribution et à l'accès aux contenus audiovisuels. La norme définit ainsi des unités de contenu sonore, image ou audiovisuel appelées objets média, donc l'origine peut être quelconque (enregistrement ou calcul pur). Les objets média sont regroupés en scènes audiovisuelles, par exemple un objet fond calculé, sur lequel on ajoute un objet personnage et un objet son. MPEG-4 définit également la manière de multiplexer et de synchroniser les données associées avec les objets, en gérant la qualité de service de la transmission. Enfin, l'utilisateur final, qui visualise les scènes arrivées par morceau jusqu'à son poste peut interagir avec elles, par exemple cliquer sur des objets pour les désigner à un service de télé-achat.
Retenons de MPEG-4 la notion d'objets média qui sont multiplexés et synchronisés au besoin pour former des documents audiovisuels. Si bien entendu seules les scènes artificielles fonctionnent réellement aujourd'hui (i.e. donnent des résultats de construction acceptables), les bases n'en sont pas moins jetées d'une construction explicite de documents par objets, c'est à dire d'une sémiotisation a priori du document définissant dans le document lui même des contraintes fortes d'interprétation.
MPEG-7 lancé il y a peu de temps, est consacré à la représentation de documents audiovisuels en vue de leur recherche. Nous reviendrons en détail sur cette norme en cours de conception lorsqu'il s'agira de lui comparer notre propre approche de représentation.
Considérant les conséquences de la numérisation des documents textuels, Virbel [233] note quatre possibilités amenées par le numérique :
Pour les documents audiovisuels, la nouveauté fondamentale et première introduite par le numérique est la possibilité d' accès direct (random access) à une quelconque des parties du document. Si un document audiovisuel a par exemple une durée d, alors il est possible de jouer celui-ci à partir de l'instant tavec 0 t d. Le repère temporel t joue alors le rôle d'identifiant pour la partie de document commençant à cet instant, voire d'un index s'il est repéré par exemple sur une glissière permettant d'accéder au document. L'accès direct autorise la navigation fine dans le document, au sens où il est possible de sauter d'une quelconque de ses parties à une autre autant de fois que nécessaire pour la tâche d'analyse en cours. D'autre part, le dispositif matériel de visualisation vidéo se simplifie (l'écran de l'ordinateur peut faire l'affaire), l'arrêt sur image, les ralentis et les accélérés sont simples à réaliser et à manipuler.
La manipulation de parties de document est grandement facilitée par le numérique. Le montage a certes toujours été affaire de coupe et de collage, mais il devient ici très facile et rapide d'expérimenter un montage, en visualisant plusieurs flux en même temps, de superposer plusieurs flux sonores, etc. S'y ajoutent la possibilité de tracer les opérations de montage réalisées, mais aussi celle de générer des images artificielles qui permettent d'une part de créer des documents entièrement artificiels, mais aussi autorise toute sorte d'effets de transition entre les plans qui n'étaient pas imaginables avec les appareils de montage classiques.
Il devient également possible d'organiser le document en attachant des index à ses différentes parties. Les tables de matières permettent d'accéder à des parties nommées, par exemple les différents << chapitres >> d'un film en DVD. Le document peut donc être considéré de façon délinéarisée, c'est à dire qu'il devient d'une certaine manière document structuré. Dès qu'une partie est décrite et accessible, elle peut être réutilisée et montée.
Le nommage d'une partie du flux audiovisuel correspond en fait, de façon plus générale, à sa documentation. Il est ainsi possible de décrire un document avec des caractéristiques telles que les droits qui y sont attachés, le nom de son auteur, au sein même du format de représentation numérique du document. Certains formats permettent d'ores et déjà ce genre de marquages, par exemple QuickTime 3 d'Apple. En fait la documentation du document est un pas vers ce qui est appelé numérique intégral à l'INA, c'est à dire que la documentation doit être présentée et intégrée aux outils numériques, de la conception du document au filmage des rushes12 et au montage, jusqu'à son exploitation et sa réutilisation.
Inversement, un document audiovisuel est également un document multimédia -- appauvri, puisque l'on ôte à celui-ci son interactivité explicite. En effet, mobilisant les deux modalités auditives et visuelles, il est possible de retrouver dans un document audiovisuel simple à la fois du texte (un générique), et d'autres morceaux de documents, y compris audiovisuels13. Ajouter des possibilités d'interaction basées par exemple sur une table des matières rend le document numérique pleinement multimédia au sens où nous l'avons défini.
Après avoir rapidement décrit ce que sont les documents audiovisuels numériques et quelles utilisations on est en droit d'en attendre dans le futur, il convient d'interroger la notion de système d'information audiovisuelle (SIAV) que nous définissons comme tout système informatique permettant d'exploiter des documents audiovisuels numériques. Nous commencerons par nous interroger sur les différentes utilisations passées et futures des documents audiovisuels, avant de décrire les fonctionnalités qu'on peut attendre d'un SIAV. Nous conclurons ce chapitre en évoquant la notion d'annotation, qui est le principe au travers duquel nous allons mener toute notre étude de la représentation audiovisuelle.
Le cycle de vie d'un document audiovisuel peut sensiblement être considéré comme le suivant :
Si l'on ne s'intéresse qu'à tout ce qui suit la création du document, son utilisation première en est la simple visualisation, l'appropriation de son contenu.
Cette appropriation peut être faite dans divers objectifs : se distraire, s'informer, apprendre. Le genre du document dépend bien entendu de l'objectif premier ayant présidé à sa création. On ne crée pas un film de la même manière qu'un documentaire animalier ou qu'un manuel d'utilisation d'un appareil, de même qu'on ne les regarde pas de la même façon. Historiquement, le document audiovisuel a d'abord été le film, de distraction ou d'actualité, ainsi que les bandes-annonce et les publicités. Avec l'apparition de la télévision sont apparus les journaux télévisés, les émissions régulières, les reportages, etc. L'audiovisuel est également utilisé pour la formation technique, par exemple l'apprentissage de connaissances procédurales [142], ou bien la surveillance (supervision, contrôle qualité, zones sensibles, etc.). Le document n'est alors qu'objet de visualisation.
Avec l'avènement du super-8, puis du magnétoscope, les particuliers ont été à même de créer leurs propres documents audiovisuels (c'est à dire de passer au niveau de la conception), dans le même temps qu'a été rendue possible la diffusion de masse de programmes ayant déjà été diffusés dans les cinémas et sur les ondes. Les documents audiovisuels sont donc devenus partie du quotidien, et tout un chacun peut d'ores et déjà s'essayer à la création.
En ce qui concerne le champ universitaire, nous avons distingué avec Gwendal Auffret dans [20] plusieurs façons de considérer les documents audiovisuels dans les Sciences Humaines. Ces utilisations ont pour point commun une visualisation active des documents audiovisuels, une analyse de ceux-ci, et on peut donc les rapprocher d'autres utilisations dans d'autres domaines tels que celui de la supervision :
Il apparaît au travers de cette petite étude que les utilisations de documents audiovisuels peuvent se diviser en trois catégories principales : la visualisation simple suivant la temporalité du flux, relativement passive ; la lecture active qui fait une large part à l'annotation personnelle et à un accès direct au flux ; et enfin la réutilisation de parties de documents dans d'autres, c'est à dire l'édition.
Toutes ces utilisations documentaires nécessitent au préalable de disposer des documents, c'est à dire que leur archivage et leur recherche représentent des passages obligés. C'est pourquoi des archives audiovisuelles ont petit à petit été mises en place.
Les archives dépendent en fait des institutions qui les abritent. Celles-ci comptent principalement des chaînes de télévision, qui gardent leur production (par exemple d'actualité) en vue de leur réutilisation, les producteurs (par exemple de cinéma) qui gèrent des fonds, les fondations attachées par exemple à conserver une partie du patrimoine artistique d'un auteur15, les dépôts légaux comme l'Inathèque en France16, les entreprises, la publicité, les hôpitaux, etc.
Les archives audiovisuelles traditionnelles possèdent leurs documentalistes, spécialisés dans l'indexation/recherche des documents et dans la restauration de documents anciens. Avec le développement du numérique (au niveau des documents et non des notices s'entend), on assiste à une remise en questions du métier de documentaliste audiovisuel, le statut de l'archive même change. Ainsi, Michel [161], appliquant l'analyse de la valeur à la << tradition audiovisuelle >> considère que les processus de travail sont remis en cause, que les objets audiovisuels eux-mêmes << explosent >> (n'ont plus l'unité qu'on pouvait leur trouver quand ils étaient sur bande), que les rapports producteurs/consommateurs changent également. Il distingue quelques processus en uvre dans l'exploitation de documents audiovisuels : création/production/diffusion de biens matériels ; processus utilisation/exploitation/consommation qui reflètent les usages culturels d'utilisation de ces biens matériels ; inter-médiation/information/communication ; et enfin conservation/préservation. Les documentalistes, les archives doivent alors s'interroger sur leur rôle dans la société de l'information audiovisuelle17. Les pratiques documentaires et les systèmes d'information mis en place s'en ressentent alors dans les services qu'ils offrent aux utilisateurs.
Il n'est en effet plus seulement question de documents décrits avec de simples notices que l'on recherche avant de les télécharger. Il s'agit de gérer la documentation en même temps que le document, par exemple les droits, la diffusion de ceux-ci au travers de réseaux, voire la génération de nouveaux documents comme réponse à des requêtes (par exemple un document contenant toutes les apparitions d'un homme politique au cours d'une journée de télévision). D'autres part, la création numérique de documents audiovisuels entraîne qu'il devient possible pour le créateur de documenter celui-ci directement, sans passer par la médiation de documentalistes, dont l'intervention doit alors être ajoutée en fonction des objectifs de la collection. Enfin, la mise à disposition sur le réseau de productions << légères >> (dues aux particuliers) est possible, qu'il faut documenter.
Les archives audiovisuelles doivent donc dépasser le stade de la mise à disposition de notices que l'on a vu apparaître avec le développement de l'internet. Idéalement, les documents doivent pouvoir être recherchés, manipulés, mis à disposition et téléchargés, réutilisés, de la façon la plus naturelle possible pour toutes les tâches qui le nécessite, de la même manière que les documents hypermédias disponibles sur le réseau. La difficulté est bien entendue accrue par la taille des archives. Par exemple l'INA stocke 3 millions de documents (400 000 heures de vidéo et 500 000 de radio). Si on met ces chiffres en rapport avec la taille des fichiers numériques correspondant à des flux audiovisuels de qualité, on atteint des tailles gigantesques de données numériques.
Nous passons rapidement en revue les fonctionalités globales souhaitables d'un système d'information audiovisuelle numérique, tirant partie des apports du numérique entrevus dans ce chapitre et le précédent.
Un système d'information audiovisuelle doit être capable de stocker des documents audiovisuels et de les servir en réponse aux requêtes des utilisateurs. La << vidéo à la demande >> dépend fortement de ce genre de requêtes, dans un premier cas il s'agit de fournir avec des débits suffisants des fichiers documents ou parties de documents audiovisuels. Dans un deuxième cas, et c'est l'objectif principal, il est crucial de fournir un flux assurant une qualité de service suffisante pour que l'utilisateur visualise le document au fur et à mesure qu'il reçoit les informations. Il s'agit alors par exemple d'organiser les documents -- ou les fragments -- de façon optimale sur les disques, de dupliquer éventuellement l'information [166].
Ces fonctionnalités sont bien entendu la clé de voûte des SIAV, l'indexation consiste à mettre en place les descripteurs de documents, qui seront ensuite utilisés pour la recherche. La présentation concerne la manière de donner à l'utilisateur un aperçu du document qu'il a retrouvé. La temporalité d'un document étant celle de la vie réelle, il faut en effet un temps égal à sa durée pour avoir un aperçu complet de celui-ci, ce qui semble rédhibitoire même si l'on doit simplement vérifier lequel parmi une dizaine de réponses à une requête est pertinent pour sa tâche, alors que cela peut prendre relativement peu de temps sur le Web pour des documents principalement textuels. Il s'agit donc de présenter de façon détemporalisée18 un document audiovisuel, de la façon la plus synthétique possible et adaptée à la recherche de l'utilisateur. La navigation par exemple dans la base pourra se faire à partir des présentations calculées de ses documents, par exemple un ensemble d'images-clé censées représenter des films.
La recherche de documents peut, nous l'avons vu se faire dans des objectifs très variés. Il est possible de rechercher des documents possédant des informations factuelles, des images ou des sons à réutiliser, des document précis, des ambiances, etc. On recherchera par exemple des plans avec un personnage de dos devant une foule, ou bien des couchers de soleil, ou encore une description du fonctionnement du cerveau. La recherche peut être précise si l'utilisateur a les références du document ou de sa partie, ou bien imprécise au sens ou l'utilisateur sait ce qu'il cherche car il l'a déjà vu ou entendu, ou enfin totalement imprécise quand il a une vague idée de ce qu'il cherche [26].
L'importance des interfaces de consultation et de navigation dans la base de documents est grande, de par l'importance que prend celle-ci dans les systèmes d'information documentaires en général, mais aussi du fait du média, temporalisé, qui oblige à construire des vues détemporalisées des documents afin de pouvoir en prendre connaissance sans les jouer entièrement. Les vues de présentation des documents peuvent être calculées au besoin, mais dépendent également du modèle de représentation documentaire choisi. Par exemple, s'il s'agit de << feuilleter >> rapidement un document audiovisuel, alors ce feuilletage pourra être régulier (une image toutes les 3 secondes), ou bien irrégulier, par exemple passer d'un plan à l'autre, ce qui suppose une description du document prenant en compte les plans.
Dès que l'utilisation du document dépasse la simple visualisation, c'est à dire que le document est analysé (soumis à une lecture active) ou réutilisé ou généré, le modèle de représentation permettra d'accéder aux parties intéressant la tâche en cours.
Ainsi il doit être possible de naviguer dans un document, d'une partie à une autre, en suivant des liens décrits par avance ou bien calculés au besoin. Ensuite, il doit être possible d'annoter soi-même le document, c'est à dire d'en décrire des parties, de pouvoir relire ces descriptions, et les mettre en relation [233]. il s'agit alors d'avoir une aide automatique à l'analyse, ou simplement à la prise de note, comme marquer un plan comme étant à réutiliser plus tard, par exemple pour générer un nouveau document.
La manipulation et la génération concernent les possibilités de découpe de parties de document et de montage de ces parties en de nouveaux documents. Cette génération peut être automatique, par exemple afin de répondre à une requête, ou bien correspondre à une aide à la création audiovisuelle. Si des bancs de montage numériques (Avid par exemple) ou bien des produits grand-publics tels Adobe Première19 ou Macromedia editor20 existent déjà, tout système d'information audiovisuelle devra disposer de possibilités minimales de montage et d'édition afin de conserver le travail effectué.
L'assistance à l'utilisateur dans sa tâche a la même importance que dans un système d'information documentaire classique tel que décrit dans le premier chapitre. Les tâches étant liées à la manipulation de documents audiovisuels étant par nature complexes, l'assistance en est presque obligatoire. Il convient d'offrir dans les fonctionnalités d'un SIAV la possibilité de gérer cette assistance.
Nous nous sommes attachés au long de cette partie à étudier ce que l'arrivée du numérique dans l'audiovisuel permettait d'imaginer au niveau de l'utilisation et des fonctionnalités des systèmes d'information audiovisuel. Cette étude est cependant partielle, nous ne pouvons bien entendu imaginer toutes les évolutions introduites dans l'audiovisuel, au niveau de son appréhension sociale ou de ses évolutions en terme de document multimédia. La présente recherche participe en effet de cette évolution.
Nous considérons que le modèle de représentation de documents audiovisuels choisi dans un SIAV en représente le point-clé et la charnière. Sur ce modèle seront en effet construits les index qui serviront de support à la recherche. La navigation dans les documents prendra appui sur le substrat représenté par la représentation, tout comme la génération et la manipulation de documents. Le modèle de représentation doit enfin pouvoir être enrichi pour permettre l'annotation par l'utilisateur des documents qu'il étudie.
En fait, le document audiovisuel numérique existant à la base comme simple superposition de flux, ou -- à la limite -- comme suite d'images munie d'une vitesse de lecture, reste largement inorganisé. Il ne peut donc être accédé et manipulé autrement que par la description structurée, de ses parties. Sa représentation et sa structuration dans un modèle est donc une condition sine qua non d'utilisation numérique telle que la navigation ou la génération1.
S'il est certain qu'il est nécessaire de mettre en place une structuration explicite des documents audiovisuels afin d'être à même de les exploiter, nous ne faisons pourtant pas de pari sur la forme que prendra cette structure. Particulièrement, nous refusons de nous décider sur son éventuelle arborescence, nous ne pouvons donc pour l'instant qu'adopter une approche basée sur la seule chose dont nous soyons certain, à savoir que tout modèle de représentation associera une description à une partie de document audiovisuel, la première jouant le rôle d'index pour la seconde.
Nous appelons annotation l'acte qui consiste à mettre en place cette association, quelles que soit la partie de document considérée et la description. La description elle-même peut également prendre le nom d'annotation d'une partie de document. Si l'on parle d'annotation d'un document, alors on fait référence à l'ensemble des annotations de ses différentes parties.
L'annotation (comme processus ou résultat) est souvent considérée comme faisant référence au texte libre (ou à son écriture) qu'un utilisateur d'un système d'information documentaire ou autre a le droit d'utiliser afin d'écrire tout et n'importe quoi sur un document ou une de ses parties, se rapprochant en cela de la pratique de l'érudit qui annote le livre qu'il est en train de lire. Les travaux autour de la station de lecture de documents de la Bibliothèque Nationale de France ont ainsi eu pour objectif d'offrir une assistance informatique à la mise en place et à la gestion d'annotations [48].
Nous étendons cette notion à toute description pouvant être attachée à une partie de document, quelle que soit cette description, ce qui signifie qu'elle peut être automatique, et de tout type. Par exemple un entier, une image ou un mot-clé pourront représenter des annotations de parties de documents audiovisuels. Remarquons d'ores et déjà qu'il est possible de considérer l'annotation comme une véritable écriture à propos d'un flux audiovisuel et sur ce flux à l'aide d'objets informatiques qui sont alors temporalisés par rapport au flux.
S'interroger sur la matière avec laquelle cette écriture se réalise, et dans quels objectifs revient à interroger la modélisation des documents audiovisuels. Nous étudierons donc au chapitre suivant les diverses tentatives de modélisation de documents audiovisuels au travers de l'annotation et de ses propriétés.