next up previous contents
Next: Modélisation de documents audiovisuels Up: Contexte général de la Previous: Introduction générale

Sous-sections

   
Vers un système d'information documentaire idéal

Ce premier chapitre poursuit un double objectif.

Il s'agit d'une part de présenter un ensemble de concepts liés aux documents, aux documents numériques, aux documents multimédias, aux systèmes d'information documentaires, et à la recherche d'informations. Au cours du mémoire, nous pourrons ainsi référer à l'un ou l'autre de ces concepts pour les préciser ou les remettre en cause sous le couvert d'une définition minimale. Nous ne prétendons bien entendu pas épuiser les sujets que nous évoquerons dans ces quelques pages -- plusieurs thèses n'y suffiraient pas.

Il s'agit d'autre part de proposer ce que serait pour nous un système d'information documentaire idéal, dans lequel êtres humains et machines coopéreraient à la résolution des problèmes des premiers. Il conviendra alors de garder en mémoire ce schéma générique idéal comme un sorte de << Graal >> motivant la modeste quête présentée dans ce mémoire.

Notion de document

   
Définition

Dans sa définition la plus générale, un document est une trace de l'activité humaine. Si l'on élimine de cette définition un certain nombre d'objets (par exemple les documents archéologiques), et qu'on se limite aux traces intellectuelles, alors on considérera qu'un document a été conçu dans l'objectif d'être interprété (lu, vu, écouté, visionné) par un certain nombre de personnes différentes de la ou les personnes qui l'ont mis en place. Un document est donc à un moment ou à un autre mis à disposition de son public potentiel. Par exemple une lettre sera envoyée à son destinataire, un livre sera édité et publié, un reportage d'émission télévisuelle sera diffusé. [18], étendant une définition de [104], considèrent ainsi qu'un document << est une unité auto-suffisante représentant une contribution intellectuelle, et publié sur un média pour des raisons spécifiques. Un document exhibe, dans une certaine limite, une structure intentionnelle qui définit comment les éléments de son contenu sont organisés selon des axes dans l'objectif d'être interprétés par un lecteur comme témoignage de cet objectif original de publication >>.

Ces définitions permettent de préciser un certain nombre de points et de définitions importants quand il s'agit de documents.

Par exemple un document existe en soi du fait de son unité documentaire, c'est à dire de ce qui fait qu'il est interprétable comme tel de façon auto-suffisante. Cette notion peut être rapprochée de celle de textualité qui est ce qui rend un texte irréductible à une suite de phrases [194].

D'autre part, un document est selon Bruno Bachimont << un objet matériel exprimant un contenu. Il est indissociable d'un support matériel (un écran, une feuille de papier, etc.), support d'inscription où un contenu est exprimé. Ce contenu s'exprime en une forme interprétable (lettres, formes iconiques, etc.) pour un lecteur. Cette forme peut être dite sémiotique dans la mesure où elle fait signe pour un lecteur d'un sens qui lui est adressé. Ce que l'on appelle contenu est l'abstraction que l'on peut faire des différents documents exprimant la même chose >> [23].

Ensuite, un certain nombre de contraintes découlent du support d'inscription et de la forme sémiotique choisie, contraignant << l'expression du contenu et ses conditions de réception et d'interprétation. En particulier, deux types de contraintes émergent :

[23].

Les différentes structures internes au document sont mises en place dans un contexte de production, dans le cadre d'une pratique donnée (par exemple la lettre médicale à une confrère, ou bien le texte de loi). C'est le genre du document qui détermine les contraintes, par exemple les structures logiques utilisées. C'est le contexte de réception du document qui détermine quant à lui la manière dont les structures du document seront utilisées et interprétées.

Au final, << un document n'est pas une simple juxtaposition des éléments qu'il contient. Conçu dans un contexte de production donné, consulté dans un contexte de réception, réalisé conformément à des structures logique et matérielle, un document en tant que tel conditionne l'interprétation de ses éléments. Un document cristallise dans ses structures et contextes des connaissances et des prescriptions interprétatives pesant sur la lecture à effectuer >> [23].

Le document pouvant être interprété en dehors d'un contexte de réception canonique (correspondant à celui prévu lors de la production), la reconnaissances d'éléments de structures -- jouant le rôle d'autant d'indices -- permet de déterminer le genre du document, lequel à son tour impose un lecture canonique. Inversement, l'analyse du document en vue d'en repérer les structures peut permettre de reconstituer un contexte de production a posteriori. Plus simplement, il est possible de constituer un genre, pour peu que certaines structures se répètent entre divers documents. Les beaux jours de l'analyse littéraire reposent entre autres sur ces constatations. Plus pragmatiquement, la Text Encoding Initiative (TEI [38]) a eu pour objet de déterminer quelles étaient les principales définitions de structure logique permettant de formaliser tous les textes en SGML.

Nous reviendrons plus loin sur ces problèmes, fondamentaux dès qu'il s'agit de représenter des documents structurés en tant que tels dans les systèmes d'information, ou bien encore quand le problème est justement de structurer des documents audiovisuels.

Document numérique

Avec l'avènement du numérique, le document quitte son support matériel natif -- par exemple le papier pour l'écrit ou les bandes analogiques pour les documents audiovisuels -- pour une représentation unique et binaire dans les mémoires des ordinateurs.

La mise en place d'un document numérique peut se faire de deux manières différentes : le document peut être numérisé à partir de son support premier -- par exemple un document papier est scannérisé ; ou bien le document est directement pensé et écrit sous forme numérique par la médiation par exemple d'un logiciel de traitement de texte.

Quelle que soit la manière dont est obtenu le document numérique, sa forme matérielle lui transmet désormais les propriétés propres au numérique : le document peut et même doit être l'objet de calculs afin d'être manipulé et appréhendé.

B. Bachimont, dans la tradition du travail mené à l'UTC sous l'impulsion de B. Stiegler, analyse dans [23] le document numérique. Il considère ainsi que celui-ci << met en jeu les distinctions suivantes :

Il s'ensuit qu'un document, en tant que mise ensemble d'éléments de contenu dans le cadre d'une structure matérielle, est << nécessairement ce qui est consulté dans le cadre d'une forme d'appropriation sur un support d'appropriation. Il ne correspond pas à l'enregistrement interne, contrairement à ce que la locution de << document numérique >> pourrait laisser entendre [...] le document numérique, considéré sur le support d'enregistrement, n'est pas un document, mais une ressource à partir de laquelle peuvent être calculés autant de documents, c'est à dire de formes d'appropriation sur un support d'appropriation. >> [23] L'enregistrement interne d'un document word est par exemple inintelligible, et peut faire appel à plusieurs fichiers (images externes) tandis que le document affiché sous une forme ou une autre dans l'interface du traitement de texte, ou bien imprimé, l'est.

Le document numérique est donc ce qui est présenté et reconnu sous forme intelligible en tant que tel par un utilisateur, après un calcul effectué sur une forme numérique. Quatre opérations entre ces deux différentes formes sont dès lors envisageables [23]. La projection est l'opération du calculable à l'intelligible visant à passer d'une forme interne à une forme d'appropriation. L'abstraction est l'opération inverse (par exemple une numérisation). La transformation est une opération du calculable au calculable ne conduisant pas à une forme d'appropriation, par exemple une reconnaissance de caractères sur un document numérisé, ou bien le calcul d'un fichier PostScript à partir d'un enregistrement Word. La navigation enfin, opération de l'intelligible à l'intelligible permet de passer d'une forme d'appropriation à une autre, qui ne dépend pas obligatoirement du même enregistrement.

L'analyse que nous venons de largement présenter permet de faire la part des choses entre les inévitables fichiers d'un système d'exploitation informatique et la manière dont le contenu de ces fichiers est présenté à l'utilisateur. Elle permet surtout de remettre le document à sa vraie place, comme ensemble organisé de contenus prescrivant leur propre interprétation par un être humain.

Document multimédia

Après avoir évoqué la notion de document numérique dans sa généralité, il convient d'avoir un mot sur celle de document multimédia.

De la façon la plus générale, un média permet de faire médiation entre une source et une destination. Nigay et Coutaz [177] montrent dans le cadre d'une étude consacrée aux interactions homme-machine que plusieurs définitions plus particulières de média se rencontrent dans la littérature :

Le multimédia est alors à chaque fois défini comme faisant appel à au moins deux médias différents, et les définitions de média variant, on conçoit que varient celles de multimédia, surtout dans le contexte numérique.


  
Figure 2.1: Les trois axes du modèle de Purchase : signe, syntaxe et modalité
\includegraphics[width=200pt]{../fig/sid/multimedia.eps}

Négligeant l'approche technologique, Purchase [191] définit un texte 1 comme composé de signes dans un système de représentation également appelé média. Trois axes sont alors mis en place (voir figure 2.1). La nature des signes utilisés tout d'abord, qui peuvent être concrets-iconiques (une photographie), abstrait-iconiques (un panneau dessiné indiquant des chutes de pierres), ou bien symbolique (quand il n'existe plus de lien perceptuel entre le symbole et ce qu'il représente, par exemple un mot ou un feu rouge). L'arrangement de ces signes ensuite : individuels (simple objet), augmentés (par exemple une photographie découpée), temporels (son ou vidéo), linéaires (un enchaînement d'images), ou bien schématiques (un diagramme arborescent d'organisation) ; catégories auxquelles elle ajoute la mise en réseau possible grâce au numérique. La modalité enfin, auditive et visuelle principalement2. Considérant les différentes possibilités de combinaison suivant ces trois axes, il est alors possible de décrire les documents existants ; par exemple la bande dessinée fait partie de l'abstrait iconique linéaire dans la modalité visuelle.

Il est surtout possible de proposer un certain nombre de définitions de la communication multimédia. La première concerne << la production, la transmission et l'interprétation d'un texte-composite quand au moins deux des textes-composants font appel à des systèmes de représentation différents >>. On retrouve là la définition la plus générale de multimédia, déjà entrevue. La deuxième définition fait appel à au moins deux modalités perceptives, cette définition s'accorde bien avec la conception répandue qu'est multimédia << ce qui fait appel à de l'image et du son >>. Les troisième et quatrième définitions insistent sur la mise en réseau (la délinéarité, ou plutôt la multilinéarité déjà évoquée dans [125]) autorisée par l'informatique, et sur l'interactivité possible avec l'utilisateur. On retrouve dans cette définition tout ce qui est << hyper- >> que l'on trouve dans les hypertexte et les hypermédia, ainsi que la notion de navigation. La dernière définition s'attache à ce qu'un au moins de textes-composants soit linéaire et temporalisé : ceci correspond à la considération qu'est multimédia ce qui comporte entre autres du son et/ou de l'image animée. Les diverses définitions du multimédia et de la communication multimédia données par Purchase dans le cadre d'un système intégré permettent de couvrir les différentes définitions généralement proposées.

Il nous semble cependant utile d'insister sur le fait que les documents multimédias numériques sont redevables à l'informatique sur au moins deux points. Le premier concerne la possibilité de mêler de façon aisée plusieurs documents ou morceaux de documents de formes d'appropriation différentes. Par exemple un texte est présenté sur l'écran accompagné d'une image ou d'un document vidéo. L'important est ici que l'ordinateur est chargé de gérer la présentation des documents, lesquels sont éventuellement temporalisés : un texte défilera par exemple de droite à gauche avant d'être remplacé par une image au bout de dix secondes, tandis qu'une musique sera jouée d'un bout à l'autre de la présentation. L'assemblage, le calcul de la présentation échoit à la machine à chaque occurrence du document devant un lecteur. Cet assemblage se réalise d'après une description des opérations (structure de plan de présentation) qu'il y a lieu de réaliser à partir d'enregistrements de documents ou de morceaux de documents différents, ayant des formes d'enregistrement et d'appropriation différents.

Le deuxième point fondamental est de rendre opératoire la possibilité de liens entre parties d'un même document ou de documents différents, autorisant une nouvelle interactivité de l'utilisateur par rapport au document. La vieille notion d'hypertexte pressentie il y a bien longtemps par V. Bush [39] est remise au goût du jour et devient effective, ouvrant des voies insoupçonnées dans les rapports de l'humanité et de l'information. Les réseaux hypertextes permettent de naviguer d'une partie de document textuels à l'autre, tandis que les hypermédias étendent la notion à tout type de document. Il devient possible de cliquer sur un texte et de jouer un enregistrement musical, ou même de naviguer d'une image à l'autre. Le World Wide Web illustre l'importance toujours croissante qu'est amené à prendre dans nos vies ce type de réseaux.

Ce petit tour des définitions du multimédia achevé, nous pouvons tenter une définition synthétique d'un document multimédia numérique, qui correspond plus ou moins alors à la quatrième définition de Purchase : est document multimédia un document gérant de façon interactive à l'aide de liens une présentation de multiples morceaux de documents ou documents entiers, faisant appel à des formes d'appropriation et d'enregistrement multiples, le statut effectif de document lui étant donné par sa cohérence d'ensemble, laquelle découle de l'origine humaine du document3.

Système d'information documentaire

Après avoir rapidement présenté dans la partie précédente ce que sont les documents en général et étudié les conséquences de l'avènement du numérique sur ceux-ci, notamment les documents multimédias, il convient de s'intéresser à la notion de système d'information documentaire (SID). Nous en décrirons d'abord rapidement le cadre le plus général hors informatique, avant d'étudier les conséquences de son intégration dans un SID numérique en terme de manipulation et d'utilisation de documents numériques.

Qu'est ce qu'un système d'information documentaire ?

Définition

Par définition, un système d'information documentaire est un système permettant d'exploiter une collection de documents. Par exploitation, nous entendons principalement toutes les opérations liées à l'archivage de documents et à leur recherche par un utilisateur en vue d'une utilisation. Deux types de systèmes d'information documentaires peuvent se distinguer : ceux destinés à la conservation et au patrimoine, par exemple les bibliothèques et les dépôts légaux, et ceux plus liés à une utilisation plus immédiate et balisée, comme les services de documentation d'entreprises. La politique de choix des documents à conserver ou à écarter dépend bien entendu des objectifs de la collection.

Historiquement, la fonction de gestion d'un ensemble de documents a échu à des spécialistes -- documentalistes ou conservateurs -- qui doivent d'une part stocker les documents et en assurer la pérennité, d'autre part en rendre l'accès possible. Le développement de systèmes d'index a été rendu nécessaire dès que le nombre des documents a dépassé les faibles capacités de mémorisation humaine.

   
Indexation de documents

Nous définissons ici de façon très générale -- mais non historique -- un index comme quelque chose permettant d'accéder à autre chose. Le processus d'indexation consiste alors en la mise en place d'objets permettant d'accéder à d'autres objets. Appliqué au contexte documentaire, les objets cibles de l'indexation peuvent être :

Afin de pouvoir accéder à l'objet d'indexation, il y a lieu d'identifier celui-ci de façon non ambiguë, donc de lui associer un identifiant. L'identifiant d'un document peut être par exemple son numéro d'arrivée dans la collection. L'identifiant d'un ensemble de documents peut être le numéro associé à une étagère, ou bien un ensemble d'identifiants de documents (ou au moins un moyen d'y accéder). L'identifiant d'une partie de documents est le plus souvent défini à partir de l'identifiant du document et d'un identifiant interne. Cet identifiant interne peut être explicite (le chapitre 3) ou bien créé au besoin (la page 27, l'image correspondant à la 4ème minute du reportage).

Nous posons qu'un identifiant représente un index en soi à partir du moment où il est interprétable dans une pratique d'exploitation du document donnée. Par exemple même un simple numéro d'ordre d'arrivée peut être utilisé pour rechercher des documents récents. Un numéro de page d'un ouvrage donné est un index de cette page dans le contexte de la manipulation de cet ouvrage : il y signifie un emplacement donné (le milieu par exemple). En fait, un identifiant représente un index à partir du moment où il est exprimé dans une forme sémiotique interprétable par un utilisateur, pour peu que celui-ci en ait la clé, c'est à dire les règles et le contexte de production.

A l'identifiant -- index de base -- est en général associé le véritable index, c'est à dire la description de l'objet de l'indexation. Ainsi, une émission hebdomadaire (i.e. l'ensemble de ses occurrences) peut être indexée à l'INA par une fiche-collection décrivant son contenu général et son dispositif (type de scènes, progression de l'émission). Un document sera simplement décrit dans une bibliothèque en terme d'auteur, de titre et d'un certain nombre de mots-clé ; une partie de document pourra avoir le même type de description.

Bachimont [23] définit l'indexation dans une bibliothèque comme la paraphrase d'un contenu en une forme sémiotique interprétable permettant l'exploitation du contenu indexé dans la cadre d'un pratique donnée.

Il s'agit donc de mettre en place des documents de description (puisqu'ayant contenu et forme matérielle, l'index a un statut documentaire per se) décrivant le contenu des documents, d'ensemble ou de parties de documents et leur servant d'index. Les documents de description peuvent bien entendu être eux-mêmes à leur tour l'objet d'une indexation. Par exemple un article de journal pourra servir d'index à un livre. Les index sont valables dans une pratique donnée, c'est à dire que leur création se fait dans un contexte précis, en vue d'au moins une utilisation prévue explicitement. Ainsi, indexer un document par une fiche regroupant nom d'auteur, titre, et un ensemble de mots-clé implique une utilisation de l'index suivant ces catégories.

L'interprétation d'un contenu et sa réécriture dans une pratique donnée sont en fait un moyen d'exploiter celui-ci. La génération elle-même du document produit une structure logique de mise ensemble de contenus (chapitres, listes, paragraphes), prescrivant l'interprétation mais pouvant également servir d'index. A partir du moment où un document possède une structure, y compris implicite, par exemple découlant de sa linéarité, il est possible d'utiliser cette structure pour y accéder, et d'y adjoindre un contenu sémantique dans le cadre d'une pratique.

A maxima, il est donc possible de dire qu'est index de contenu documentaire tout ce qui est utilisé comme tel, que cela ait été mis en place avec cette volonté ou non. Cette extension de la notion d'index nous sera bien entendu utile quand nous évoquerons le cas des documents numériques.

Accès aux documents

L'accès aux documents peut se faire pour l'utilisateur du système d'information documentaire des façons suivantes (ici décrites sous forme non électronique) :

Il va de soi que toute recherche peut se dérouler suivant une ou plusieurs des modalités présentées. Par exemple il est possible, après avoir sélectionné un document, de chercher aux alentours si d'autres documents ne seraient pas intéressants (dans le cadre d'une recherche sur un thème particulier).

Les trois accès que nous venons de présenter, pour classiques qu'ils soient n'en servent pas moins de référence à nombre de métaphores utilisées en recherche d'information, particulièrement sur le Web. Il convient donc de les avoir en mémoire lorsque l'on évoque le passage au numérique d'un système d'information documentaire. Nous nous intéresserons désormais aux systèmes << tout numériques >>.

   
Informatisation des SID

L'intégration de l'informatique dans les SID se déroule d'abord à deux niveaux :

Il apparaît en fait que c'est à partir du moment où les documents sont sous forme électronique que la pratique change : il devient possible de réaliser des calculs sur leur contenu. Cela est ainsi déjà le cas avec la possibilité de recherche ( i.e. de calcul) dans les documents fortement structurés que sont les index, de correspondances entre les requêtes et les représentants de documents. Mais le numérique autorise désormais une exploitation directe du document au niveau de son support d'enregistrement (décrit par sa forme d'enregistrement), y compris au niveau de l'indexation : celle-ci peut être automatisée, voire réalisée au besoin. Une recherche plein-texte est ainsi possible : si un mot-clé en soi ne représente pas un index, un mot-clé associé à un système de recherche (comme Altavista) est un index de l'ensemble des documents fournis par ce système en réponse à la requête utilisant avec le mot-clé. De la même manière, une balise HTML peut désormais représenter un index. En d'autres termes, n'importe quelle partie du support d'enregistrement d'un document électronique est d'une part susceptible d'être accédée comme contenu documentaire, d'autre part de servir d'index pour ce contenu.

L'indexation est en effet partout dans le numérique, et lui est consubstancielle. Tout calcul est manipulation des données et d'index permettant d'y accéder, les index étant bien évidemment eux-mêmes de données5. Cela permet à [23] de conclure que << tout système numérique est un système documentaire et mobilise une indexation >>. En fait, un système numérique est un système documentaire dès qu'il en existe une indexation. Par exemple, un code binaire généré par un compilateur est un document indexé par son source si celui-ci est disponible, et de toutes façons par une table des symboles.

Différentes approches de SID numériques

L'approche précédemment évoquée nous amène à considérer toute organisation de données comme un document, il est alors possible de considérer tous les types de systèmes d'information comme des SID.

Smaïl [210] considére que les systèmes d'information pouvaient se considérer sous les trois aspects suivants :

Ajoutons à ces systèmes d'information les systèmes d'exploitation qui permettent la manipulation et la gestion de documents dans des structures organisées. Ranger par exemple un ensemble d'images dans un répertoire en leur donnant des noms explicites revient à mettre en place un système d'information documentaire appliqué aux images, dont les index sont les noms de fichiers.

L'évolution des systèmes d'information nous semble tendre vers une plus grande intégration et une bien moins grande séparation entre domaines. Ainsi, certains systèmes de gestion de bases de données sont dits déductifs, c'est à dire qu'il permettent de faire des inférences comme les SBC. D'autres prennent d'entrée en compte les liens et la navigation [14]. Les bases de données semi-structurées ont vu le jour afin de s'adapter aux documents et aux structures documentaires (par exemple les sites Web) : la notion de schéma de base de données disparaît au profit d'un organisation des données en arbre ou en graphes suivant celle des documents ou des ensembles de documents. Ajoutons à celà la notion d'interactivité, d'abord propre aux SRI, qui est désormais prise en compte dans des SBC beaucoup moins rigides que par le passé. Les documents multimédias, interactifs par eux-mêmes et objets des SID ajoutent aux possibilités offertes de recherche et d'exploitation interactives. Il nous semble donc que les cloisonnements entre domaines de recherche devraient, si ce n'est disparaître, du moins changer de position et favoriser l'émergence de nouveaux systèmes de gestion de documents. Nous reviendrons plus largement sur quelques-uns de ces aspects plus loin dans le rapport, il nous semble cependant utile de mettre d'ores et déjà en exergue les changements en cours. Cela s'accorde également avec notre volonté d'essayer de définir un système d'information documentaire idéal.

Fonctions des SID numériques :

Les fonctionnalités d'un système d'information documentaire sont les suivantes :

Nous reviendrons par la suite sur les fonctionnalités les plus importantes présentées ici. En effet, si le découpage est grossier, il permet cependant de présenter les aspects auxquels nous allons nous intéresser, et que nous raffinerons notamment dans le chapitre consacré aux systèmes d'information audiovisuelle.

Nous définissons pour toute la suite de ce mémoire la représentation d'un document comme la manière dont celui-ci est modélisé dans le système documentaire, et la présentation d'un document comme la manière dont celui-ci est présenté à l'utilisateur.

Remarquons alors que le format de représentation des documents est un des aspects les plus fondamentaux et les plus critiques d'un système d'information documentaire, car il contraint au moins tout à la fois l'indexation, la recherche, la présentation, la navigation documentaires. La modélisation d'un document dans le système, sa structuration seront donc les points-clés, et doivent être soigneusement prises en compte dès la conception d'un système.

Recherche d'information

La Recherche d'Information (RI) est un champ d'études historiquement organisé autour des documentalistes et des institutions chargées de gérer un grand nombre de documents, principalement textuels (tandis que le champ des bases de données se structurait principalement autour des informaticiens et de la gestion des systèmes d'information de l'entreprise). Les méthodes et les concepts en vigueur dans la Recherche d'Information dépendent fortement de ses origines historiques, et sont plus adaptées aux systèmes d'information documentaires que les méthodes issues de bases de données, car plus centrées sur les besoins des utilisateurs. Par exemple les notions de reformulation de requêtes, de pertinence utilisateur, de besoin d'information proviennent de la RI.

Van Rijsbergen, héraut de la recherche d'information la définit ainsi [232] : << The user expresses his information need in the form of a request for information. Information retrieval is concerned with retrieving those documents that are likely to be relevant to his information need as expressed by his request. It is likely that such a retrieval process will be iterated, since a request is only an imperfect expression of an information need, and the documents retrieved at one point may help in improving the request used in the next iteration >>.

Le premier point mis en exergue dans cette définition concerne la manière d'indexer un document (principalement textuel), d'exprimer une requête, et de calculer comment répondre à cette requête. Le deuxième point fait appel aux notions de cycle de recherche d'information et d'interaction avec l'utilisateur.

Indexation et calcul de correspondance dans les SRI.

[210] définit quatre dimensions de l'indexation dans un Système de Recherche d'Information (SRI). Les descripteurs6 considérés sont ici de simples mots-clé :

On pourrait rajouter à ces dimensions une cinquième qui tiendrait au type de l'analyse effectuée afin de mettre en place l'indexation : des systèmes manuels aux systèmes automatiques qui ne gardent que les mots du titre ou du résumé d'un document, il est possible d'ajouter par exemple des termes fondamentaux non présents dans celui-ci (par exemple le domaine scientifique d'un article pointu non cité dans celui-ci). L'indexation automatique, utilise des méthodes mathématiques afin d'extraire les termes statistiquement les plus représentatifs d'un texte, alors supposés les plus pertinents (TF/IDF -- Term Frequency, Inverse Document Frequency -- par exemple [202].).

Une fois la base d'indexation construite, l'interrogation est la fonction principale des SRI. Elle offre à l'utilisateur les moyens d'exprimer son besoin selon un modèle de requête. L'étape suivante est alors la mise en correspondance entre la requête d'une part, et un document d'autre part. Une requête contient des critères décrivant les caractéristiques souhaitées des documents recherchés et le modèle de requête n'est pas indépendant du modèle de document choisi. La fonction de correspondance a pour rôle d'établir une base de comparaison entre les deux.

Passons ici très rapidement en revue quelques modèles classiques de la recherche d'informations. Malgré leur simplicité, ces modèles restent les plus utilisés, en combinaison avec des mécanismes permettant de pallier leur pauvreté d'expression (pour des études plus détaillées, voir à ce sujet [202,201]).

Le modèle vectoriel représente un document Di par un vecteur de dimension n représentant un ensemble de descripteurs ou mots-clé : Di = (di1di2...din) où n est le nombre de descripteurs connus et dij représente le poids affecté au descripteur j dans le document Di. Une requête est de la même manière exprimée par un vecteur dans l'espace des descripteurs : R = (r1r2...rn). La mesure dans l'espace des descripteurs (supposé euclidien) du cosinus entre un vecteur document et le vecteur requête est une mesure de similarité typique liée à ce modèle.

La puissance du modèle vectoriel réside dans sa simplicité conceptuelle et de mise en \oeuvre. Documents et requêtes sont exprimés de la même manière, et la mesure de similarité permet de classer simplement les documents retrouvés en fonction de leur pertinence vis-à-vis de la requête. Plusieurs problèmes importants subsistent : l'orthogonalité implicite de l'espace de représentation suppose une indépendance entre les termes, ce qui est une hypothèse très forte. D'autre part, la limitation de l'expressivité du modèle reste très gênante.

Le modèle booléen est basé sur l'utilisation de la logique de Boole pour proposer une représentation des requêtes, et repose sur une représentation classique des documents à base de mots-clé. Trois types d'opérateurs (et, ou, non) servent à lier les critères de recherche formant une requête, ce qui permet d'y répondre en appliquant simplement ces opérations logiques sur des ensembles de documents extraits de listes-inverses. L'expressivité du modèle est supérieure à celle du modèle vectoriel, puisqu'il permet de retrouver tout sous-ensemble particulier d'une collection de documents. Le modèle booléen peut être pondéré (c'est par exemple le modèle utilisé par Altavista7).

Dans les modèles logiques, un document est considéré comme pertinent s'il implique logiquement la requête (ce qui est par exemple trivial dans le modèle booléen). Les modèles logiques fournissent un cadre unificateur pour la recherche d'informations [232] et permettent de prendre en compte toutes sortes de connaissances structurelles sur les documents, les contenus multifacettes, les représentation des connaissances, l'inférence, etc. Cette approche associe une grande puissance d'expression à une gestion uniforme des connaissances, mais souffre de limitations liées à sa complexité théorique et pratique, ainsi qu'à la difficultés qu'il y a à mettre en place des modèles opérationnels liés à des indexations symboliques complexes (graphes conceptuels par exemple)8.

Cycle de recherche d'information.

La forme de représentation de l'indexation, des requêtes et la fonction de correspondance permettent de fournir un certain nombre de documents candidats à l'utilisateur. Un cycle de recherche d'information présente les différentes étapes d'une recherche :

Evaluation.

C'est dans le domaine des SRI textuels que se sont mis en place les concepts liés à l'évaluation des systèmes d'informations.

La pertinence recouvre des notions différentes selon que l'on se place du point de vue de la machine ou de l'utilisateur. Ainsi, du point de vue du système, la pertinence est la correspondance entre l'énoncé d'un besoin d'information (une requête) et un document, c'est-à-dire le point auquel le document recouvre la matière de l'énoncé du besoin. Le problème pour le concepteur du système est alors d'anticiper tous les besoins auxquels le SRI devra répondre.

Du point de vue de l'utilisateur, la pertinence dépend de l'utilité de chaque document que lui présente le SRI. Ainsi, la pertinence système et la pertinence utilisateur peuvent différer quand un document correspond -- du point de vue du système -- parfaitement à la requête, tandis que l'utilisateur peut n'en avoir que faire (par exemple parce qu'il en connaît déjà parfaitement le contenu). L'utilité d'un document pour l'utilisateur ne peut être mesurée qu'à travers les jugements que celui-ci émet lorsque le SRI lui présente celui-là. Elle dépend naturellement du contexte, i.e. de facteurs aussi variés que le but poursuivi par l'utilisateur ou que le contexte socioculturel dans lequel est menée la recherche.

Plusieurs concepts de mesure ont été mis en place afin d'évaluer la pertinence du système de recherche d'information :

Plusieurs remarques doivent venir compléter ces définitions. Ainsi, le calcul de ces mesures nécessite de connaître a priori quels sont les documents pertinents pour une requête, ce que seul un utilisateur est capable de dire. De plus, l'accord de deux utilisateurs différents n'est pas obligatoire : une requête que l'un estime satisfaite peut être considérée différemment par l'autre. Egalement, si la précision reste mesurable à travers les jugements de pertinence de l'utilisateur, le rappel est plus problématique : comment évaluer quels sont les documents pertinents non fournis par le système ? Il s'agit alors de mettre en place des bases de tests et des jeux de requêtes parfaitement connus afin de pouvoir tester les performances de systèmes différent

Interaction

La gestion de l'interaction de l'utilisateur avec les systèmes de recherche d'information en est devenue une composante naturelle et obligatoire.

Une première interactivité consiste en la possibilité de reformulation conduisant éventuellement à des mécanismes de bouclage de pertinence (relevance feedback en anglais) [116,201]. Celui-ci est né de la constatation que d'une part l'indexation était en général imparfaite et d'autre part que l'utilisateur avait de grandes difficultés à formuler dès la première tentative la << bonne >> requête, ce qui se traduit par un décalage entre la fonction de pertinence du SRI et celle de l'utilisateur. L'idée est alors de prendre en compte la pertinence utilisateur pour améliorer les performances du système tout en tenant compte de ses performances passées. La recherche d'information passe alors par une suite d'étapes indépendantes au statut de processus itératif, dans lequel se met en place une véritable coopération permettant par un jeu de reformulations de la requête d'aboutir à un résultat satisfaisant pour l'utilisateur. A partir d'une première requête, le système fournit à l'utilisateur un ensemble de documents dont l'utilisateur évalue la pertinence (par exemple bonne, mauvaise ou sans opinion), ce qui conduit à une reformulation automatique de la requête qui tient compte de ce retour de l'utilisateur. Cette nouvelle requête fournit alors un nouvel ensemble de documents, à nouveau évalué, et ainsi de suite jusqu'à satisfaction de l'utilisateur.

On remarquera qu'alors que dans le bouclage de pertinence la reformulation de la requête est automatique, certains systèmes utilisent une autre forme de formulation interactive mais non automatique qui consiste à fournir à l'utilisateur toutes indications utiles à la (re-)formulation (nombre d'occurrence du terme dans la base, utilisation du terme, termes proches dans un thésaurus, etc.). A noter également que si [63] considèrent que cette technique est utile pour améliorer les résultats d'une session de recherche, elle reste peu concluante dans son utilisation pour modifier les représentations des documents dans la base, ce qui correspondrait à une utilisation à long terme, probablement à cause du caractère très subjectif des jugements des utilisateurs.

.

Un autre niveau d'interaction, rendu possible par l'apparition du multimédia (tel que nous l'avons défini), concerne la navigation dans un espace documentaire. D'abord apanage de la communauté hypertexte, la navigation a été popularisée, et est désormais intégrée à la Recherche d'Information.

L'espace documentaire de navigation peut être construit a priori, par exemple, un modèle de recherche d'informations extrême est celui qui a cours dans les systèmes hypermédia : les requêtes en sont absentes, tandis que toute la recherche se fait lors de la navigation dans la base de documents (le Web ou un système de fichier sur une machine). Certains documents peuvent également être construits au besoin, le plus souvent comme manière d'organiser et de présenter les résultats d'une requête à l'utilisateur, l'accès aux documents numériques étant ainsi direct et immédiat. Il est également possible de considérer la mise en place automatique d'hyperliens dans les documents. La construction d'un ensemble de liens peut alors s'apparenter à un type d'indexation particulier permettant d'associer de façon explicite à un document un voisinage. [71] met par exemple en place un système de reconstruction de liens entre articles de journaux sur un certain nombre de similarités.

Recherche d'informations et connaissances

Il est possible selon [209] de regrouper les connaissances prises en compte dans un SRI en trois classes principales : connaissances sur les documents d'abord, sur les concepts du domaine de l'application ensuite, sur les utilisateurs enfin.

Les connaissances sur les documents sont en fait les index de ces documents, et explicitent des connaissances contenues dans et sur les documents, telles qu'elles ont été interprétées pendant l'indexation.

Les connaissances sur les concepts du domaine de l'application concernent le plus souvent le vocabulaire d'indexation et la manière d'organiser celui-ci en indexation structurée. L'organisation des connaissances de description est en effet nécessaire afin de guider la description des documents, que ce soit en phase d'indexation ou de recherche. On mettra dans cette catégorie essentiellement les thésaurus, qui permettent dans le cadre d'un vocabulaire contrôlé de regrouper les différents termes utilisés ainsi que certaines relations entre ces termes, telles que la synonymie, les relations spécifique/générique ou encore la méréonymie (relation partie-tout). Certains systèmes, tels I3R ou encore RUBRIC (on trouvera les références les concernant dans [209]) ont une connaissance du domaine plus précise et représentent un certain nombre de concepts par des schémas, lesquels permettent d'inférer un certain nombre de connaissances de la requête de l'utilisateur. L'organisation des connaissances du domaine peut donc varier d'une simple organisation de termes en thésaurus à un véritable organisation en base de connaissances (réseaux sémantique ou treillis de Galois [43]) en vue d'inférences préétablies à la conception.

Les connaissances sur les utilisateurs du système concernent tout d'abord ce qu'il est possible de savoir sur les besoins d'information des utilisateurs auquels le système va avoir pour objectif de répondre. Ensuite, pour chaque utilisateur particulier, des connaissances peuvent être mises en place comme profils ou modèles d'utilisateurs que le système pourra alors créer (incrémentalement ou par questionnaire) et utiliser afin de répondre au mieux aux requêtes. Les connaissances sur le besoin d'information de l'utilisateur peuvent également être considérées. Par exemple [64] définit différents besoins d'information dans une banque d'images correspondant à différentes stratégies de recherche :

Vers des systèmes d'information documentaire idéaux

Nous avons jusqu'ici présenté rapidement un grand nombre de concepts liés aux documents et aux systèmes d'information documentaires numériques. Nous avons notamment vu que les documents les plus étudiés étaient -- pour des raisons historiques -- les documents textuels, et qu'un grand nombre de concepts découlaient directement de ce type de documents. Nous avons évoqué ici ou là l'utilisation de documents hypermédias et les différentes évolutions qu'il était possible de considérer, en termes de connaissances ou d'aide à l'utilisateur.

Il convient maintenant d'essayer de tracer un tableau synthétique de ce qu'est ou de ce que peut être un système d'information documentaire multimédia << idéal >>, regroupant les récentes évolutions liées à la recherche d'informations en général, mais faisant en fait appel à un certain nombre de domaines de recherche d'une manière ou d'une autre en relation avec les documents multimédia (et potentiellement, il y en a beaucoup). Nous analyserons d'abord l'évolution des notions d'indexation et des requêtes liées, puis situerons la recherche de documents dans le cadre de l'utilisation d'information et de la coopération personne-machine dans le cadre d'une tâche. Nous conclurons enfin en définissant ce que serait une << indexation intelligente >>.

Indexation de documents multimédia

Nous nous plaçons tout d'abord dans le cadre d'un document numérique multimédia faisant au moins appel à une forme d'appropriation non textuelle (image ou son par exemple).

L'indexation doit alors prendre en compte différents médias : texte, image, musique par exemple. Dans la lignée de l'indexation de documents textuels, l'approche la plus standard consiste à décrire un document quelconque avec une notice bibliographique. Celle-ci peut être mise en place pour répondre aux visées de l'institution (par exemple une agence de presse indexera ses images suivant son propre format). Il est également possible d'utiliser les fiches de descriptions standard mise en place par la communauté des documentalistes, par exemple le Dublin Core 9 et ses 15 champs (Titre, Créateur, Sujet, etc.) permettant de décrire minimalement tout document trouvé sur le Web10.

Il est également possible de considérer le document comme un signal sur lequel sont calculées des caractéristiques, exprimées dans un langage de description. Répondre à une requête posée dans le même langage revient à calculer une similarité entre la requête et les index.

Sur une image par exemple, calculer un histogramme de couleur revient à extraire du signal brut un ensemble de composantes couleurs, lesquelles sont considérées comme description de l'image. Une requête consiste alors en la description d'un histogramme par l'utilisateur, et en la comparaison de celui-ci avec ceux-là, un ordre sur les résultats de la fonction de similarité permettant de proposer une suite ordonnée d'images solutions.

Trois remarques sont ici nécessaires. En premier lieu, on ne traite que du signal, c'est à dire que le niveau de sens atteint par les descripteurs est celui d'un résultat de calcul. Il est alors nécessaire de connaître l'algorithme d'extraction pour pouvoir les interpréter. Deuxièmement, il devient possible de fournir comme requête un document (de la même forme que celui que l'on cherche, par exemple une image), à charge pour le système d'en extraire les descripteurs pour former une requête. La similarité entre document requête et documents réponses ne résulte toujours alors que d'une similarité calculée, laquelle peut correspondre plus ou moins bien à une similarité au sens de l'utilisateur, dans le cadre d'une tâche donnée. Troisièmement, le fait d'extraire des mots-clé d'un texte (comme déjà évoqué en 2.2.2) procède de la même démarche, c'est à dire que le texte est considéré comme signal sur des éléments duquel (les mots) un traitement statistique est réalisé. Même si le niveau symbolique n'est pas atteint (on en reste au calcul), l'adéquation du système fonctionnel de la langue (les lettres, les mots, les textes) à la représentation machine fait qu'il est possible d'obtenir de bons résultats, car la machine manipule les même éléments que l'être humain.

Nous reviendrons plus largement sur ces question dans le chapitre 3, retenons pour l'instant que deux modes d'indexation peuvent être distingués :

.

L'organisation d'un document multimédia consiste à y définir sa structure, c'est à dire à décrire la << mise ensemble >> des différents éléments qui le composent. Les langages documentaires, d'abord prévus pour des documents principalement textuels (enrichis avec l'image, i.e. destiné à l'impression papier), décrivent la structure matérielle du texte et/ou sa structure logique. Une liste peut être par exemple une structure logique d'organisation d'un ensemble de faits (niveau logique), ou bien simplement un ensemble de textes précis qu'il convient de placer les uns sous les autres, légèrement décalés vers la droite, avec des puces bien définies (niveau matériel). SGML [109] est un métalangage permettant de définir de tels langages et autorisant virtuellement toutes descriptions de documents.

Avec le multimédia, destiné à lecture sur un poste de travail multimédia, un niveau de structuration supplémentaire est mis en place pour décrire les interactions entre les éléments du documents, leurs mouvements par exemple, ainsi que les interaction possibles entre le document et l'utilisateur. A la structuration de présentation s'ajoute donc une structuration d'utilisation interactive de navigation, que nous pouvons appeler structuration multimédia.

S'ajoutent à cela les structurations de documents multilingues, par exemple les points de correspondance entre parties équivalentes dans des langues différentes, ainsi que la problématique de la multiplicité des sources, c'est à dire de la répartition du document.

Un certain nombre de problèmes se posent quant à la prise en compte de cette structuration au niveau de l'indexation. Si le problème par exemple de l'accès à une partie d'un document, pouvait se poser déjà pour les documents textuels, c'est bien le développement des documents multimédias et des normes de structuration qui a rendu son étude souhaitable et effective (car l'opérationnalisation devenait possible). Il faut en effet pouvoir désigner une partie de document (avec un identifiant) pour pouvoir l'indexer en tant que telle, donc faire appel à une structure rendant possible cette désignation.

La structuration multimédia peut être prise en compte à plusieurs niveaux.

Le premier niveau consiste en une mise en place de l'indexation guidée par la structure : en fonction de la position structurelle d'un morceau de document textuel, on accordera par exemple plus ou moins de poids aux mots-clé qui en sont extraits. On pourra également décrire une image à l'aide de termes d'indexation extraits de textes auxquels elle est liée, ce qui est par exemple le cas dans Altavista.

Le second niveau consiste en une utilisation de la structure pour l'indexation : on peut décider que toute partie de document devra être indexée pour elle-même, c'est à dire bénéficier d'une description, mais aussi que l'indexation devra prendre en compte les relations entre les morceaux décrits, c'est à dire que la structure elle-même sera décrite dans l'index. Ainsi un document sera décrit par les descriptions de ses parties, dont les indexations bénéficieront de la description du document les contenant.

Enfin, si l'indexation du document dépend de et représente la structure d'un document, alors il devient possible de mettre en place des requêtes qui interrogent également cette structure, par exemple << Trouver un paragraphe décrit par tels mots-clé contenu dans un chapitre contenant également une image dont l'histogramme se rapproche de celui-ci >>.

En conclusion, il apparaît que le document multimédia entraîne un changement dans l'indexation par rapport aux textes au niveau des différents médias qui le composent, puisque l'indexation peut être symbolique ou calculée ; ainsi qu'au niveau de la gestion de la structuration des documents, aussi bien pour l'indexation que les requêtes. Les modèles d'indexation et de recherche d'information appartiennent alors de fait à la classe des modèles logiques, seuls à même de prendre en compte la complexité de l'information. [56] utilise par exemple des graphes conceptuels pour représenter l'information d'indexation .

   
Utiliser l'information

La recherche de documents se passe dans la plupart des systèmes sous les deux formes des requêtes/réponses, et de la navigation, exploratoire ou non, dans la base, mêlant les acquis de la Recherche d'Information et des hypermédias. [56] considère que ce sont là deux modes d'interaction de l'utilisateur et du système, la première consistant en une mise à disposition d'un ensemble de documents répondant à une requête (décrite par une << fenêtre >>), tandis que la navigation au contraire donne accès au voisinage d'un document(figure 2.2). Si l'on considère de plus les liens entre parties de documents indexées, la base de documents apparaît comme une énorme structure, dans laquelle il est possible de naviguer, en suivant les liens implicites, mais aussi les liens structurels (explicites), et aux noeuds de laquelle il est possible d'accéder à partir de requêtes sur l'ensemble des parties de documents indexées.


  
Figure: Recherche par requêtes et navigation : ouvrir des << fenêtres >> dans le corpus de parties de documents d'après [56]
\includegraphics[width=350pt]{../fig/sid/navig-requetes.eps}

Cela pourrait correspondre à une appréhension de la base à la fois d'un point de vue global, fournissant à l'utilisateur un moyen de résoudre ses problèmes pour embrasser le contenu de celle-ci (désorientation et surcharge cognitive) ; mais aussi d'un point de vue local puisqu'autorisant un accès libre et sans limites à l'exploration (moins dirigé vers le but à atteindre donc).

Le processus de recherche d'information devient alors une suite de requêtes et d'exploration des solutions, c'est à dire une séquence de recherche interactive avec le système. Plus encore, il convient de considérer que la recherche d'information n'est qu'une partie du processus beaucoup plus général d'utilisation d'information [41,244], d'interaction coopérative entre l'utilisateur et le système; l'objectif du second étant d'aider le premier à mener à bien une tâche d'utilisation d'information.

C'est pourquoi il est nécessaire de mettre en place des cadres permettant une réelle intégration, et non seulement une combinaison entre ces deux modalités de recherche [56,84] laquelle est, comme nous l'avons vue, favorisée par le développement de la structuration des documents. Il s'agit encore d'autoriser une << interaction riche >> entre l'utilisateur et le système comme le proposent par exemple [192], qui considèrent qu'un << espace informationnel >> doit prendre en compte :

Si nous poussons le dernier point à son paroxysme, il est en fait clair que le système informatique doit aider l'utilisateur à mener à bien une certaine tâche nécessitant l'utilisation d'information, la recherche de celle-ci étant intégrée au système lui-même. Ainsi, un logiciel idéal de traitement de texte permettrait de façon naturelle de mener des recherches sur des documents, de visualiser et de lire ceux-ci, de créer de nouveau documents, de mettre ceux-ci à disposition sur le réseau, etc. Tout le problème réside alors dans la définition du système : par exemple un système d'exploitation associé à quelques logiciels permet de gérer toute l'information sur une machine (recherche, édition, visualisation...), mais un logiciel seul ne le permet pas (quoique qu'une suite bureautique comme Star Office s'en rapproche).

Nous ajouterons aux quatre caractéristiques proposées par [192] la possibilité de mener des sessions d'exploitation longues, ce qui implique que celles-ci soient interruptibles, et qu'il soit possible d'en sauvegarder le contexte afin de pouvoir les reprendre après interruption.

.

Nous venons de présenter quelques-unes de caractéristiques des systèmes d'information documentaires << modernes >>. Nous avons vu notamment que la recherche d'information, en tant que simple phase d'un processus plus général d'utilisation de documents devait faire appel à toutes les possibilités de description offertes par les documents structurés. Il convient maintenant d'interroger à nouveau la notion de connaissance (au sens général du terme) dans le contexte de tels systèmes.

Par exemple les connaissances sur les documents sont désormais explicitées et enrichies par les données de leurs structures, les parties de documents sont elles-mêmes indexées, et peuvent être manipulées et réutilisées dans de nouveaux documents.

Les connaissances du domaine incluent les connaissances de structuration des documents de ce domaine, ce qui permet de s'en servir pour décrire et pour interroger11. Les connaissances de description peuvent également être utilisées pour naviguer directement vers certaines parties de documents comme déjà proposé il y a longtemps pour les hypermédias [174,36,175], et sont de fait connaissances du domaine.

Toutes ces connaissances doivent être partageables, partagées et évolutives. Etudiant les systèmes multimédia, [105] insiste sur le fait qu'il est nécessaire que les utilisateurs puissent accéder aux structures de métadonnées, à la fois pour rechercher des informations, mais aussi se faire une idée du domaine couvert par la base, ainsi les connaissances de l'utilisateur sur le système ne doivent pas être négligées. Par exemple, l'utilisateur peut plus ou moins bien connaître (ou deviner) l'organisation de la base de documents, l'organisation de ses descripteurs (exploration du thésaurus), et également les liens et les structures de descripteurs mis en place. Il s'agit donc de lui donner un aperçu de la manière dont sont organisés aussi bien les index que les documents, afin qu'il s'adapte au mieux de ses capacités à celles du système.

Le système documentaire devient de plus en plus complexe tandis qu'il gère des informations dont la structure n'est pas totalement connue (par exemple des liens). Il y a donc lieu que des connaissances sur les tâches des utilisateurs soient considérées, lesquelles permettront de fournir une assistance12 aux utilisateurs au cours de sessions d'utilisation.

 

La collaboration entre l'homme et la machine pour une tâche impliquant une utilisation d'information documentaire nécessite en effet que le système fournisse un ensemble de services de recherche à l'utilisateur, mais aussi soit capable d'essayer d'aider celui-ci en cas de besoin. Il s'ensuit qu'il y a lieu de modéliser (plus ou moins finement) l'ensemble des tâches connues d'utilisation du système, afin de pouvoir stocker sous la forme d'expérience des traces d'utilisation qui pourront être exploitées, d'une part afin d'apprendre de nouvelles connaissances (par exemple statistiques), qui permettront de modifier l'accès à l'information [210,78], voire les informations elle-mêmes (plus rarement) ; d'autre part dans l'objectif de pouvoir réutiliser cette expérience au besoin en y cherchant une situation équivalente à la situation présente d'un utilisateur, et en proposant des solutions plus ou moins similaires. A partir du moment où toute utilisation d'un système documentaire peut-être tracée, il devient possible à partir de ces traces d'aider l'utilisateur dans ses tâches, l'indexation elle-même pouvant être aidée par le système. Il apparaît en fait que indexeurs (documentalistes ou non) et les utilisateurs << quelconques >> ont à leur disposition les mêmes outils, et que seule la tâche d'utilisation -- la pratique -- varie. Ceci ouvre la voie à d'intéressantes possibilités, par exemple aider un utilisateur à décrire comme un documentaliste a indexé, ou un documentaliste à indexer comme des utilisateurs ont décrit.

Vers une indexation intelligente

Un système d'information documentaire idéal manipule des documents structurés, des structures de documents (organisées par les liens), des structures de connaissances d'indexation, des structures d'index et enfin des structures décrivant ses propres connaissances d'utilisation.

Il s'agit donc idéalement de décrire toutes ces connaissances comme des documents, lesquels sont décrits, indexés et manipulables dans le système y compris au niveau de leur relations. Les index prennent alors une valeur fondamentale, puisqu'ils sont à la fois informations sur les informations, et sujets de description par d'autres index, et ont donc le statut de données et méta-données.

.  

Nous définissons la notion d'indexation intelligente comme une indexation offrant dans son mode de fonctionnement/représentation même la possibilité de l'interroger sur elle-même, en tant qu'indexation et métadonnée (cf. par exemple [72]), et plus seulement en tant qu'index à traverser vers une information << brute >>. Tout document ainsi indexé offre par la description de son contenu structuré et indexé la possibilité d'inférences, de calcul sur ses index, que ceux-ci soient décrits en dehors de lui ou bien en son sein. Toute utilisation du document passe par conséquent par l'un de ses index, et tout utilisation peut être considérée comme ensemble de connaissances -- comme le sont également les index utilisés comme tels en situation d'action --. Le système est alors entièrement géré par les connaissances, puisque pour toute utilisation, tout est connaissance.

Conclusion de cette partie.

Nous avons dans cette partie introductive présenté un certain nombre de notions que nous pourrons ainsi réutiliser ou interroger dans la suite du mémoire : documents, documents numériques, documents multimédias, systèmes d'information documentaires, d'indexation, recherche d'information, connaissances documentaires, etc.

Nous avons ensuite présenté ce que serait pour nous un système d'information documentaire multimédia idéal, et vers quoi il y a donc lieu de tendre, c'est à dire vers un système prenant en compte une description plus ou moins structurée de documents, en permettant toute exploitation (et non seulement la recherche), celle-ci se basant sur des index généralisés (i.e. tout ce qui est utilisé comme tel), lesquels prennent le statut de connaissances lorsqu'ils sont explicités et utilisés. Un tel système gérera l'ensemble de ses connaissances comme des documents, et fournira une assistance à l'utilisateur dans le cadre des ses tâches, fondée sur l'expérience d'utilisations passées.

Que le lecteur ne saute pas tout de suite à la dernière page, un tel système n'existe pas encore. Il nous semble toutefois que c'est cet idéal qu'il convient d'avoir en vue lorsque l'on met en place un système d'information documentaire << moderne >>.


next up previous contents
Next: Modélisation de documents audiovisuels Up: Contexte général de la Previous: Introduction générale
Yannick Prié
2000-01-25