Le livre blanc

Autres manières de rechercher de l’information

Notre sujet de travail, nous a permis d’explorer plusieurs pistes de recherche et de réflexion. Avant d’arriver à une synthèse des API vu ci-dessus, nous avons trouvé des « purs » moteurs de recherche. Il est intéressant d’en tenir compte, pour suivre leur évolution qui pourrait les amener à rentrer dans la catégorie API.

Voici la liste de ces moteurs que nous avons étudiés :

CSTB : Abréviation de Centre Scientifique et Technique du Bâtiment, il constitue une base de données qui regroupe une sélection de publications et divers écrits de nature scientifique ou technique rédigés par des ingénieurs et chercheurs du CSTB.

GoogleScholar : C’est le moteur de recherche de documents de Google. Il permet d'effectuer facilement une recherche étendue portant sur des travaux universitaires. Ces travaux peuvent provenir de sources telles que des éditeurs scientifiques, des sociétés savantes, des référentiels de prépublication, des universités et d'autres organisations de recherche.

Hal : C'est une archive ouverte pluridisciplinaire qui est destinée au dépôt et à la diffusion d'articles scientifiques de niveau recherche, publiés ou non, et de thèses, émanant des établissements d'enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

OJOSE (Online Journal Search Engine): C’est un moteur de recherche de publication scientifique gratuit. Une requête peut être soumise sur plusieurs bases de données (60 bases différente) juste en un clic. On peut télécharger ou acheter les publications scientifiques trouvé.

OpenDOAR : Il est différent des autres, car il ne propose pas des articles en tant que résultat, mais des URL de base de données. OpenDoar répertorie des bases de données académiques. Ces bases de données sont « Open Access ». Et donc une fois en possession de ces URL on peut parcourir ces différentes bases de données.

OpenSIGLE : C’est un site qui signale la littérature grise européenne. Divisé en deux communautés : aux pays ayant participé à SIGLE d'une part, et aux catégories principales du plan de classement SIGLE, de l'autre. SIGLE est une base de données - System of Information on Grey Literature in Europe – de la littérature grise en Europe. Dans chacune de ces communautés, un nombre illimité de collections peut être défini, qui peuvent comporter un nombre illimité de documents.

Persée : C’est un portail de revues en sciences humaines et sociales. Il nous permet de trouver des publications dans ces domaines.

Reader Meter : Ce site est un peu différent des autres, car il permet de mesurer l’impact de publieurs dans leur domaine. De plus, il fournit un classement des articles/livres en fonction de la popularité, les coauteurs des publications, ainsi que le profil des lecteurs et leur localisation.

Refdoc : Ce site nous fournit plus de 50 millions de références d’articles, ouvrages, rapports, actes de congrès, en science, technologie, médecine, sciences humaines et sociales, depuis 1847 à nos jours.

Scirus : C’est un outil de recherche scientifique sur le web. Avec plus de 410 millions d'articles scientifiques indexés au dernier décompte, il permet aux chercheurs de trouver des informations dans les sites web et le contenu des revues, mais également les pages d'accueil des scientifiques, les brevets et les dépôts institutionnels.

Dans le domaine de la recherche d’information, il existe aussi les méta-moteurs et les systèmes multi-agents.

Les méta-moteurs sont des outils de recherche sur internet qui permettent d'adresser simultanément une même requête à différents moteurs de recherche. Ils sélectionnent les réponses en fonction de leur pertinence. Les critères de pertinence diffèrent selon les méta-moteurs. Certains ne retournent pas la totalité des réponses fournies par un moteur de recherche en particulier.

Le vrai inconvénient de ces outils est qu'ils ne reprennent pas les fonctions avancées des moteurs de recherche (recherche dans les champs, dans les domaines etc.). De plus les requêtes valables pour un moteur ne le sont pas toujours pour un méta moteur. On identifie 3 générations différentes de méta-moteur, selon leur niveau de perfectionnement.

Méta-moteurs de 1ère Génération

Dogpile.com

Ce méta moteur permet d’interroger 5 moteurs de recherches simultanément, puis il effectue un tri afin de ne restituer que les meilleurs résultats.

Ces 4 moteurs sont :

  • Google
  • Yahoo
  • Bing
  • Ask

Search.com

Identique à dogpile, il permet d’interroger les moteurs suivants :

  • Google
  • Ask
  • Msn
  • DMOZ

Il n’y a pas d’API mais le site nous redirige vers un outil logiciel permettant d’effectuer des recherches : http://www.webferret.com/

Metacrawler

Il est basé sur le même principe que les précédents et interroge Yahoo, Google et Bing.

Méta-moteurs de 2nde génération

Ce sont des logiciels plus intelligents que les méta-moteurs de 1ère génération. Ils permettent d’éliminer les doublons, d’enregistrer les résultats pour une consultation hors ligne, etc.

On retrouve notamment Copernic, WebHaker/ WebSeeker et ECatch.

Méta-moteurs de 3ème génération

Les méta-moteurs de 3ème génération sont les plus sophistiqués, ils sélectionnent les sites dans différents moteurs, éliminent les doublons et affichent les résultats selon des critères de pertinence ou par type de document.

Les méta-moteurs permettent d'interroger simultanément plusieurs moteurs de recherche avec une même requête (du moins pour les méta-moteurs de génération 2 et 3). Les résultats de la requête sont issus de plusieurs bases de données, ce qui permet une plus grande couverture de l'Internet. Le principal avantage des méta-moteurs est donc l'exhaustivité.

Mais la même requête est envoyée à tous les moteurs, il est dès lors impossible de faire une requête complexe puisque chaque moteur utilise une syntaxe propre. L'usage des méta-moteurs se limite donc souvent à des recherches simples.

DigOut4U

DigOut4U est un système automatique de recherche sémantique d'information sur le Web conçu par la société Arisem. Il permet de poser une requête multilingue (anglais, français) en langage naturel sur plusieurs moteurs de recherche en même temps. Les résultats sont analysés, téléchargés sur votre ordinateur et classés. Les pages doublons comme celles comportant une erreur (404 par exemple) ne sont pas prises en compte. Une requête peut être redéfinie afin de trouver des résultats plus pertinents (recherche en entonnoir).L'analyse sémantique doit permettre de réduire les problèmes de bruit, ou de silence, ainsi que le volume d'information. Un de ces inconvénients, est qu’il ne fonctionne pas sous Windows Seven.

Un agent est une entité réelle ou virtuelle, évoluant dans un environnement (complexe), capable de le percevoir et sur lequel elle peut agir (en conséquence).

Les agents peuvent être un outil complémentaire à l’utilisation d’API. Grâce à leurs mécanismes d’intelligence, ils peuvent améliorer les résultats, affiner les recherches et mieux exploiter ces résultats.

Livre blanc en PDF