Moteur de recherche – Un moteur de recherche est un logiciel permettant de trouver sur Internet des
ressources (pages web, forums, images, vidéo, fichiers, etc.) associées à des mots quelconques. Google,
yahoo, sont des exemples de moteurs de recherche.
Des « robots », encore appelés bots, spiders, crawlers ou agents, parcourent les sites à intervalles réguliers et
de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de
nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés
sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données (organisée
comme l’index d’un livre), accessible ensuite par les internautes à partir de mots-clés. Les mots-clés sont
associés à une valeur de « poids » qui correspond à la probabilité d’apparition dans un document. Cette valeur
permet de présenter les résultats des recherches par ordre de pertinence supposée. Les algorithmes de
recherche font l’objet de très nombreuses investigations scientifiques. Les moteurs de recherche les plus
simples se contentent de requêtes booléennes pour comparer les mots d’une requête avec ceux des
documents. Les moteurs plus évoluées utilisent la formule TF-IDF pour mettre en perspective le poids des mots
dans une requête avec ceux contenus dans les documents. Pour améliorer encore les performances d’un
moteur, il existe de nombreuses techniques, la plus connue étant celle du PageRank de Google qui utilise un
indice de notoriété de pages. Les recherches les plus récentes utilisent la méthode dîtes d’analyse sémantique
latente qui tente d’introduire l’idée de co-occurrences dans la recherche de résultats (le terme « voiture » est
automatiquement associé à ses mots proches tels que « garage » ou un nom de marque dans le critère de
recherche) Elle permet d’établir des relations entre un ensemble de documents et les termes qu’ils contiennent,
en construisant des « concepts » liés aux documents et aux termes.
On trouve également des métamoteurs, c’est-à-dire des sites web où une même recherche est lancée
simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être présentés à
l’internaute).
