vmagnin@univ

Accueil > Enseignement > Cours gratuits > Information Scientifique et Technique > Moteurs de recherche

Moteurs de recherche

Mis à jour le 5 mars 2020

jeudi 6 juillet 2006, par Vincent MAGNIN

Comment fonctionne un moteur de recherche ?

Un moteur de recherche est une base de données que l’on peut en fait diviser de la façon suivante :

  • le moteur lui-même, que l’utilisateur interroge via une interface graphique,
  • le robot d’indexation, chargé de nourrir la base de données.

Le moteur

Quand l’utilisateur tape des mots-clés dans son navigateur, ceux-ci sont transmis à un serveur du moteur de recherche. Le serveur cherche les mots-clés dans la base de données, récupère la liste des adresses des pages internet contenant ces mots, et enfin exécute un algorithme permettant de classer les résultats. Ceux-ci sont alors envoyés à l’utilisateur.

L’algorithme de classement peut par exemple prendre en compte la présence des mots-clés dans les corps et titres des documents, dans les liens, mais peut aussi prendre en compte la popularité du site (nombre de liens pointant vers ce site et popularité des sites pointant vers lui), élément clé de l’algorithme PageRank popularisé par Google en 1998 et qui a fait son succès.

Le robot d’indexation

Le robot d’indexation est en fait composé de serveurs chargés de parcourir constamment le web, de récupérer toutes les pages trouvées, de les analyser en y repérant en particulier des mots-clés, et enfin de mettre ces analyses dans la base de données. Quand un robot trouve des liens sur une page web, il les suit de façon à explorer la toile de la façon la plus exhaustive possible.

Il existe assez peu de véritables moteurs de recherche, l’indexation du web nécessitant des investissements très lourds en terme de serveurs. Les autres moteurs sont souvent des métamoteurs, utilisant en fait les résultats des principaux moteurs du marché.

Les meta-moteurs

Les meta-moteurs interrogent d’autres moteurs et recoupent les résultats avec leurs propres algorithmes. Certains permettent de renforcer la confidentialité de vos requêtes.

Moteurs de recherche et confidentialité

La plupart des grands moteurs essayent de profiler leurs utilisateurs, en conservant en particulier la liste des mots-clés que vous tapez ou des liens sur lesquels vous cliquez. Si vous êtes connectés sous un compte appartenant à l’entreprise gérant le moteur, il est aisé de vous identifier. Sinon, on peut également essayer d’utiliser votre adresse internet (adresse IP), un cookie (petit fichier créé par le navigateur sur ordre du site et pouvant contenir un identifiant) ou l’empreinte (visitez par exemple le site https://amiunique.org/) de votre navigateur en se basant sur sa version, la liste des extensions installées, la définition de votre écran, etc.

Un des objectifs de ce profilage est en particulier de vous fournir de la publicité ou de vendre des données à d’autres entreprises. De plus, certains moteurs peuvent collaborer avec des services secrets. Dans le cadre d’une utilisation professionnelle, n’oubliez pas que les mots-clés que vous tapez et les documents que vous consultez peuvent trahir des informations confidentielles.

Pour en savoir plus, consultez :

Depuis les scandales ayant mis au grand jour certaines pratiques, un créneau s’est ouvert pour de nouveaux moteurs de recherche plus respectueux de la vie privée (ou professionnelle) :

  • DuckDuckGo (https://duckduckgo.com/) : moteur américain qui utilise les résultats d’autres moteurs tels que Bing ou Yahoo ! mais sans vous pister.
  • Searx (https://searx.laquadrature.net/, basé en France) : il s’agit
    d’un métamoteur dont le code source est sous licence libre. Il existe donc
    sur plusieurs sites. Le site https://searx.me/ (basé en Allemagne)
    permet en plus de consulter les pages de façon anonyme via un proxy.
  • Qwant (https://www.qwant.com/) : basé en France. Se décline également en Qwant Junior pour les enfants et en Qwant Music.

Chaque moteur propose en général une page "Politique de confidentialité" (Privacy Policy) qu’il est intéressant de consulter pour savoir ce qu’il advient de vos données.

Syntaxe avancée de Google

Certains moteurs, comme Google, offre une fenêtre de recherche avancée dans laquelle l’utilisateur peut remplir différents champs et régler certains paramètres, afin d’affiner sa recherche. Mais la plupart des moteurs offrent également une syntaxe avancée permettant d’affiner la recherche directement. Cette syntaxe est décrite dans la page d’aide de chaque moteur.

Comment mener une recherche efficace ?

Mener une recherche efficace sans se laisser submerger demande une certaine pratique. Aucun moteur ne couvrant la totalité des milliards de pages web, il est utile de connaître les caractéristiques de quelques moteurs que l’on aura choisis selon ses besoins. En effet, la pertinence des documents proposés par le moteur ne dépend pas uniquement de la puissance et des qualités du moteur, mais également de la capacité de l’utilisateur à formuler la "bonne" requête. La syntaxe et les opérateurs disponibles dépendent du moteur choisi. Ces informations sont généralement proposées dans une rubrique nommée "aide" ou "help". Lisez-les, elles peuvent vous faire gagner un temps considérable. Certains moteurs disposent d’un mode "recherche avancée" (power search, advanced search…) mais connaître les opérateurs de base permet d’être plus efficace.

Préciser au maximum la recherche

Si vous ne fournissez qu’un ou deux mots-clés, vous risquez d’être submergé de réponses. Si vous fournissez trois ou quatre mots-clés biens choisis, les réponses seront probablement moins plétoriques et plus pertinentes.

Distinguer les groupes nominaux

Dans la plupart des moteurs, on peut distinguer les groupes nominaux en les encadrant par des guillemets. Alors que la requête effet de serre aboutira à une liste de sites contenant les trois mots, pas forcément adjacents, la requête "effet de serre" permettra de se limiter aux sites où l’on parle de ce phénomène.

Eviter les polysémies

Certains mots ont plusieurs sens (on parle de polysémie). Par exemple, une requête utilisant serre peut mener à des sites parlant des bâtiments ou à des sites sur les oiseaux, et le Petit Robert répertorie encore deux autres sens de ce mot. Mieux vaut donc éviter les mots ayant plusieurs sens en les remplaçant si possible par des synonymes ou en ajoutant d’autres mots-clés : par exemple, si l’on s’intéresse aux serres des oiseaux on effectuera la requête serres oiseaux.
On peut également exclure les sites contenant un mot ou un groupe nominal en utilisant, selon les moteurs, l’opérateur - ou NOT. Par exemple, si l’on s’intéresse aux bâtiments appelés serres, on pourra effectuer la requête serre -oiseau ou serre NOT oiseau. Cela peut s’avérer très utile en cas de polysémie dans différentes langues, en particulier pour les sigles et acronymes : MBE...

Utiliser un joker

Le caractére * (astérisque) joue généralement le rôle de joker : il remplace une lettre ou un groupe de lettres. Par exemple, la requête microscop* portera aussi bien sur les mots microscope, que microscopes, microscopie, microscopique, microscopy (en anglais), etc. Cela peut s’avérer utile pour élargir la recherche quand on ne trouve aucune réponse.

Cherche un type de fichier précis

L’opérateur filetype: permet de chercher des fichiers pdf, doc, xls, odt, rss, txt, etc. Par exemple microscopie filetype:pdf. Il peut également être précédé d’un moins afin d’exclure un type de fichiers.

Limiter la recherche à un domaine internet

L’opérateur site: permet de limiter la recherche à un domaine ou sous-domaine internet. Et il peut bien sûr être précédé d’un moins pour filtrer.

Faites l’expérience avec :

matériaux site:www.polytech-lille.fr
"stage ingénieur" site:be
"stage ingénieur" -site:fr
"ingénieur" site:gouv.fr

Exercice

Pour exercice, comparez les résultats fournis (sites, quantité…) par les différentes recherches ci-dessous :
· Utilisez plusieurs mots-clés bien choisis : microscopie électronique (ou electron microscopy).
· Utilisez des astérisques pour prendre en compte différentes terminaisons : microscop* permettra avec certains moteurs de chercher aussi bien " microscopie " que " microscopy ".
· Utilisez des opérateurs logiques OR et NOT (ou -). L’opérateur NOT ou un signe moins permettent généralement d’exclure les pages contenant un terme donné. L’opérateur OR peut par exemple servir à faire une recherche multilingue : microscopie OR microscopy. Enfin, on peut créer des requêtes plus complexes en utilisant des parenthèses.
· Utilisez des guillemets pour trouver des groupes nominaux : "microscope électronique à balayage"


Chapitre suivant...