LES MOTEURS DE RECHERCHE
Publié le 27/04/2014
Extrait du document
LES MOTEURS DE RECHERCHE
L'invention du Web (World Wide Web), dispositif de publication de
documents permettant leur consultation via Internet, s'est accompagnée d'efforts
pour recenser les documents ainsi publiés. Ce sont d'abord des répertoires de sites
qui ont été élaborés. Ces premiers annuaires inventoriaient les sites en y associant
une courte description et les classaient par catégories de sujets, ce qui requérait un
traitement manuel. Face à la multiplication des publications en ligne, ce procédé a
rapidement atteint ses limites. Les moteurs de recherche, en automatisant le repérage
de l'information en ligne, se sont peu à peu rendus indispensables. À partir de
quelques mots clés, ils permettent de découvrir des ressources ou de trouver des
informations sur toutes sortes de sujets. Leurs performances ne cessent de progresser
: ils traitent désormais des milliards de documents, leur ergonomie et leur simplicité
d'utilisation les mettent à la portée de tous. Les moteurs les plus connus à l'heure
actuelle sont des moteurs commerciaux (Google, Bing, Yahoo!) qui tirent leurs
revenus de la publicité. Ces services suscitent régulièrement des controverses liées
aux enjeux économiques et culturels mais aussi politiques et éthiques qu'ils
recouvrent.
«
Les pages Web collectées sont analysées par un logiciel qui procède à leur
indexation .
L'indexation consiste à caractériser les pages par des mots clés pour
permettre de les retrouver.
Dans le cas des moteurs de recherche, l'extraction de mots
ou de groupe s de mots à partir des documents est automatisée .
Le moteur constitue
un index qui, pour chaque mot repéré, renvoie aux pages où ce
mot est présent.
Pour un programme informatique, un mot est une simple
suite de carac tères entre deux séparateurs (par exe mple une espace ou un signe de
ponctuation), il n'a pas de sens.
L'indexation du texte intégral pose des problèmes liés
à l'homonymie (un mot peut avoir des sens très différents, par exemple « paris » peut
correspondre aux enjeux ces joueurs, à la capitale de la France ou au personnage de la
mythologie grecque) et à la synonymie (une page comportant le mot « voiture » et
une autre le mot « automobile » ne seront pas liées dans l'index).
Certains moteurs, comme Google, ajoutent à l'index d'une page, sous cer taines
condi tions, les mots qui apparaissent dans les liens pointant vers elle.
Le procédé
permet t'obtenir d'autres termes descripteurs jugés représentatifs par ceux qui ont
signalé la page dans leur propre site.
c) LE CLASSEMENT DES RÉSULTATS
De nombreus es études scientifiques montrent que les utilisateurs de moteurs
emploient peu de mots dans leurs requêtes (à peine plus de deux mots en moyenne),
et ils ne consultent souvent que les tout premiers liens proposés dans les résultats
alors qu'il existe plusi eurs centaines de milliers voire millions de pages candidates.
Le
défi auquel sont confrontés les moteurs de recherche est non seulement de retrouver
les pages qui peuvent correspondre à la demande formulée mais surtout de classer les
résultats par pertine nce.
Pour ce faire, chaque moteur a sa propre recette qui mélange
un grand nombre de critères exprimés dans des algorithmes.
L'importance d'un mot
pour décrire une page peut être déterminée à partir de sa position dans la page (par
exemple, un mot présent dans le titre de la page aura plus de poids que les autres) ou
sa fréquence d'apparition.
Google a aussi mis en place un algorithme (appelé
PageRank) qui repose sur la popularité : plus une page est signalée par des liens dans
d'autres sites, mieux elle se ra classée.
Ce principe a été repris par d'autres moteurs
commerciaux.
d) L'INTERFACE D'INTERROGATION
L'interface d'interrogation est la seule partie visible du moteur de recherche
pour l' utilisateur .
Elle permet de formuler la demande et de consulter les ré sultats.
Deux types d'interfaces sont souvent proposés : une interface de recherche simple,
composée d'une barre de recherche et d'un ou plusieurs boutons ; une interface de
recherche avancée où l'on peut préciser sa requête en choisissant des options.
Une
fois la recherche lancée, deux catégories de liens apparaissent dans les pages de
résultats : les résultats éditoriaux ou résultats « naturels » et les liens commerciaux.
Ces liens publicitaires ont souvent une relation avec les mots choisis par l'interna ute
dans sa requête, une publicité « pertinente » qui est bien tolérée par les internautes
mais aussi parfois confondue avec les résultats éditoriaux.
Depuis 2005, les moteurs
ont reçu des directives pour faire en sorte de les distinguer plus clairement, e n les
affichant dans une colonne séparée ou en haut de la page.
Chaque résultat de la liste
correspond à un lien, accompagné du titre de la page cible et d'un court fragment
montrant les mots recherchés dans le texte.
II.
HISTOIRE DES MOTEURS
Si les moteurs se sont développés avec Internet, ils ont bénéficié de travaux de
recherche bien antérieurs.
La recherche d'information informatisée (information
retrieval) est devenue un domaine d'investigation scientifique important après la
Seconde Guerre mondiale.
Dan s les années 1960, sont apparus les premiers logiciels.
»
↓↓↓ APERÇU DU DOCUMENT ↓↓↓
Liens utiles
- Récapitulatif sur les phases de recherche à opérer pour le commentaire
- PROCÉDURE - SURSIS A EXÉCUTION C. E. 12 nov. 1938, CHAMBRE SYNDICALE DES CONSTRUCTEURS DE MOTEURS D'AVIONS, Rec. 840 (S. 1939.3.65, concl. Dayras; D. 1939.3.12, concl. Dayras)
- Introduction à la recherche documentaire
- Recherche Mucoviscidose
- La recherche scientifique est elle une recherche de la vérité