Les Moteurs de Recherche sur l'Internet

Cours CPTIC 152     Christian Oïhénart & Charles Lachat      mis à jour le 14 février 2001


Le cours en 3 clics

Yahoo

Altavista

Accès rapide aux principaux moteurs de recherche (Athena)


Table des matières 

  1. Introduction
     
  2. Présentation de l'Internet
    1. Internet en tant que ...
    2. Principaux services de l'Internet
     
  3. La recherche d'information
    1. Introduction à la recherche
    2. La recherche par navigation en utilisant un répertoire thématique
      Introduction à la navigation
      Présentation de quelques répertoires
    3.  La recherche par mot-clef en utilisant un moteur de recherche
      Introduction à l'utilisation des mots-clefs
      Présentation de quelques moteurs
      Les collections de moteurs de recherche
      Les méta-moteurs
    4.  La recherche d'autres types d'information
      Recherche dans le domaine de l'éducation
      Les listes de diffusion
      Les Newsgroups
      Les logiciels
      Les images et les sons
    5.  L'aide à la recherche (filtre à questions)
     
  4. Liste de ressources sur la recherche
     
  5. Travaux pratiques

 

 


1. Introduction

Après les premières heures passées à surfer sur l'Internet se pose forcément la question de savoir comment retrouver parmi les dizaines de millions de ressources en ligne celles qui vont fournir les informations utiles. Ce cours va donc essayer de répondre à cette question et sera articulé selon le programme suivant :

Le document de cours a été édité en format HTML, ce qui lui permet d'une part de s'affranchir du problème des plateformes, d'autre part d'être lu par Netscape, permettant alors une exploration directe des sites cités (URL).

La plus grande partie de ce cours a été construite en utilisant les ressources multiples du Net : nous avons donc repris et réarrangé des textes provenant des sites listés dans le chapitre 4. Pour des explications plus complètes, un petit tour sur ces serveurs sera donc très enrichissant !

 

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


2. Présentation de l'Internet

Il est important de bien saisir la nature de l'Internet avant d'aborder le thème de la recherche d'information, car une bonne compréhension de ses possibilités nous permettra de comprendre les différents types de données qui pourront y être trouvées.

 

2.1. Internet en tant que ...

Internet en tant que réseau international d'ordinateurs

Internet est un réseau international d'ordinateurs communiquant entre eux grâce à des protocoles d'échanges de données standard TCP/IP (Protocole de Contrôle de Transmission/Protocole Internet). Plus précisément, Internet est un réseau de réseaux: un interréseau. Le mot «Internet» vient de l'anglais «internetwork». Les différents ordinateurs branchés au réseau Internet peuvent communiquer ensemble de façon transparente pour l'usager, indépendamment des types d'ordinateurs utilisés (Mac, PC, Unix ou autres), mais en utilisant cependant les logiciels appropriés.

À l'origine (en 1969), Internet reliait entre eux les sites informatiques militaires des États-Unis. Internet s'étend aujourd'hui à la grandeur de la planète et à des sites diversifiés: gouvernementaux, de recherche et d'enseignement, d'entreprises publiques ou privées, d'individus... Le réseau continue de croître et de se diversifier chaque jour.

 

Internet en tant qu'organisation démocratique et sans but lucratif

Internet est géré par des comités de représentants pour chaque pays.

Les gestionnaires d'Internet ne se préoccupent que d'assurer la fonctionnalité du réseau. Le contenu en information des différents fichiers disponibles sur le réseau et leur organisation demeure la responsabilité des sites participants. C'est démocratique, mais parfois chaotique... Le modèle est celui de l'auberge espagnole: on y trouve ce que chacun y a mis. Bien sûr, à l'usage, certaines façons de faire se normalisent. Bien sûr aussi certains groupes peuvent tenter de contrôler ou d'influencer le contenu, pour le meilleur ou pour le pire.

Même si l'on peut dire qu'Internet est sans but lucratif, on ne peut pas dire qu'il ne coûte rien. Chaque pays, chaque institution, chaque site contribue à en assumer les frais. Si cela peut sembler gratuit pour l'usager membre d'une institution, c'est que l'institution assume la contribution financière à Internet. En dépassant le stade «militaire recherche enseignement gouvernement», Internet se commercialise. Ainsi les frais d'opération tendent de plus en plus à être redistribués aux utilisateurs, plutôt que financés en grande partie à même les deniers publics.

 

Internet en tant que bibliothèque virtuelle

On trouve sur Internet les fichiers informatiques, textes, images, sons, vidéos et autres que chaque participant au réseau a bien voulu mettre à la disposition de la communauté Internet. Oui, on peut y trouver des livres, des périodiques, des journaux, des logiciels, des films, tous en format électronique, donc «virtuel». Cependant, tout ce qui se trouve dans les bibliothèques ou les entreprises n'est pas sur Internet car, en effet, tout n'est pas disponible en format électronique et, aussi, tout n'est pas libre de droits d'auteur et de droits de diffusion. Malgré les milliers de fichiers qui se trouvent sur Internet, tout n'y est pas et ce qui s'y trouve n'est pas toujours gratuit. Chaque site organisant ses fichiers à sa guise, on se trouve plutôt en présence de plusieurs «bibliothèques virtuelles», plus ou moins bien nanties, quantitativement et qualitativement, plus ou moins bien organisées, plus ou moins redondantes, avec des objectifs et des publics cibles différents.

Plusieurs motivations peuvent amener un individu ou une organisation à diffuser gratuitement de l'information sur Internet: pour se faire connaître, par altruisme, pour communiquer, échanger, pour atteindre un public cible, pour choquer, déranger... L'avantage indéniable de la circulation de l'information sur Internet est que la diffusion est instantanée et internationale. Des liens sont créés entre les documents et les membres du réseau.

Il y a aussi des facteurs limitatifs qui empêchent la diffusion gratuite de l'information sur Internet, dont: l'absence de profits, les droits d'auteur ou droits de diffusion, la sécurité ou confidentialité, la difficulté d'avoir accès à un ordinateur serveur, les coûts de création, maintien et mise à jour de l'information sur support électronique.

L'information sur Internet est dans un état virtuel. C'est dire qu'elle n'est pas conservée à la façon bien tangible des pages d'un livre. Les sites sont éphémères. Ils disparaissent ou changent d'adresse sans préavis. L'authenticité de l'information est difficile à établir.

Il existe de plus en plus de sites payants sur Internet. La façon d'aborder ces sites est généralement différente et les clients en connaissent l'adresse et le mode d'emploi. Avec la multiplication des sites payants et la venue de l'argent électronique, on peut s'attendre à ce qu'Internet devienne un système d'information à peu près universel.

 


 

2.2. Principaux services d'Internet

Les services les plus utilisés par l'Internet sont les suivants :

 

e-mail

usager@hôte

 

forums

news:nom_du_groupe

 

telnet

telnet://hôte

 

ftp

ftp://hôte/répertoire/fichier

 

 

gopher

gopher://hôte

 

 

WWW

http://hôte/répertoire/fichier.html

 

 

Communication interpersonnelle (fonction courrier électronique)

Le courrier électronique permet aux usagers d'Internet de s'échanger des messages écrits de manière efficace et rapide. Pour s'adonner à cette activité, l'usager doit disposer d'une adresse de courrier électronique. Celle-ci est de la forme usager@hôtehôte est l'adresse Internet du serveur sur lequel l'usager possède un compte de courrier électronique.

 

Forums de discussion (Listserv ou Usenet)

Bien souvent, les chercheurs et spécialistes des universités et centres de recherche, disséminés autour du globe, se trouvent seuls de leur spécialité dans leur institution. Que ce soit pour résoudre leurs problèmes ou faire avancer leur science, ces individus ont besoin d'entrer en contact avec d'autres spécialistes comme eux. Le courrier électronique s'est vite répandu comme un moyen efficace d'établir ce contact. Cependant le courrier électronique présente au moins une limitation importante: il faut savoir a priori vers qui envoyer nos messages. C'est ainsi qu'ont vu le jour les forums électroniques. Le phénomène est vite sorti du domaine exclusif des universitaires et tout sujet est devenu propice pour la création de groupes ou forums de discussion.

Sur Internet, on trouve principalement deux types de forums. Le premier type de forum est en fait basé sur le courrier électronique. Ces forums fonctionnent par la création et le maintien d'une liste d'abonnés. L'intéressé peut s'y inscrire en envoyant un message bien défini à l'adresse du forum. Une fois que son adresse est incluse dans la liste du groupe, tous les messages postés au forum lui seront acheminés dans sa boîte postale électronique. Certains forums ont un modérateur pour filtrer les messages.

Le second type de forum se nomme Usenet. Essentiellement, tous les messages envoyés à un groupe de discussion de Usenet sont envoyés à tous les serveurs Usenet du monde. Au lieu de s'accumuler dans votre boîte de courrier personnelle, les messages des groupes Usenet sont consultables sur les serveurs Usenet. Les messages y sont conservés pendant une durée variable selon la politique institutionnelle. Pour l'usager, l'interaction avec le groupe de discussion se fait par le biais de son logiciel-client qui lui permet de lire et d'envoyer des messages. Votre navigateur peut probablement reproduire les fonctions de base d'un client Usenet en autant que l'adresse du serveur Usenet de votre institution lui soit connu. L'adresse URL pour obtenir un groupe de discussion de Usenet est de la forme : news:nom_du_groupe.

 

Accès à des serveurs à distance (fonction telnet)

L'une des fonctions importantes à l'origine d'Internet était de permettre aux chercheurs des centres de recherche et universités d'accéder à distance aux ordinateurs mis à leur disposition. Le protocole telnet sert à cette fonction. L'adresse URL pour telnet est de la forme suivante : telnet://hôte. Les catalogues des bibliothèques universitaires peuvent être consultés par le biais de telnet.

 

Transfert de fichiers (fonction FTP)

Sur Internet, il est possible de transférer des fichiers d'un ordinateur à un autre grâce au protocole FTP (File Transfer Protocol). En pratique, ce protocole permet à un usager d'accéder aux disques durs montés sur un serveur. Cet usager doit donc détenir les privilèges d'accès à ce serveur.

Il existe un grand nombre de serveurs de fichiers à accès public. La norme est de créer un compte ayant comme nom d'usager anonymous et qui ne nécessite pas de mot de passe. Si un mot de passe est demandé, il suffit d'entrer son adresse de courrier électronique. L'adresse URL prend la forme:
ftp://hôte/répertoire/sous-répertoire/fichier

Les fichiers transférés peuvent être des fichiers de texte, d'images, de logiciels. Il faut porter attention au mode de transfert (texte, binaire, etc). Un logiciel particulier de décompression peut être requis ensuite pour décompresser le fichier de façon adéquate. Ce n'est pas la fonction la plus conviviale d'Internet...

 

Accès à des sites d'information en mode Gopher

L'information présentée en mode Gopher utilise une structure hiérarchique ou arborescente de menus et sous-menus. Le mode Gopher a été créé pour faciliter la recherche et l'accès à l'information sur Internet, ainsi que sa visualisation. La croissance de «l'espace-Gopher» (gopherspace) s'est terminée alors que la domination du mode World Wide Web sur Internet s'est établie. Cependant, les menus Gopher encore disponibles demeurent toujours une source importante d'information. L'adresse URL des sites Gopher est de la forme suivante: gopher://hôte.

 

Accès à des sites d'information en mode World Wide Web (WWW)

Comme Gopher, W3 constitue une véritable bibliothèque virtuelle d'où l'on peut obtenir un très grand nombre de documents. Son taux de croissance est fulgurant et il s'établit vite comme une ressource d'information incontournable. Une des forces du W3 est qu'il donne accès à tous les services d'Internet, totalement ou en partie.

La fonction navigation en mode W3 est le mode de consultation de l'information le plus récent sur Internet. Sans éliminer les protocoles qui l'ont précédé, il les intègre. On peut donc naviguer en mode W3 et rencontrer au passage des informations en mode Gopher, en mode Telnet, en mode FTP, envoyer du courrier électronique, consulter un forum sur Usenet, etc. Votre logiciel de navigation déclenche au besoin les autres logiciels requis.

Le World Wide Web utilise le protocole HTTP (Hypertext Transfer Protocol) pour l'échange d'information entre le logiciel client, c'est-à-dire le navigateur et le serveur. C'est pourquoi l'adresse URL d'un serveur W3 se présente sous la forme: http://hôte/répertoire/sous-répertoire/fichier.html

 

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


3. La recherche d'information

Pour aller directement à : [Introduction à la recherche] [Les répertoires] [Les moteurs de recherche] [Autres données à chercher] [Filtre à questions]

3.1. Introduction à la recherche

L'information digitale disponible sur l'Internet est de nature diverse. On peut chercher des journaux, des informations institutionnelles ou au contraire privées, des logiciels, des catalogues de librairies et de bibliothèques, des adresses électroniques, des banques de données, d'images ou de sons, des contributions à des forums, etc.

A ce titre, le réseau Internet est souvent comparé à une auberge espagnole mais aussi à un labyrinthe ou à une jungle complexe de liens hypertextes dans lesquels il faut se frayer un chemin. Son ampleur et son architecture distribuée font qu'il ne se présente pas encore comme une seule base de donnée interrogeable en langage naturel ou même contrôlé, et que le recensement exhaustif de ses ressources est très difficile.
En attendant les progrès de l'intelligence artificielle, il faut donc se familiariser avec les différents outils d'aides à la recherche pour pouvoir localiser des informations, des logiciels ou des personnes. Il existe plusieurs typologies possibles de ces services, mais on en distingue habituellement deux types principaux, selon le type de recherche désirée :

 

Thème général

--> démarche exploratoire

 

Information précise

--> recherche de pointe

Utilisation de

répertoires raisonnés

faits en partie par des hommes, qui ont l'avantage de classer précisément les ressources au détriment de l'exhaustivité et de la "fraîcheur", ex : Yahoo

Utilisation de

moteurs de recherche

qui font intervenir des logiciels-robots et garantissent une meilleure exhaustivité et mise à jour, au détriment d'un classement raisonné, ex: Alta Vista ou Lycos

L'apparition de ces outils a beaucoup amélioré la situation du chercheur d'information, mais il n'y a toujours pas aujourd'hui de catalogue centralisé de toutes les ressources de l'Internet.
D'autre part, ces outils ne sont pas équivalents, aucun n'est idéal et il faut en essayer plusieurs pour une recherche optimum.
Les risques de se perdre dans "l'océan d'information-Internet" ou encore "cette gigantesque bibliothèque virtuelle et mondiale" restent donc bien réels.


Effectuer une bonne recherche ne demande pas seulement un bon équipement, des logiciels appropriés et un accès aux services, mais avant tout d'avoir une idée claire de ce que l'on cherche et de ce que l'on peut s'attendre à trouver en ligne.
En fonction de sa requête, l'utilisateur doit choisir le meilleur outil, puis apprendre son mode d'interrogation afin de l'utiliser correctement.
Il y a en effet tellement d'options possibles qu'il est essentiel de considérer attentivement les différents services pour décider de celui qui est le plus approprié à ses objectifs.
Mais là aussi, il n'y a pas de miracle, et il faut un peu de pratique pour repérer les services les plus utiles et les meilleures adresses pour son centre d'intérêt.

L'évolution des différentes aides existant sur le réseau semble indiquer que le plus grand obstacle à la pratique du réseau n'est plus l'apprentissage technique d'un logiciel mais le risque de s'y perdre, sans trouver ce que l'on cherche.
Ainsi de plus en plus de services se focalisent non plus sur la technologie mais sur les les stratégies et les outils de recherche documentaire, offrant des aides au repérage de l'information.

La question semble même s'être déplacée, et il ne s'agit même plus de trouver l'information mais de sélectionner la bonne. C'est pourquoi, certains sites s'orientent également vers l'évaluation des documents trouvés. Pour eux, l'utilisateur doit être en mesure de naviguer de manière autonome mais aussi d'évaluer le flux toujours changeant des ressources d'information.

La dernière tendance observée est qu'il ne faut pas trop s'appesantir sur la catégorisation des outils (moteurs et répertoires ont tendance à se rapprocher), ni se concentrer sur des instructions détaillées pour chaque outil de recherche disponible, mais qu'il vaut mieux insister sur les concepts généraux de recherche d'information afin de pouvoir faire face aux changements ou à la création d'outils, les logiques d'interrogation restant quant à elles assez similaires.

Chapitre 3 : [Introduction à la recherche] [Les répertoires] [Les moteurs de recherche] [Autres données à chercher] [Filtre à questions]

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


3.2. La recherche par navigation en utilisant un répertoire thématique

Introduction à la navigation

Les répertoires sont des ressources classées par sujet dans une base de données hiérarchisée du plus général au plus spécifique. Ce type de classement permet à l'utilisateur de préciser progressivement sa recherche en passant successivement d'une sous-catégorie à une autre. Ce faisant, il pourra arriver en bout de ligne à une ressource bien adaptée à ses besoins, ou encore à une liste de liens portant sur un sujet donné. Contrairement aux index, bâtis par des robots chercheurs, les répertoires sont organisés par des humains - c'est pourquoi on les appelle parfois «répertoires raisonnés». La plupart des répertoires sont interrogeables par mots clés, mais leur grande utilité tient à la possibilité qu'ils offrent de consulter un bassin de ressources classées par sujet.

Il existe actuellement plusieurs dizaines de répertoires, mais il est difficile de déterminer quel est le plus complet, tout dépendant du type de données recherchée (en sciences, en sport, en musique, ...). Certains de ces répertoires sont français et ne traitent que des sites en français, d'autres sont en en français mais présentent les ressources de l'ensemble du Web, tandis que les derniers sont en anglais et balayent tout le Web.

Il existe aussi des répertoires commentés, dans lesquels les ressources présentées sont, le plus souvent, accompagnées de textes critiques ou descriptifs. Certains de ces services font rédiger les paragraphes d'accompagnement par des rédacteurs professionnels, alors que d'autres affichent des descriptions rédigées par les responsables des ressources citées. L'utilisateur peut ainsi se faire une idée d'un site avant d'aller le consulter, le cas échéant. Quelques services attribuent même une cote aux sites répertoriés d'après des critères établis. C'est dans les répertoires commentés que l'intervention humaine est la plus marquée; il s'agit en fait du type d'outil de recherche le plus « humain » offert dans Internet de nos jours.


Présentation de quelques répertoires

Vous trouverez ci-dessous quelques uns des principaux répertoires et répertoires commentés connus, classés selon la langue.

Répertoires francophones

Yahoo France (sans doute un des plus riches)
Traitement des accents : Les caractères accentués sont remplacés par leur équivalent non accentué.
Yahoo! France permet d'effectuer des recherches dans des sites Web, des groupes de discussion ou des dépêches d'actualité. L'aide à la recherche précise la syntaxe utilisée. Il est possible d'effectuer des recherches par mots clés limitées à n'importe quelle catégorie ou sous-catégorie du répertoire. Il est même possible d'explorer la Suisse.
On peut aussi choisir les catégories équivalentes sur Yahoo et se retrouver dans une recherche sur le Web entier.
 
Eurêka (classement aussi par zone géographique, recherche d'un site francophone ou d'une personne)
Nomade Traitement des accents : Les caractères accentués sont remplacés par leur équivalent non accentué.
Penser à visiter les derniers sites référencés ou regarder la liste des meilleurs sites de la semaine.
Annuaire (L'annuaire suisse des entreprises)
Ecila recherche sur le Web en France
Francite Traitement des accents : Les caractères accentués sont remplacés par leur équivalent non accentué.
La recherche peut s'étendre à l'ensemble du Web.
 
Voila recherche également possible sur l'ensemble du Web, dans les forums et dans les dépêches AFP
Excite (France) recherche sur le Web français ou mondial

Lycos 

Hachette.net Répertoire commenté
 
 
 

Univers anglophone

Yahoo!
Clearinghouse
Excite
Galaxy
Infoseek
Magellan
WebCrawler

 

Une section de l'excellent site canadien CIDIF liste un certain nombre de répertoires avec des commentaires

Chapitre 3 : [Introduction à la recherche] [Les répertoires] [Les moteurs de recherche] [Autres données à chercher] [Filtre à questions]

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


3.3. La recherche par mot-clef en utilisant un moteur de recherche

Introduction à l'utilisation des mots-clefs

Les outils de recherche diffèrent beaucoup les uns des autres et ont chacun des caractéristiques et des fonctions qui leur sont propres. Dans la plupart des cas, on trouvera des pages d'instructions sur les sites mêmes de ces outils. Nous avons juste précisé ici quelques uns des concepts les plus courants du domaine de la recherche dans Internet.

Signalons que les outils répertoriés n'offrent pas nécessairement toute la gamme des fonctions décrites ici.

Recherche booléenne : En recherche booléenne, on utilise des opérateurs logiques pour optimiser les résultats :

Il est à noter que certains outils de recherche sont réglés par défaut sur un opérateur en particulier. Autrement dit, la requête «français Internet» pourrait dans certains cas se traduire par «français OR Internet».

Recherche par champs : Les pages Web comportent de nombreux éléments (titre, URL, texte, liens, images, etc.). Certains outils permettent de faire porter la recherche sur un ou plusieurs éléments, en spécifiant le type d'élément à rechercher. On peut ainsi optimiser considérablement les résultats ou trouver réponse à des questions précises, par exemple le nombre de pages dotées d'un lien vers une adresse donnée.

Mots clés en contexte : Les outils offrant d'effectuer des recherches de ce type renvoient en guise de résultat le mot clé recherché accompagné de x mots (x étant un nombre spécifié par l'utilisateur). C'est le type de recherche idéal pour vérifier le contexte d'utilisation d'un mot.

Recherche par groupe de mots : Ce type de recherche permet de parcourir Internet en quête de documents contenant un groupe de mots donné. Par exemple, la requête «Internet en français» (entrée dans un outil de recherche par groupe de mots) produirait une liste de documents dans lesquels les trois mots sont présents tels quels, côte à côte et dans l'ordre spécifié. Cependant, une mise en garde s'impose, car certains outils de recherche pourraient intercaler des opérateurs booléens entre les différents mots du groupe, ce qui risquerait de donner des résultats pour le moins insatisfaisants et, en plus, très nombreux.

Recherche de proximité : La recherche de proximité permet de trouver les occurrences d'un mot A situé à x mots d'un mot B (x étant un nombre de mots spécifié par l'utilisateur). Les recherches de proximité donnent généralement des résultats assez bien ciblés.

Évaluation de la pertinence : Certains outils tentent de mesurer la pertinence des résultats obtenus en les confrontant avec la requête entrée par l'utilisateur. La pertinence est habituellement indiquée sous la forme d'une cote située entre 0 et 100, ou encore entre 0 et 1000. Quelques services vont jusqu'à classer les résultats des recherches selon leur échelle de pertinence, ce qui permet de trouver plus rapidement les documents voulus.

Recherche avec troncation : La troncation permet de récupérer les documents contenant un mot donné ainsi que ses variantes morphologiques. Si, par exemple, le caractère générique (celui qui remplace les lettres tronquées) est l'astérisque (*), la requête «fran*» donnera une liste de documents contenant les mots «français», «francisation», «France», «franc», et ainsi de suite. On aura tout intérêt à placer judicieusement le caractère générique, car les recherches avec troncation risquent de donner un très grand nombre de correspondances. Enfin, on notera que le caractère générique à utiliser peut varier selon les services.

Notons encore qu'il vaut mieux éviter de mettre des accents dans vos mots-clés lorsque vous utilisez un outil de recherche anglophone (par ex., cherchez ecole plutôt que école)


Présentation de quelques moteurs

Vous trouverez ci-dessous une liste importante de moteurs de recherche, dont certains ont déjà été listés dans la liste des répertoires étant donné que ces derniers comprennent très souvent des moteurs de recherche. Il n'a bien sûr pas été possible de les tester tous !

Alta Vista
Mode d'emploi succinct
AltaVista, qui n'a débuté qu'en 1995 chez Digital [racheté en 1998 par Compaq], est un des systèmes de recherche les plus puissants de sa catégorie. Il donne accès à une base de données contenant 30 millions de pages. Cet outil contient des informations sur les ressources WWW, Gopher, FRP et Usenet, mais il ne peut trouver une adresse électronique.
L'engin offre un module de requêtes simples et un module de requêtes évoluées.
 
Requête simple
  • hum* : la troncature remplace n'importe quelle séquence de caractères (pas plus de 5 caractères)
  • femme fatale : cette requête trouvera les pages contenant soit "femme", soit "fatale", soit les deux. Equivaut à OU
  • table;bois : cela force AltaVista à trouver les pages avec ces deux mots, dans cet ordre
  • "table bois" : comme la recherche précédente
  • +livre -nature : sélectionne les pages avec le mot livre, mais pas le mot nature (équivaut à un AND NOT)
  • si vous utilisez des majuscules dans votre requête, la recherche se fait sur les correspondances exactes ("le Pétrole" ne donnera pas les pages contenant "le pétrole"), alors que si vous ne mettez que des minuscules, il trouvera toutes les combinaisons possibles.
  • ces remarques sur les majuscules s'appliquent aux accents

Requête évoluée

  • vous devez utiliser les opérateurs binaires AND, OR, NEAR et l'opérateur unaire NOT pour combiner les mots et les phrases.
  • vous pouvez utiliser des parenthèses pour grouper des expressions de recherche.
  • l'opérateur NEAR garantit que les deux éléments figurent à moins de dix mots l'un de l'autre.
  • l'opérateur AND NOT est utilisé pour exclure des mots ou des phrases d'une requête.
  • exemple : la requête (argent NEAR or) OR (platine NEAR or) donnera les pages où l'on trouve le mot argent à proximité du mot or, ainsi que des documents où les mots or et platine sont proches.
  • les requêtes évoluées sont surtout utiles pour trouver des pages delon la date de leur "capture" par Altavista.
  • il faut en tout cas remplir le champ RANK.

Recherches restrictives (dans les requêtes simples)

 
Il est aussi possible dans AltaVista de limiter les recherches à certaines parties de documents à l'aide de la syntaxe suivante. Seuls certains exemples sont donnés : le mot-clef doit être en minuscule et aussitôt suivi de deux points.
  • title:"ours brun" Trouve des pages avec ours brun dans le titre
  • link:jospin Trouve des pages avec au moins un lien à une page comprenant jospin dans son adresse URL.
  • host:apple.com Trouve des pages dans lesquelles apple.com figure dans le nom hôte du serveur Web.
  • image:joconde.gif Trouve les pages contenant une image avec pour nom joconde.gif.
  • Il est aussi possible de limiter la recherche selon la date de modification du site
 
Pour en savoir plus, vous pouvez consulter l'aide en ligne disponible sur le site d'AltaVista.
 
 
Northernlight
Cité comme le moteur de recherche le plus puissant dans une étude de novembre 1999. Ignore les accents.
 
Google
Un moteur rapide et efficace, sans publicité. Requêtes simples: si on indique plusieurs mots séparés par des espaces, Google cherche toutes les pages qui contiennent tous ces mots. Tient compte des liens qui pointent vers les sites trouvés. Intéressant: un accès à toute page trouvée sur Google même, en cache.
 

Alltheweb

Nouveau venu; très complet
 
Simplesearch

Nouveau venu; simple

 
HotBot (USA)
C'est une des plus grosses bases de données sur le marché. Hélas, cela se paye par un affichage plutôt lent. La recherche peut se faire en mode standard et expert; dans les deux cas, on entre les mots-clefs et on les relie en choisissant une option dans un menu déroulant. On peut cherche des ressources en fonction de la date. de leur aspect (image, scripts Java, ...), de leur localisation (nom de domaine ou lieu géographique), on peut chercher dans le Web, dans Usenet, au niveau des noms de domaines, des adresses électroniques, ...
 
Excite (USA) et Excite (France)
Le robot d'Excite indexe le Web et Usenet. La base indexée est de plus de 50 millions de pages et le temps de réponse est correct. Les opérateurs de recherche possibles sont : + - AND OR AND NOT (). La recherche peut se faire sur l'ensemble du Web ou sur le répertoire d'Excite. Il y a une recherche avancée proposée dont l'interface est très séduisante. Le site français permet de limiter la recherche au Web francophone ou européen.
Infoseek (USA)
Base de données très large, documents W3 et Usenet. Les opérateurs ne sont pas conventionnels, mais leur richesse permet d'élaborer des expressions de recherche très complexes.
Lycos et Lycos (France)
La version France permet une recherche sur le Web francophone ou mondial ainsi qu'une recherche de sons ou d'images. La version USA permet aussi d'effectuer des recherches sur des livres, sur les Newsgroups et sur le Top 5%.
 
Search pour rechercher sur le Web en Suisse

Les collections de moteurs de recherche

Les collections d'outils (listent de très nombreux moteurs sur une même page)

Clearinghouse
All-in-One Search Page Moteurs de recherche classés par catégories
CUI W3 Search Engines Méta-index avec idées d'autres ressources à chercher
CUSI Index du WWW avec classement par type de ressources.
Find-It!
Les principaux outils de recherche conseillés par Sapristi
Tous les outils de la recherche en une page par le Conseil Interuniversitaire de la Communauté française de Belgique
 
 

Les courtiers de recherche (possibilité d'interroger simultanément plusieurs moteurs de recherche)

DogPile
Effectue des recherches sur le Web, Usenet et ftp. Ce courtier est particulièrement impressionnant : il interroge pas moins de 25 engins de recherche, supporte la syntaxe booléenne (et la modifie selon les engins de recherche à qui il envoie sa requête), limite sa recherche à un temps donné et permet enfin d'effectuer simultanément une recherche sur le Web et par exemple Usenet. Les résultats obtenus sont ensuite listés par outil de recherche.
Search
MegaFrancité cliquer sur le bouton Mega Francité permet l'interrogation de plusieurs moteurs de recherche

 

Chapitre 3 : [Introduction à la recherche] [Les répertoires] [Les moteurs de recherche] [Autres données à chercher] [Filtre à questions]

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


3.4. La recherche d'autres types d'information

De multiples autres types de ressources peuvent être trouvés sur le Web et de très nombreux outils de recherche vus précédemment peuvent être utilisés pour rechercher des images, des sons, des news, des adresses électroniques, des logiciels, .... Nous avons listé ci-dessous quelques sites spécifiques à ces données.

Et d'abord, il faut citer GIRI 2 (le guide des indispensables de la recherche dans l'Internet) pour une approche stratégique et sélective de la recherche d'information dans Internet.

 

Recherche dans le domaine pédagogique

Educasource (Ministère de l'éducation nationale, France)

Recherche d'images et de sons

Image Search
Clip art search engine (Métasite de recherche sur plusieurs outils de recherche)
Mapquest (cartes de géographie)
Lycos permet d'effectuer une recherche spécifique pour des images et des sons (bouton de choix)
Alta Vista permet d'entrer des recherches spécifiques, telles image: et sound: ou de rechercher dans les collections
HotBot
Francite
 

Recherches de logiciels

shareware.com
Filemine
TuCows
Tile-Net (liste de sites ftp)
 

Recherche dans les forums de News (Usenet) et dans les listes de diffusion (mailing lists)

De très nombreux moteurs de recherche offrent la possibilité de rechercher dans les forums, mais certains comme Deja se sont spécialisés dans ce rôle.

Deja Extraordinaire outil pour découvrir les News (regarder en haut à droite !)
Liszt Présentation de mailing lists
Francopholistes Toutes les listes de diffusion francophones
Metacrawler
Voila
 

Recherche d'une adresse électronique

Cette recherche s'avère difficile, car il faut que les personnes possédant une adresse email s'inscrivent dans ces répertoires.

WhoWhere? et WhoWhere? France)
Yahoo people search
Wanadoo
Infospace
 
 
 
Chapitre 3 :[Introduction à la recherche] [Les répertoires] [Les moteurs de recherche] [Autres données à chercher] [Filtre à questions]

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


3.5. L'aide à la recherche (filtre à questions)

Ce filtre à questions a été trouvé sur le site GIRI 2 (Guide des indispensables de la recherche sur Internet)

adresse

Vous cherchez l'adresse électronique (E-mail) d'une personne ou d'un organisme? (NB: aussi adresses postales, codes postaux et nos de téléphone pour Canada et États-Unis)

association

Vous cherchez un site W3 d'une association, d'un organisme, d'un congrès, d'un colloque ou conférence?

banque de données

Vous cherchez une banque de données accessible via Internet?

bibliothèque

Vous cherchez le site W3 ou le catalogue d'une bibliothèque?

biographie

Vous cherchez des éléments biographiques de personnes célèbres?

dictionnaire

Vous cherchez sur Internet un dictionnaire ou lexique?

éditeur

Vous cherchez un catalogue d'éditeur ou distributeur de livres ou autres documents?

FAQ

Les FAQ sont des pages W3 qui répondent aux questions fréquemment posées. On peut les appeler "Foire aux questions". Plusieurs sites et groupes de discussion sur Internet en sont dotés.

gouvernement

Vous cherchez une information gouvernementale ou internationale?

image

Vous cherchez des images ou icones pour illustrer vos documents?

journal

Vous cherchez sur Internet la diffusion de journaux ou nouvelles?

liste

Vous cherchez une liste, un groupe, un forum de discussion?

logiciel

Vous cherchez un logiciel (software), un partagiciel (shareware), un gratuitiel (freeware)?

norme

Vous cherchez un organisme de normalisation ou une norme internationale ou nationale?

nouveauté

Vous voulez suivre les nouveautés qui paraissent sur Internet?

périodique

Vous cherchez le site W3 d'un périodique, d'une revue?

statistique

Vous cherchez des informations de nature statistique?

temps et $

Vous cherchez un calendrier, un fuseau horaire, la météo, un taux de change?

texte

Vous cherchez un texte en version intégrale sur support électronique?

université

Vous cherchez le site W3 d'une université ou d'un collège?

tout Web

Vous cherchez une information susceptible de se trouver dans un site W3?

tout Usenet

Vous cherchez une information susceptible d'avoir été traitée dans un forum de discussion?

Chapitre 3 :[Introduction à la recherche] [Les répertoires] [Les moteurs de recherche] [Autres données à chercher] [Filtre à questions]

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


4. Liste de ressources sur la recherche

 

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]


5. Travaux pratiques

Voici quelques idées de recherches à effectuer, mais chacun est bien sûr libre dans chaque module de rechercher les informations qu'il souhaite !

Séance 1 de 09h30 - 10h00

Séance 2 de 11h00 - 12h00

Séance 3 de 14h00 - 14h30

 Séance 4 de 15h15 - 15h45

Séance 5 de 16h15 - 16h45  

 

[Table des matières] [Introduction] Présentation de l'Internet] [La recherche d'information] [Liste de ressources] [Travaux pratiques]