Optimisation de la recherche d'information sur l'Internet

Titre

Optimisation de la recherche d'information sur l'Internet

Numéro du module:

4MI & 4 TIC

Auteurs:

Daniel Hugentobler, Grégoire Mabillard, Jean-Paul Moret, Cédric Pillet

Date

20 novembre 2002

Numéro de version:

1

Discipline ou domaine:

TIC

Objectifs en termes de résultats d'apprentissages :

Connaître les différents outils de recherche pour l'Internet
Maîtriser une méthodologie de recherche sur l'Internet

Dimensions

F1 / F2

Public cible :

Formateurs et élèves

Type de démarche pédagogique :

Exploratoire / informative / formative

Résumé:

La pratique montre qu'il faut posséder
certaines connaissances théoriques pour pouvoir
effectuer une recherche efficace avec l'Internet.

:

Moteur de recherche, annuaire, forum, méthodologie

 

1. Préambule

Ce scénario peut être proposé indépendamment de ce qui est exposé dans la première partie. Il va également de soi que le scénario ci-après peut être utilisé de plusieurs manières. On peut par exemple dans la théorie n'aborder que la partie méthodologie et la partie recherche d'images ou ne traiter que les moteurs de recherche en général. Les possibilités d'utilisation de ce scénario sont donc très diverses et dépendent également du niveau de base, soit des enseignants, soit des élèves.

 

2. Pré-requis

Compétences informatiques

· Connaître les notions de base d'un logiciel qui permet de surfer sur Internet

Matériel

· Un ordinateur par groupe de 3 avec une connexion à Internet

 

3. Introduction

Internet est devenu un outil incontournable pour la société du XXIème siècle. Son essor est sans fin et la richesse des informations qu'il contient immense. Le nombre de documents est tel et la variété des sujets présentés si vaste qu'Internet est considéré par beaucoup comme une source intarissable d'informations, de renseignements et de documentation. De plus, le développement des technologies de communication et la démocratisation des micro-ordinateurs en font un media facilement accessible par le grand-public.

Le World Wide Web représente la plus grande bibliothèque du monde et illustre les divers aspects de la société actuelle. Environ 2 milliards de pages sont diffusées sur la toile. De plus, chaque utilisateur du réseau peut être à la fois lecteur, producteur ou diffuseur d'informations. Face à une telle dynamique, quiconque essaie de produire un catalogue se rendra très vite compte de la difficulté de la tâche qui l'attend. À peine l'ouvrage est-il sorti de l'imprimerie qu’il sera dépassé. En effet, les adresses et les serveurs naissent et meurent rapidement ne laissant d'autre trace qu'un message du style "Error 404 site not found". Les tentatives des pionniers du réseau de compiler des listes de sites ont été rapidement submergées par l'essor gigantesque d'Internet qui a rendu dérisoires ces efforts pourtant méritoires.

Trouver des informations précises dans cet environnement touffu et désordonné n'est pas tâche aisée. Aux difficultés dues à la taille du Web et à l'absence de structure s'ajoutent les obstacles relatifs à la nature de son contenu:

· l'hétérogénéité des données
· l'instabilité des localisations
· le multilinguisme
· son renouvellement continuel

Pour exploiter au maximum le potentiel d'Internet, le recours à des logiciels d'aide à la recherche s'avère donc indispensable.

Aujourd'hui, de nombreux outils de recherche sont disponibles pour assister l'internaute dans sa quête d'informations. Qu'ils s'appellent Yahoo!, Excite, AltaVista ou Google, ils se regroupent en diverses catégories dont les principales sont:

· les annuaires
· les moteurs de recherche
· les moteurs au sein des groupes de discussion
· les métamoteurs de recherche
· les agents

Ils ont été mis au point par des sociétés américaines pour la plupart. Ces robots informatiques sillonnent les mailles du réseau, repèrent les sites et les répertorient dans de colossales banques de données. À partir des , ils recherchent en quelques secondes l'ensemble des sites susceptibles de fournir l'information recherchée. Tout internaute, débutant ou confirmé, aura recours à ces programmes de recherche pour se diriger dans les méandres du cybermonde. Toutefois, la connaissance des outils de recherche et la maîtrise de leur syntaxe de requête restent des conditions nécessaires à une recherche d'information efficace. Il convient donc d'établir une présentation des différents outils et de leurs caractéristiques, afin d'optimiser le choix de l'outil et la stratégie de recherche.

 

4. Développement


Phase découverte (durée 2 x 45 minutes)

Les élèves ou les formateurs (groupe de 3) reçoivent quelques exercices de recherche d'informations sur l'Internet du style :

· Quel temps fera-t-il en Suisse demain ?
· Trouvez le site officiel de la Nasa ?
· Trouvez des images sur la ville de Sion !
· Trouvez des photos des différentes œuvres de Klimt !
· Trouvez des photos de la dernière Ferrari F1 de Schumacher
· Quel est le cours de l'or aujourd'hui ?
· Cherchez une biographie et des informations sur Mozart
· etc.

Les questions auxquelles il faut répondre sont les suivantes :

· Avez-vous oui ou non trouvé l'information ?
· Avec quel outil l'avez-vous trouvée ?
· Combien de pages avez-vous visitées avant de trouver l'information ?
· Combien de temps avez-vous utilisé pour votre recherche ?

Après cette phase on procède à une mise en commun des différentes expériences vécues durant l'exercice de recherche.

Phase théorique (10 x 45 Minutes)

Cette phase vise à faire connaître quelles sont les ressources à disposition sur le web afin d'optimiser une recherche.

Les notions théoriques abordées sont :

De plus, une méthodologie générale de la recherche est développée, ainsi que des recherches par thèmes plus spécifiques telles que :

 

Phase pratique (2 x 45minutes)

Après la phase formative, les élèves ou les formateurs (groupe de 3) reçoivent des exercices de recherche d'informations sur l'Internet similaires au début du scénario, mais d'un niveau de difficulté supérieur :

· Trouvez un site qui présente les différentes médailles de l'armée américaine
· Trouvez le discours de Kennedy prononcé à Berlin
· Trouvez le meilleur buteur de tous les temps lors de championnat du monde de foot
· Trouvez la formation du FC Sion qui a remporté la 1ère Coupe de Suisse pour son club
· Trouvez des photos sur la ville de Brigue lors des inondations qu’elles a subies
· Trouvez des images de la Ferrari 250 GTO de 1964
· Trouvez des images du premier pas de l'homme sur la lune
· Etc.

Les questions auxquelles il faut répondre sont les suivantes :

· Avez-vous oui ou non trouvé l'information ?
· Avec quel outil l'avez-vous trouvée ?
· Combien de pages avez-vous visitées avant de trouver l'information ?
· Combien de temps avez-vous utilisé pour votre recherche ?

Après cette phase on procède à une mise en commun des différentes expériences vécues durant l'exercice de recherche.

 

5. Support Théorique

 

Les annuaires de recherche


Les annuaires de sites sont des compilations de fiches, classées selon une hiérarchie très précise, qui décrivent l'essentiel d'un site Web. Ils sont aussi appelés répertoires, guides thématiques, catalogues ou moteurs de recherche par thèmes et fonctionnent selon le principe des pages jaunes de l'annuaire téléphonique français.

La hiérarchisation de la classification des données permet une recherche du général vers le particulier. Chaque thème principal est divisé en rubriques et sous-rubriques, sous forme d'arborescence. À l'extrémité de celle-ci, l'annuaire fournit en général les informations suivantes sur les sites obtenus: nom du site, adresse URL, nom de la catégorie dans laquelle il a été classé et un bref commentaire sur le contenu du site

Même si les annuaires tendent à l'exhaustivité, ils ne recensent qu'un nombre limité de sites Web. En effet, l'indexation des sites est souvent effectuée manuellement et n'est pas automatisée, contrairement au cas des moteurs de recherche par mots-clés. Pour qu'un site soit répertorié dans un catalogue comme celui de Yahoo!, il incombe à son créateur de l'y inscrire. Cette démarche, tout comme la consultation du site, sont toutefois gratuites. Le financement est garanti par les bandeaux publicitaires qui s'affichent à l'écran à chaque interaction avec le serveur.

Dans les annuaires de sites, l'utilisateur dispose de deux possibilités pour rechercher une information. Il peut se déplacer de catégories en catégories, ou utiliser un moteur de recherche interne au répertoire . Il convient cependant de ne pas confondre le moteur de recherche au sens large et le moteur de recherche interne du répertoire. Tandis que le premier effectue sa recherche parmi un grand nombre de pages Internet indexées, le second se limite à la sélection des sites contenus dans le répertoire.

Il existe deux types d'annuaires: les généralistes et les spécifiques. Les premiers couvrent des recherches dans un domaine très vaste et peu connu de l'utilisateur (par exemple une recherche sur l'architecture avec Voilà). Les seconds apportent une vision plus précise des sites dans un domaine particulier (par exemple une recherche sur le thème du droit avec Droit.Org).

Annuaires généralistes et spécifiques


retour scénario

Les moteurs de recherche


Les moteurs utilisent des robots logiciels qui recensent sous forme d'index tout le contenu du Web. L'information est ensuite recherchée à l'intérieur de cet index par le biais d'une interface accessible depuis un site Web. Un moteur de recherche se distingue d'un annuaire par le fait que le premier répertorie automatiquement un nombre de sites très élevés et ne contient pas de structure, alors que le second est établi manuellement et classé par catégories. Il en résulte une différence de taille considérable entre les bases de données obtenues. Ë titre de comparaison, Yahoo! regroupe deux millions de sites, alors que des moteurs tels que Altavista ou Google recensent jusqu'à 500 millions de pages Web. Certains moteurs sont généralistes, d'autres spécialisés dans un domaine particulier (sport, finances, santé, etc.). Les différents moteurs internationaux comme Altavista, Excite ou Google sont en général accessible dans la plupart des langues. La puissance de ces outils concurrents varie en fonction du nombre de pages indexées, de leur aptitude à affiner la recherche par des opérateurs booléens (AND, OR, NOT, etc.) et/ou de leur capacité à rechercher dans certaines parties des pages (titre, liens hypertexte, métadonnées, etc.). Chacun de ces moteurs est formé de trois modules: le robot du Web, le serveur d'index et le serveur Web.

moteurs de recherche courants


retour scénario

Les groupes de discussion


Usenet est une partie d'Internet constituée de forums de discussion ou "newsgroups", contenant des articles et contributions écrites sur une multitude de sujets. Il existe plus de 25'000 forums, chacun sur un thème spécifique. Les forums sont des outils interactifs gérés par leurs utilisateurs: les questions des uns envoyées par e-mail sur un sujet donné trouvent quelque temps plus tard des réponses apportées par d'autres internautes. Les groupes de discussion représentent donc un des plus grands gisements d'information sur un thème particulier.

Les informations échangées dans les "newsgroups" sont mises à disposition sur des serveurs spécifiques ("news servers"). Quiconque possède un accès à Internet a la possibilité de participer gratuitement aux différents forums, de venir consulter les informations proposées, de s'en servir ou d'apporter sa contribution sous la forme d'un article. On dit alors que l'on "poste" une contribution. La consultation de certains groupes de discussion peut cependant être limitée, voire supprimée, par les fournisseurs en raison de leur caractère pornographique ou raciste.

Lors de la consultation d'un forum, l'utilisateur sélectionne parmi les titres disponibles les contributions qui sont susceptibles de l'intéresser. Il peut aussi passer d'un message au suivant, obtenir des informations sur les auteurs, voir la conversation complète correspondant à une contribution ("thread", message original et réponses successives) ou poster ses propres messages. Etant donné le volume d'information qu'elles représentent, les contributions sont stockées quelques jours puis archivées voire supprimées. La durée de disponibilité de ces contributions varie selon la capacité du site d'hébergement et la quantité d'information en circulation.

Les "newsgroups" sont organisés en hiérarchies (voir tableau ci-dessous) dont les sous-catégories se spécialisent tout au long de l'arborescence. Le nom de chaque groupe reflète la hiérarchie thématique et indique le sujet traité: la première partie évoque la catégorie générale dans laquelle le groupe est classé, les suivantes donnent des précisions sur le domaine traité. Par exemple, dans le forum intitulé "comp.sys.mac.games.race-sim", la discussion porte sur des jeux vidéo, et plus particulièrement les simulations de courses fonctionnant sous système Macintosh.

Les différents groupes de discussion

retour scénario

Les métamoteurs de recherche


Le nombre et la variété des outils de recherche sur Internet sont sans cesse croissants et leurs possibilités toujours plus développées. Pourtant, comme chacun de ces moteurs ne couvrent qu'une portion du Web, l'utilisateur est forcé de répéter ses requêtes sur les sites de plusieurs services pour trouver la réponse adéquate. Il a en effet été démontré qu'aucun moteur de recherche n'est capable de fournir plus de 29% des références pertinentes possibles pour une saisie donnée. De plus, les moteurs délivrent un grand nombre de résultats non-pertinents (bruit).

C'est de cette problématique que sont nés les métamoteurs de recherche. L'idée principale est de regrouper l'utilisation de multiples moteurs de recherche sous une seule interface pour une recherche plus exhaustive. Les métamoteurs formatent la saisie et la soumettent en parallèle aux différents services, rassemblent les résultats, les classent et proposent en réponse une compilation des meilleurs résultats de chacun des moteurs. Ce type d'outil représente donc un niveau d'organisation supérieur dans la chaîne de l'information.

Les métamoteurs ne possèdent pas de banque de données propre et se basent sur des services externes pour trouver l'information. Dans une telle démarche, le processus d'extraction des données pertinentes a été séparé de celui d'indexage et de stockage. Il en résulte que les métamoteurs ne nécessitent pas de grandes ressources de mémoire et de stockage. Un autre avantage des métamoteurs est qu'ils ne dépendent pas du fonctionnement d'un moteur en particulier. Quel que soit le fonctionnement des différents moteurs, la consultation en parallèle de plusieurs services sera théoriquement bénéfique au niveau du nombre de résultats trouvés et de leur pertinence. Les métamoteurs indiquent en général aussi le moteur dont provient chaque résultat et permettent ainsi l'identification des outils qui sont les plus performants pour un type de requête donné.

La vitesse de réponse d'un métamoteur est par contre limitée par celle de l'outil interrogé le plus lent. La poursuite d'une recherche exhaustive se fait donc au détriment de la rapidité d'exécution. Parallèlement, l'incompatibilité des options des différents moteurs réduit la qualité des recherches avancées. Celles-ci ne pourront être effectuées que par une recherche simplifiée, suivie d'un traitement postérieur des références trouvées. Finalement, il semble qu'en pratique le "bruit" retourné par les métamoteurs n'est pas réduit considérablement par rapport aux moteurs classiques.

Les métamoteurs classent leurs résultats le plus souvent selon les critères de pertinence suivants :

Ø      La présence des mots-clés dans le titre, dans le résumé, et/ou dans l'URL des pages proposées.

Ø      Le nombre d'occurrences totales des mots-clés.

Ø      La fréquence d'occurrence des mots-clés dans un document par rapport à sa taille. Si deux documents contiennent le même nombre d'occurrences, le plus petit sera favorisé.

Ø      Le nombre d'outils de recherche différents identifiant une même page.

Ø      Le classement d'une page donnée par l'outil de recherche.

Ø      Le poids différent accordé à chaque moteur de recherche en fonction du type de requête. Par exemple, les sites de Google pourront être favorisés lors de saisie courte, un cas où ce moteur est très performant, ou encore le poids accordé au résumé sur Yahoo! sera plus important que sur Altavista, etc. Cette distinction est nécessaire lorsqu'un métamoteur regroupe des outils de nature très différente que l'on interroge rarement ensemble.

Ø      La prise en compte de référencement payant: les moteurs et métamoteurs proposent de plus en plus aux "webmasters" d'acheter le référencement de leurs pages et de placer ensuite ces pages en tête dans la liste des résultats.

Chaque métamoteur appliquera des critères différents ou leur accordera un poids différent.

Les métamoteurs de recherche courants

retour scénario

Les agents intelligents

Le rêve ou le fantasme de remplacer l'homme par un agent artificiel comme un robot ou un humanoïde hante l'humanité depuis longtemps. Bien que différentes sortes d'automates soient apparues au cours du temps, c'est seulement avec le développement des ordinateurs que les premières formes d'agents autonomes ont vu le jour. Les précurseurs des agents intelligents actuels sont probablement les mécanismes de contrôle utilisés dans l'industrie ou dans l'aviation. Aujourd'hui, c'est plutôt le domaine du logiciel qui est privilégié par rapport au domaine du matériel. Grâce à l'essor d'Internet, les agents peuvent opérer sur un terrain étendu et adéquat. Cela a contribué considérablement à l'important développement connu par cette technologie durant ces dernières années.

Le dictionnaire de la langue française "Petit Larousse Illustré", Paris, 2002, donne les définitions suivantes:
- Agent: tout ce qui agit, opère. Etre ou objet qui accomplit l'action exprimée par le verbe.
- Intelligent: Qui manifeste de l'intelligence, de la raison, du discernement. Se dit d'un bien dont la maintenance ou le fonctionnement sont assurés par un dispositif automatisé, capable de se substituer pour certaines opérations à l'intelligence humaine.
Dans le domaine de l'informatique les agents sont simplement des logiciels exécutant une tâche programmée. Le terme "agents intelligents" désigne par contre uniquement les programmes qui présentent certaines caractéristiques d'adaptabilité, d'autonomie et de flexibilité.

La technologie des agents peut être utilisée à des fins très variées, comme la recherche documentaire, l'organisation du courrier électronique, le filtrage des messages des forums de discussion, la gestion de rendez-vous, la sélection de livres et de musique, l'aide à la navigation sur la toile, l'enseignement par ordinateur et bien d'autres tâches encore.

Les agents

retour scénario

Les méthodes de recherche sur Internet

Au vu de la variété des outils de recherche et de l'abondance des thèmes ou domaines, une recherche d'information sur Internet ne sera efficace que si elle s'appuie sur une bonne et rigoureuse méthode. Il existe une grande diversité de méthodologies de recherche. Ce chapitre en présente une approche possible.

Un certain nombre de pré-requis sont nécessaires pour aborder une recherche sur Internet. Avant tout, il est indispensable de comprendre ce qu'est le Web, quels sont sa structure et son fonctionnement de base. Il faut savoir aussi quel type d'information s'y trouve (adresse, article, forums, logiciels, informations commerciales, etc.). Deuxièmement, des connaissances générales sur les outils de recherche sont essentielles. Enfin, il faut avoir conscience des limites d'une telle recherche: elle ne peut être exhaustive, les sources d'information peuvent être privées ou payantes. En marge de ces considérations, un point simple est à vérifier avant d'entreprendre une recherche sur Internet: l'information recherchée est-elle accessible par d'autres sources, plus rapidement et efficacement?

Méthode générale

La recherche d'information sur Internet peut être divisée en trois phases, de manière à garder une stratégie solide: la préparation, la recherche et l'analyse.


La préparation

La préparation est l'étape de planification essentielle sur laquelle reposent l'efficacité et la rapidité de la méthode de recherche. Il s'agit de définir précisément l'information recherchée. En premier lieu, le contexte de la recherche doit être précisé à partir des quatre éléments suivants:
- Le type d'information: Définir le type d'information cherché permettra de choisir les outils appropriés lors de la recherche proprement dite. La recherche porte-elle sur une information générale, c'est-à-dire un domaine ou un thème sur lequel l'internaute désire en savoir plus de manière globale. Ce type d'information est obtenu de manière optimale avec l'aide d'un annuaire. Une information spécifique répond à une question précise et pourra se retrouver dans plusieurs sources. Elle sera localisée plus facilement par un moteur de recherche. Enfin, pour une information connue, c'est-à-dire un site dont une partie est connue de l'internaute et pourra servir à identifier les pages recherchées, on recourra aux fonctions avancées des moteurs de recherche.
- La nature de l'information: Distinguer si l'information recherchée concerne des faits directement, ou des sources où trouver ultérieurement l'information. Le premier cas sera traité à l'aide des outils de recherche traditionnels. Dans le second cas, des sites de librairies ou de bibliothèques fourniront des résultats plus pertinents (voir Recherche bibliographique).
- Le temps à disposition: Dans tous les cas, il convient de fixer un délai maximum pour mener à terme la recherche. Le temps à disposition est souvent limité et il faut s'imposer de ne suivre que les liens en relation directe avec sa recherche. Lors de l'exploration d'un sujet plus général, la quantité d'information qui peut être obtenue est limitée par le temps consacré à la recherche. Il faudra inévitablement beaucoup de temps pour faire le tour de l'information disponible sur un thème particulier. De manière générale, il vaut mieux restreindre le champ de la recherche et perdre quelques références, qu'être trop général et perdre beaucoup de temps à dépouiller les résultats.
- La quantité d'information désirée: Pour une recherche spécifique, on choisira un moteur, ou si possible un outil spécialisé, avec une recherche précise qui retournera principalement des informations pertinentes. Si par contre on recherche un maximum d'informations, l'utilisation de métamoteurs ou de plusieurs outils est indiquée.

L'étape suivante est la préparation des mots-clés. L'énoncé de ce que l'on recherche sous forme de phrase peut être découpé afin d'en identifier les différents éléments. Chacun fournira un mot-clé pour préciser la recherche. Il y a trois familles de mots-clés:
- Les  primaires ou larges définissent de façon globale le domaine d'investigation.
- Les  secondaires ou profonds précisent à l'intérieur du domaine l'objet même de la recherche.
- Les  interdits indiquent les expressions à exclure des résultats (recherche NOT).
La combinaison de termes de plusieurs catégories de mots-clés permettra une recherche plus ciblée.

Une liste de  est établie à partir des éléments de la recherche et enrichie de synonymes. Lors du choix des termes, il faut faire attention aux mots qui ont plusieurs sens et éventuellement exclure une signification par un mot-clé interdit. La "valeur" des expressions est aussi importante: le choix d'une expression utilisée couramment donnera de meilleures résultats qu'un synonyme plus rare. Finalement, l'emploi d'un terme trop général pour une requête générera plus de "bruit" que de résultats pertinents.

Le dernier pas de la préparation est la définition des limitations. Il s'agit de décider quel est le cadre de la recherche et de fixer des limites linguistiques, chronologiques et géographiques pour restreindre le champ d'investigation.


La recherche

Si la phase de préparation a été soigneusement effectuée, le choix des outils de recherche à consulter découle logiquement des paramètres définis. À partir du type et de la nature des informations recherchées est établi la composante d'Internet au sein de laquelle la recherche sera effectuée: on choisira parmi les données du Web, de Usenet, de Telnet, de FTP, de Gopher ou du courrier électronique. Puis la famille d'outils est sélectionnée qui correspond le mieux aux besoins de la recherche:
· Les annuaires représentent un outil adéquat pour une recherche d'information d'ordre général ou une information précise de qualité. Ils garantiront par contre une couverture d'Internet moins large qu'un moteur de recherche. Il existe de plus des annuaires spécialisés qui apportent une vision plus précise d'un domaine particulier.
· Les moteurs de recherche sont indiqués pour la sélection d'une information spécifique ou connue, de mots dans le texte de pages Web, ou pour une couverture assez large d'Internet.
· Les métamoteurs de recherche sont appropriés lorsqu'on désire le maximum d'informations pertinentes le plus rapidement possible, ou pour se faire une idée de l'information disponible sur Internet sur un sujet donné.
· Les agents intelligents sont adaptés à une recherche répétée régulièrement. S'ils nécessitent une phase de mise en place un peu longue, ils permettent néanmoins, une fois programmés, l'exécution automatisée d'une tâche répétitive.
· Les sites portails sont un excellent point de départ pour les débutants sur Internet et proposent souvent des guides, des zones FAQ et une sélection de liens populaires utiles lors de recherche. Ils sont utilisés plutôt comme sources d'informations qu'en qualité d'outils.
· Finalement, des requêtes par e-mail peuvent être adressées à des serveurs pour obtenir des pages Web ou fichiers, pour effectuer une recherche à l'aide de moteurs, ou pour lancer des recherches sur Usenet, Archie ou Gopher. Elles sont idéales pour économiser le temps de connexion et atteindre des serveurs difficiles d'accès hors du Web.
Afin d'optimaliser une recherche, le choix de l'outil dépendra de ses forces et faiblesses par rapport à la nature de l'information recherchée et par rapport à la composante d'Internet dans laquelle la recherche doit être effectuée. Les critères de sélection peuvent être par exemple les limitations linguistiques, l'implémentation d'options de recherche particulières ou les préférences personnelles établies avec l'expérience des recherches précédentes.

L'étape suivante est la traduction du besoin: les mots-clés préparés sont combinés avec les opérateurs booléens appropriés AND, OR et/ou NOT. L'expression de la recherche est ensuite précisée grâce à des éléments comme: la recherche d'expression, les options de proximité, la recherche par champ ou la troncature, en fonction des propriétés reconnues lors de la préparation. Chaque outil a son langage d'interrogation.

L'analyse

Une fois la requête lancée, l'analyse des résultats se fait en deux étapes: l'analyse sommaire et l'évaluation de l'information. L'analyse sommaire consiste à déterminer si l'outil a fourni des résultats, et s'ils correspondent au besoin.
· Si aucun résultat n'est obtenu, il faut reconsidérer la requête: on vérifiera d'abord qu'elle ne contient pas d'erreur, puis on révisera les mots-clés utilisés et la stratégie. Enfin si la recherche reste infructueuse, on remettra en question le choix de l'outil.
· Lorsque l'outil retourne un certain nombre de résultats, une évaluation préliminaire est conduite en examinant les 10 ou 20 premières références et en jugeant si elles correspondent au besoin: Si les résultats ne satisfont pas du tout la recherche, la requête a probablement été mal formulée et il faut revenir à l'étape de traduction du besoin, voire à celle de préparation. Si le nombre de résultats n'est pas approprié, la requête est soit trop pointue et il faut la généraliser, soit trop large et il convient de la préciser par des options de recherche ou mots-clés supplémentaires. Finalement, si les références semblent répondre complètement à la recherche, on passera à l'évaluation finale de l'information.

L'évaluation de l'information permet de juger de la valeur de l'information trouvée et de décider si elle sera utilisée, diffusée ou non. Cette étape est conseillée lors de l'utilisation d'outils qui construisent leur base de données de façon automatique sans contrôle de qualité. Il s'agit de déterminer si l'information est facilement accessible dans le site proposé, quelles sont sa clarté, sa portée et ses fondements, et si les données sur le site telles que les coordonnées des auteurs, la date de mise à jour, le public visé ou les citations sont disponibles. Tous ces critères permettront de juger l'information à sa juste valeur et de citer ses sources correctement.

Les sites récoltés par une recherche peuvent être divisés en trois catégories pour analyser la pertinence des données qu'ils contiennent :
- Les sites officiels (universitaires, gouvernementaux, à vocation prosélyte): Les sites universitaires et ceux des bibliothèques sont en général bien documentés, objectifs et constituent de bonnes sources. L'utilisation de sites gouvernementaux est intéressante pour leurs informations institutionnelles et leurs statistiques, mais il faut se souvenir qu'ils représentent le point de vue d'un état. Quant aux sites de partis politiques, associations, religions et autres sites idéologiques, leur objectif principal est de vendre un message et non l'information objective. Il est conseillé de croiser les informations de ces sites avec celles obtenues par d'autres sources pour mesurer leur objectivité.
- Les sites commerciaux: Tout en gardant à l'esprit que leur but est de gagner de l'argent, les entreprises présentes sur Internet sont une source d'informations techniques sur des produits. Leurs sites sont utiles pour la recherche, car leur conception pratique et professionnelle propose des répertoires complets et organisés.
- Les pages personnelles: Si la diversité de l'information présentée par les pages personnelles est une richesse, il est par contre difficile de distinguer l'information sérieuse et complète de celle sans fondements ou visant une propagande.


retour scénario

Recherche bibliographique

Lors d'une recherche bibliographique ou à caractère encyclopédique, la méthode la plus pertinente est l'interrogation de bases de données spécialisées plutôt que la recherche sur le contenu du Web. Ce paragraphe présente quelques outils principaux et leur champ d'application.

Pour la recherche de livres et références bibliographiques, on consultera les données des bibliothèques et librairies:
· Les catalogues de plusieurs milliers de bibliothèques du monde entier peuvent être consultés par Telnet. Hytelnet1 donne accès à de nombreux serveurs Telnet et notamment aux différentes "online public access catalog". D'autres offrent une interface Web plus conviviale qui donnent accès à plusieurs bibliothèques2 dont la réputée "Library of Congress", aux Etats-Unis. En Suisse, le réseau NEBIS3 des bibliothèques et centres d'information réunit 60 bibliothèques pour un total de 2 millions de titres et offre un système de prêt étendu à tout le pays. Le système actuel permet aussi de rechercher et commander des titres sur le réseau IDS (Informationsverbund Deutschschweiz).
· Certains services payants permettent d'obtenir plusieurs millions d'articles ou extraits de livres qui sont en dehors d'Internet. Uncover4 est un service très efficace qui fait appel à des documentalistes. Le principe est le suivant: une documentaliste photocopie l'article choisi par l'internaute et le lui envoie par fax. The Electric Library 5 permet d'accéder à des articles de journaux et de magazines, à des chapitres de livres, à des transcriptions d'émissions TV et de radio, ainsi qu'à des photos et des images. Nlsearch6 est un outil de Northern Light qui met à disposition plusieurs millions d'articles et d'études.
· Enfin, il est désormais possible d'acheter en ligne n'importe quel livre et de l'obtenir en quelques jours. La librairie d'Amazon7 est la plus réputée et offre jusqu'à 200'000 livres en français, 300'000 CD musicaux et 6'000 DVD. Amazon.fr dessert toute la région francophone. D'autre part, pour chaque recherche effectuée sur Yahoo ou sur AltaVista, il existe la possibilité de voir si un livre en liaison avec la requête de l'utilisateur est disponible dans la librairie d'Amazon.

La recherche d'information scientifique repose sur les bases de données contenant les références de chaque article publié dans la presse spécialisée. Voici quelques exemples représentatifs :


- WebSPIRS1 offre une connexion vers toutes les bases de données de littérature scientifique dédiées chacune à un domaine de recherche.
- L'Université de Karlsruhe propose une collection bibliographique en informatique2 avec 1.1 million de références.
- Pubmed3 regroupe les bases de données de littérature et informations biologiques de la National Library of Medicine américaine. Ce système répertorie les références de tous les articles de sciences biologiques et médicales accessibles grâce au protocole d'extraction des données "Entrez".
- Enfin, le "Institute for Scientifique Information" propose sa base de données "Web of Sciences"4 mise à jour au fur et à mesure de la publication des nouveaux articles scientifiques.


La recherche peut aussi être effectuée directement sur le site des éditeurs de revues spécialisées, qui proposent leurs articles en version HTML et PDF, libres d'accès ou payants.

Les articles de presse et d'actualités peuvent être recherchés et consultés sur le sites des éditeurs des principaux journaux et ceux des radios et télévisions. Il existe aussi un annuaire spécialisé des radios et télévisions en ligne5. Enfin, certaines encyclopédies rendent accessible l'intégralité de leur contenu en ligne souvent à un coût assez faible. L'exemple le plus adéquat est celui de l'"Encyclopaedia Britannica"6.

1 http://www.lights.com/hytelnet/sites1.html


2 voir les services LibWeb, "http://www.sunsite.berkeley.edu/LibWeb" et WebCats, "http://www.library.usask.ca/hywbcat".


3 http://www.nebis.ch/index_f.html


4 http://www.uncWeb.carl.org


5 http://www.elibrary.com


6 http://www.nlsearch.com


7 http://www.amazon.com


1 http://roraima.ethz.ch :8590


2 http://liin.ira.uka.de/bibliography


3 http://www.ncbi.nlm.nih.gov/PubMed


4 http://wos.isiglobalnet.com


5 http://www.comfm.fr


6 http://www.eb.com

 

retour scénario

Recherche d'une personne

La recherche d'une personne peut viser l'identification de ses coordonnées classiques, de son adresse e-mail ou de sa homepage privée ou professionnelle. Les outils et les stratégies diffèrent donc légèrement selon l'information recherchée.

Les adresses postales, numéros de téléphone et de fax sont disponibles dans les versions en ligne de nombreux annuaires classiques. Il existe aussi des sites regroupant des annuaires du monde entier. "All nations telephone search engine"1 recherche dans plus de 700 répertoires téléphoniques dans le monde et indique les préfixes ou code régionaux à utiliser devant les numéros de téléphone. "Telephone directories on the Web"2 propose des liens vers les différents annuaires internationaux.

La recherche d'adresse e-mail présente plus de difficultés. En effet, la structure d'Internet en réseaux et sous-réseaux rend impossible l'inventaire des adresses électroniques et ces données sont de plus très rapidement périmées. On procédera alors comme suit:
· La première source à consulter est un annuaire d'adresses e-mail, bien qu'un tel répertoire ne couvre au mieux qu'un dixième de la population d'Internet pour les raisons citées ci-dessus. Les annuaires tels que "Yahoo! Annuaire"3, WhoWhere4, "Four 11 Directory Services"5, Annumail6 ou l'annuaire mail de Voilà7 recherchent dans leur répertoire à partir du nom de la personne. La recherche peut être précisée sur la base d'indications comme le prénom, l'adresse ou le numéro de téléphone, s'ils sont connus. Voila permet également d'effectuer une recherche dite inversée: à partir d'une adresse e-mail le logiciel permet de retrouver l'adresse et le numéro de téléphone de la personne.
· Lorsque l'entreprise où travaille la personne cherchée est connue, on tentera d'abord d'accéder aux pages Web de l'entreprise. De nombreuses entreprises proposent sur leur site une zone qui décrit le personnel et indique leurs coordonnées professionnelles, ou affiche simplement un e-mail de contact général auquel on enverra une demande plus précise de renseignements. Souvent, les entreprises adoptent pour les adresses électroniques une syntaxe du type "initiales ou nom de la personne@entreprise.com".

1 http://www.escapeartist.com/global/telephone.htm


2 http://www.teldir.com


3 http://fr.people.yahoo.com


4 http://www.whowhere.com


5 http://www.four11.com


6 http://www.annumail.com


7 http://www.annuairemail.voilà.fr

 

retour scénario

Recherche d'une société ou d'un produit

Plusieurs remarques relatives à la recherche du site Web d'une société s'imposent:
· La démarche intuitive est parfois la plus rapide. Par exemple, Microsoft est une société américaine; son site est logiquement accessible à l'adresse suivante: "http://www. microsoft.com".
· L'utilisation des répertoires de recherche comme Yahoo! ou LookSmart s'avère aussi optimale. Les répertoires contiennent une catégorie "Commerce et économie" dans laquelle sont classées les entreprises selon leur domaine. Plus particulièrement, les critères de classement géographiques de Yahoo! permettront d'atteindre le site d'une société dont on connaît la localisation.
· Si la recherche est toujours infructueuse, il est possible de consulter un moteur de recherche du type d'AltaVista. Toutefois le bruit importé risque souvent d'être important. Le meilleur moyen de l'éviter est l'utilisation d'une syntaxe booléenne. Pour rechercher le site officiel de Mercedes, par exemple, l'utilisateur peut saisir les données suivantes: "url:mercedes* and host:mercedes* and title: (mercedes* and ("homepage" or "home page")) and ("mercedes benz" or "mercedesbenz")".
Pour la recherche d'information sur un produit ou sur une société au-delà de leur site Web, certains outils spécifiques comme CompanyLink de Individual1, 1Jump.com2 ou Hoover's Online3 sont très performants. Malheureusement ils répertorient essentiellement des grandes entreprises américaines. Pour les entreprises des autres pays, la consultation de certaines rubriques de Yahoo!4 permettent d'obtenir de nombreux annuaires professionnels qui peuvent aider à identifier, par exemple, une liste de fournisseurs. L'utilisation des moteurs de recherche (Google5 ou HotBot6) et des métamoteurs (comme MetaCrawler 7ou ProFusion8) doit être modéré pour les raisons invoquées précédemment.
Enfin, les archives de plus de 50'000 forums de discussion qui peuvent être interrogés avec DejaNews (Google)9 permettent de suivre les "bruits et rumeurs" concernant une société, un employeur ou un produit.

1 http://www.compagnylink.com


2 http://www.1jump.com


3 http://www.hoovers.com


4 http://www.yahoo.com/Business_and_Economy/companies/Directories


5 http://www.google.com


6 http://www.hotbot.com


7 http://www.metacrawler.com


8 http://www.profusion.com


9 http://www.dejanews.com

 

retour scénario

Recherche d'une organisation

Sous le terme organisation sont regroupés les institutions internationales (UNICEF, Banques mondiale, FIFA, ONU, etc.), les institutions gouvernementales (ministères, chambres parlementaires, conseil fédéral, etc.), les organismes d'enseignement (université, grandes écoles, etc.).

Une première méthode, qui peut donner d'excellents résultats, est d'imaginer l'URL du site recherché. Il est utile de savoir que:
· les sites d'organisations internationales se terminent souvent par "org". Ainsi, l'UNESCO est accessible à l'adresse: "http://www.unesco.org".
· les sites du gouvernement français se terminent tous par "gouv.fr". Le site du premier ministre, par exemple, est accessible par l'URL: "http://www.premier-ministre.gouv.fr". De plus, grâce aux liens hypertexte, il est possible d'atteindre d'autres ministères ou d'autres organisations.
· en Suisse, la plupart des sites universitaires, gouvernementaux et institutionnels se termine par ".ch". Par exemple l'EPF de Zurich est accessible à l'adresse: "http://www.ethz.ch".
· Les sites des universités américaines se terminent par "edu". Le site de l'Université de Californie à Los Angeles , par exemple, est accessible par l'URL: "http://www.ucla.edu".

Une deuxième méthode consiste à utiliser les listes thématiques des annuaires (Yahoo!), qui ne recensent que les pages d'accueil des sites. Exemple: le site officiel de la Banque Mondiale1 est atteint grâce à "Yahoo! international"2 avec la saisie "world bank", ou en se déplaçant dans l'arborescence "Business and Economy > Global Economy > Development > Organisation."

La troisième méthode, qu'il vaudrait mieux éviter, est l'utilisation d'un moteur du type d'Altavista. L'exemple: "title: nasa" donne 39'600 résultats, "url: nasa and title: nasa" génère 30'400 résultats; enfin "host: nasa and title: (nasa and ("homepage" and "home page")) and "national aeronautics and space administration"" trouve 24 URL dont celui recherché: "http://www.nasa.gov". À titre de comparaison, la recherche avec Yahoo! international est plus rapide. À la question "nasa", Yahoo! renvoie une page sur laquelle se trouve en première place l'adresse: "http://www.nasa.gov", suivie d'autres adresses de sites créés par l'organisation.

1 http://www.worldbank.org


2 http://www.yahoo.com

 

retour scénario

Recherche d'un logiciel

Les logiciels accessibles par Internet peuvent être des "sharewares" (logiciels testables gratuitement pendant un certain laps de temps), des "freewares" (logiciels gratuits) ou directement des produits à acheter en ligne. Le téléchargement de logiciels est quasi systématiquement interfacé Web, les sites FTP étant surtout utilisés par les informaticiens.

Les adresses suivantes guident la recherche de logiciels scientifiques:
· Open Science Project1 recense des logiciels scientifiques gratuits.
· Liste des logiciels scientifiques de la bibliothèque de l'Université de Californie à San Diego2.
· Rubrique Software3 et Free Software4 du portail scientifique canadien CASTI.
Les interfaces suivantes vont permettre de repérer des logiciels divers à l'aide d'une recherche par mots-clés ou à partir d'une liste thématique:
· Rubrique Software Archive du guide BUBL anglais5.
· Le site shareware.com6.
· Les sites tucows français: Club-Internet7, asi8 ou encore Delsys9.
· ZDNet Software Library10 permet de télécharger des "freewares" et des "sharewares".
· Simtel.Net11 est une entreprise online spécialisée dans les "freewares" et les "sharewares" ainsi que dans les programmes du domaine public pour MS-DOS, Windows 3.x et Windows 95/98.
· WinFiles12 et Jumbo13 sont d'excellents points d'accès aux logiciels du Web.
·
· Les sites nonags1, 1freestuff.com2 et Freeware Publishing Site3 sont spécialisés dans les logiciels gratuits.
· Le site Beyond.com4 permet d'acquérir des logiciels en ligne, avec paiement sécurisé par carte bancaire. Le choix est de 39'000 titres, en provenance de 350 éditeurs, tels qu'Adobe, Lotus, Mc Afee, Microsoft, etc.
· Les logiciels pour Macintosh peuvent être également trouvés sur les sites suivants: Apple France5, Download.com6, MacInTouch7, Software for Macintosh computers8.
· Les sites de sociétés éditrices (Microsoft, Netscape, Adobe,etc.) permettent de rechercher des drivers, ou des mises à jour de leurs logiciels. Se référer au chapitre 7.4 pour accéder à ce genre de site.

1 http://www.openscience.org


2 http://libnet.ucsd.edu/se/list.htm?type=20


3 http://www.casti.ca/portal/Software


4 http://www.casti.ca/portal/Free_Software


5 http://bubl.ac.uk/link/types/software.htm


6 http://www.shareware.com


7 http://tucows.club-internet.fr


8 http://tucows.asi.fr


9 http://tucows.chez.delsys.fr


10 http://www.zdnet.com/swlib


11 http://www.simtel.net/simtel.net


12 http://www.winfiles.com


13 http://www.jumbo.com


1 http://nonags.asi.fr


2 http://1freestuff.com/freewarw


3 http://www.kato.be/freeware/freeware.htm


4 http://www.beyond.com/about.htm


5 http://www.apple.fr


6 http://www.download.com


7 http://www.macintouch.com


8 http://ccsmacinfo.ccs.queensu.ca/MacSdistribution

 

retour scénario

Recherche d'images et de photos

Internet est l'outil idéal pour la recherche d'images. Il existe essentiellement deux sortes de sites qui sont pertinents : Les moteurs de recherche spécialisés dans la recherche d'images et les banques d'images. Dans les banques d'images, il faut distinguer les deux types de licences :

· Rights-managed (RM) : Droits d'utilisation à acquérir. Images à licence élevée utilisée généralement pour des projets professionnels. Le prix élevé de la licence empêche la saturation du marché par l'image. Le prix est fonction de la taille de l'image, du type de distribution, de l'usage envisagée. Un calculateur de prix permet de l'évaluer.
· Royalty-free (RF) : Libre de droits. On paie une fois pour toute l'image qui peut être utilisée sur de multiples projets pour une période illimitée. Le prix varie uniquement en fonction de la taille de l'image. Le type d'acheteur ou de projet n'influe donc pas sur le coût.

Les moteurs de recherche d'images :

PicSearch (www. picsearch.com)
Moteur de recherche spécialisé en images, photographies et illustration. Méconnu mais souvent plus pertinent que Google Image grâce à des partenariats avec des sites spécialisés et des algorithmes de recherches efficaces.

All the Web (Fast) (www.Alltheweb.com/?cat=img&lany=french&query=)
Parmi les nombreuses fonctionnalités du moteur Fast (le "Google norvégien"), la recherche d'images. Il faut pour cela cliquer sur "Pictures". Rapidité d'affichage, pertinence et quantité des résultats sont au rendez-vous. Mieux : sur la page de résultats, la fenêtre" Web results" propose des sites en relation avec la requête. Et l'inverse est vrai : sur une page de résultats de documents web texte, la fenêtre "Multimedia results" indiquera le nombre d'images, de vidéo ou de sons en relation avec la requête. AlltheWeb est le moteur de la Recherche d'images du portail Lycos.


Google Image Search (google.fr/imghp?hl.fr)
Google Recherche d'images s'autoproclame "La solution de recherche d'image la plus complète du Web". Et c'est vrai que ce moteur permet une recherche parmi plus de 350 millions d'images, est souvent plus pertinent que ses concurrents mais pas toujours. Pour augmenter le nombre de résultats, ne pas oublier que la majorité des documents du net sont en anglais : il faut donc effectuer la requête en français puis avec sa traduction anglaise, voire dans les trentaines d'autres langues gérées par Google.

Visoo (visoo.com)
Le moteur de recherche d'images de la société Cobion, spécialiste des solutions graphiques, offre une recherche assortie de plusieurs options: recherche sur des personnes, exclusion des bannières de publicité, noir&blanc, couleur, graphiques, photos et types de formats : jpg, gif, bmp...
Sur une requête avec le mot "Joconde", les résultats sont moins nombreux que sur Google mais plus pertinents.

Altavista Recherche d'images (fr.altavista.com/seaching?type=simage)
La recherche d'images d'Altavista permet de choisir plusieurs options : photos, graphiques, bannières, boutons, noir et blanc, couleur. Rapide, pertinent, index volumineux.

Ditto (www.ditto.com)
Moteur de recherche d'images offrant une bonne pertinence de résultat mais un nombre de documents indexés assez réduit.

Webseek (http://www.ctr.columbia.edu/webseek)
Moteur spécialisé dans la recherche d'images (vidéos, films, photographies, etc.) proposé par l'université de Columbia et permettant d'interroger une sélection de 650 000 images et vidéos déjà répertoriées sur Internet. Recherche thématique guidée par grands thèmes ou recherche libre.

Yahoo (http://gallery.yahoo.com)
Moteur permettant une recherche de photographies par mot-clé ou par thème (arts, sciences, etc.).

 

Les banques d'images :


L'Agence photographique de la Réunion des musées nationaux (www.photo.rmn.fr/fr/fr_recherche.htm )
La base image de la Rmn permet une recherche dans un fonds constitué de plus de 100 000 diapositives couleur grand format (Ektachromes) et de 500 000 négatifs noir et blanc se rapportant essentiellement aux œuvres conservées dans les musées nationaux français: peintures, sculptures, objets d'art, dessins, photographies. Fantastique.

Gallica (www.gallica.bnf.fr )
Bibliothèque multimédia de la Bibliothèque Nationale de France. Plus de 80000 ressources documentaires du Moyen Âge au début du XXe siècle. Ouvrages en mode texte, monographies et périodiques en mode image, lots d'images et documents sonores. Serveur enrichit grâce à des collaborations avec la Bibliothèque du Musée de l'Homme, Bibliothèque centrale du Muséum National d'Histoire Naturelle, Médiathèque du Patrimoine et de l'Architecture, les bibliothèques de l'Université d'Orsay, de l'Ecole Polytechnique et du CHU Sainte-Anne.

Getty Images (www.creative.gettyimage.com )
Getty Image est un portail qui propose l'accès à plusieurs grandes banques d'images.
En Royalty-free : Artville, EyeWire, PhotoDisc .
Rights-managed : Allsport Concepts, The Bridgeman Art Library, FoodPix, FPG, Hulton|Archive, Illustration Works, The Image Bank, National Geographic, Stone .
Achat en ligne de photos au détail, de CD (Royalty-free), de catalogues papier...


Corbis (www.corbis.com )
Corbis, groupe Microsoft, propose 2 millions d'images sous licence ou libres de droit. Le moteur de recherche permet une recherche par mots-clés et, dans sa version avancée (sur http://pro.corbis.com) : par formats photographiques, points de vue, couleurs dominantes, lieux, concepts.

Graphic obsession (www.graphicobsession.fr )
Graphic Obsession, "agence de contenus visuels", propose plus de 500.000 images, 30.000 polices de caractères ainsi que des milliers de vidéos. Recherche par , multicritères, par thématiques (agriculture, animaux, gastronomie, cartographie, fleurs, histoire, musique, religion..). Libre de droits ou protégées. Achat en ligne.


GOgraph (www.webgraphique.com )

Ressources en graphiques pour le web : images, gifs animés, images fixes, fonds d'écran, icônes, logos, cliparts, interface (pour menus)...

retour scénario