Internet et la recherche d'information


  1. Qu'est-ce que l'internet
    1. Le réseau
    2. Les services
    3. La société de l'information
  2. La recherche d'information
    1. Le cycle du renseignement
    2. Elements terminologiques
    3. Annuaires de recherche
    4. Moteurs de recherche
    5. Metamoteurs
    6. Agents intelligents
      1. Copernic
      2. DigOut4U
    7. Autres outils de recherche
  3. La veille
    1. Comment évaluer un site
  4. Pour en savoir plus
    1. Ouvrages
    2. Revues
    3. Sites
  5. Annexes
    1. Dictionnaires
    2. Référencement d'un site

Qu'est-ce que l'internet

Le réseau

Internet est un réseau, un ensemble d'ordinateurs séparés et interconnectés, constitué de 3 composants :

Les services

Comp
informatique
Comp.ai; Comp.lang.c
Sci
sciences dures
Sci.geo.earthquakes
Humanities
sciences humaines
News
discussions. C'est là que se décide la création de nouveaux newsgroups.
News.group
Rec
activités récréatives
Rec.arts.poems
Misc
tout et n'importe quoi
fr.misc.transport.autostop
Soc
Société
Soc.culture.french
Talk
débat
Talk.abortion
Alt
cf. Misc
Alt.alien.visitors

Internet n'est pas l'unique réseau, des sociétés telles que AOL, CompuServe, Questel ont leur réseau auquel on a accès par abonnement.

La société de l'information

La recherche d'information

Le cycle du renseignement

Il faut dorénavant savoir gérer l'abondance d'information. Pour cela, un dispositif de veille (ou intelligence économique) doit être mis en place.

  1. collecte
  2. traitement
  3. stockage et diffusion : communiquer la bonne information à la bonne personne au bon moment. Pour cela, il faut des outils de communication (bulletin, forum, intranet, …).

    Données brutes ==> informations pertinentes ==>renseignements utiles

Eléments terminologiques

Annuaires de recherche

Ils sont aussi appelés répertoires de recherche ou plus simplement index.

Ce sont des outils qualitatifs. Ils permettent d'explorer un domaine peu connu afin d'avoir un état des lieux de l'existant. L'information est organisée logiquement. Chaque domaine, ou thème, est divisé en rubriques, elles-mêmes divisées en sous-rubriques. Certains ont un champs d'interrogation.

Lorsque l'on commence une recherche, il convient de d'abord utiliser ces outils. Grâce aux informations trouver on peut en effet compléter son corpus :

Annuaires thématiques
Excite : en français , en anglais
Yahoo : en français , en anglais
 
Annuaire géographiques
virtual tourism
Annuaires spécialisés
Annuaires des outils de recherche classés par thème
Annuaire des outils de recherche européens classés par pays
Le portail des associations
Tout ce qui est gratuit sur Internet.
Carte sensitive donnant accès aux moteurs régionaux français
Listes de thèmes, de points de repères pratiques, avec une courte description des sites
Russian and East European Studies Web
Ressources internet sur la CEI, les balkans, les PECO et l'Asie Centrale fait par l'université de Pittsburg
Strategic Road
Strategic-Road est un annuaire ou méta-index spécialisé dans la recherche de documents concernant des thèmes sélectionnés
Sites personnels
Ahoy Le "trouveur" de pages personnels
Sher Index Important index de liens classés par thèmes
Joël de Rosnay Site consacré à la prospective / futurologie dans le domaine des NTIC

 

Moteurs de recherche

Les moteurs sont des outils quantitatifs, de ce fait, si les termes de la question posée sont trop généraux, un nombre assez impressionnant de réponses va être affiché. Pour éviter cela, la formation d'un corpus est nécéssaire.

Un moteur de recherche se compose d'un robot (spider ou araignée) qui parcourt le web à l'affût de nouveaux sites, et d'un outil d'indexation.

De nouvelles technologies de recherche voient le jour, par exemple, la technologie NG. A la suite d'une requête, le moteur de recherche suggère une liste de termes ayant un rapport avec les mots de la demande. L'utilisateur peut inclure ou non des éléments de cette liste aux termes de sa question. A une question portant sur "Poutine et Russie", des éléments tels que "Tchétchénie", "le FSB","les présidentielles en Russie" apparaîtont, en ajoutant certains de ces termes on affine sa requête.

Une autre technologie, tout droit issue de l'IA (Intelligence Artificielle) existe, mais les résultats ne semblent pas encore être là. Cete technologie se nomme DWIM (Do What I Mean). Elle consiste à éviter, lorsqu'il y a synonymie, d'accéder à des pages ne portant pas sur le bon sujet.
 

Moteurs de recherche 
Altavista : en français , en anglais Ecila Hotbot
Go Google Lycos
Webcrawler    
Moteurs de recherche régionaux
Biélorusse 09.Open
Breton Breizhoo
France Francité Voilà
Lettonie All Latvia
Russie Aport Rambler
Moteurs de recherche spécialisés
Acronym Finder Trouver des abrévations ou des acronymes
GoGraph Moteur de recherche d'images
Trouvez Pour les cyber-consommateurs
Sher Index Important index de liens classés par thèmes

Syntaxe de quelques moteurs de recherche ( source : abondance )

  AltaVista HotBot Infoseek Northern Light Excite Lycos Web Crawler Google All The Web
OU Par défaut Choix any of the words Par défaut OR Par défaut ou OR Par défaut ou OR Par défaut ou OR Non utilisé Choix any of the words
ET Signe + Choix all the words ou signe + Signe + AND ou signe + AND ou signe + Signe + AND ou signe + Opérateur par défaut ou signe + Choix all the words ou signe +
SAUF Signe - Signe - Signe - NOT ou signe - AND NOT ou signe - Signe - NOT ou signe - Signe - Signe -
Expression Guillemets Guillemets Guillemets Guillemets Guillemets Guillemets Guillemets Guillemets Guillemets
Troncature * * Non * Non Non Non Non Non
Recherche linguistique (nombre de langues) Oui (25) Oui (7) Non Oui (5) ** Non Oui (15) ** Non Oui (11) Oui (31)**
Recherche sur le titre title: title: title: title: Non Choix "Title only" ** Non Non Choix "in the title"**
Recherche sur le domaine domain: domain: site: url: Non Non Non site: Choix "in the url"**
Recherche sur le nom du serveur host: domain: site: url: Non Choix Title dans la zone "Page field"** Non site: Choix "in the url"**
Recherche sur l'URL url: Non url: url: Non Choix URL dans la zone "Page field"** Non Non Choix "in the url"**
Recherche sur les adresses des liens link: linkdomain: link: Non Non Non Non link: Choix "in the link to url"**

 

Metamoteurs

Vous vous êtes rendu compte que chaque moteur de recherche à sa propre syntaxe. Chez certains, on peut taper tel quel sa requête en espaçant les mots clés par des blancs; chez un autre, il faut mettre des + entre les mots; chez un autre des parenthèses; chez un autre des opérateurs booléens du style and, or, not, near, .... Un metamoteur est en fait un super-moteur de recherche paramétrable. Il permet d'utiliser plusieurs moteurs de recherche simultanément. Vous lui indiquez sur quels moteurs vous voulez que la recherche s'effectue (en général, des moteurs sont prédéfinis et il suffit de cocher ceux que vous voulez utiliser), vous choisissez le nombre de résultats par moteur (les 10 premiers URL, les 50 premiers, etc.), enfin, vous tapez votre requête. Il va chercher sur les différents moteurs de recherche en traduisant pour vous votre requête d'après la syntaxe de ces différents moteurs. Ainsi, vous tapez vos mots clés, en les espaçant d'un blanc, et vous lancez votre requête. Le résultat final est ainsi beaucoup moins impressionnant que celui d'un moteur de recherche. Certains évacuent les doublons.
Certains ont des options paramétrables (ne vous attendez pas à pouvoir les personnaliser de a à z, ces options sont prédéfinies, vous pouvez au mieux faire un choix, sinon, cochez une / plusieurs cases).
Les metamoteurs permettent de débrousailler, de voir ainsi quels sont les moteurs de recherche qui répondent le mieux à une requête.
La seule restriction est qu'ils n'utilisent pas les options avancées des moteurs.

Il existe 2 types de metamoteurs : ceux que l'on utilise directement sur internet et ceux que l'on doit installer sur notre ordinateur. On parle dans le premier cas de meta-moteur on-line et dans le second de meta-moteur off-line. Ces derniers ont comme interêt que vous n'avez pas à vous connecter à internet. Vous pouvez paramétrer votre requête (choisir les moteurs, définir la périodicité de la recherche et le temps de la recherche, taper vos mots clés) sans être connecter à internet et une fois la recherche terminée, regarder les résultats sans être connecté. En effet, les résultats sont enregistrés sur votre disque dur, ce qui peut prendre beaucoup de place si la recherche dure longtemps, il faut donc faire attention à la quantité de résultat.

Metamoteurs
Metamoteurs on line
1blink
All4one
Ariane6
Datahit
Dogpile
Inference Find
Metacrawler
Metamoteurs off line

 

Agents intelligents

Un agent intelligent est un logiciel dédié spécialement à la recherche d'information. Il permet de poser une question en langage naturel, de filtrer les résultats, d'effectuer une analyse sémantique, de programmer des veilles. Les résultats peuvent se présenter sous forme de liste de sites avec des pourcentages de pertinences ou sous forme de cartes ou de graphes.
Lorsque l'on parle de recherche en langage naturel, il ne faut pas oublier que ce langage naturel a été formalisé mathématiquement puis informatiquement, avec tous les problèmes que cela pose et toutes les décisions ad hoc utilisées. C'est un secteur dépendant des découvertes en linguistique formelle (avec toutes les restrictions que cela comporte) et en informatique.

Les agents intelligents sont des logiciels qu'ils faut installer sur son ordinateur puis paramétrer.
A l'image des meta-moteurs off line, les résultats sont enregistrés sur le disque dur, il faut donc faire attention au volume des résultats.

Agents intelligents
Copernic
Une version gratuite mais bridée (certaines options ne sont pas accessibles) est téléchargeable d'internet. Si vous désirez des renseignements, vous pouvez aller sur la fiche des spécifications ou sur la page support (FAQ, ...).
DigOut4U  
Agents cartographiques
Semiomap Umap

 

Copernic

Copernic est un logiciel de recherche d'informations sur Internet fait par Copernic Technologies Inc. Vous pouvez télécharger une version de démonstration dont certaines options sont bridées.

Configuration

Lancer une recherche

  1. Créer un dossier

Avant toute recherche, il vous faut créer un dossier où sera ranger le résultat de votre requête. Allez dans Fichier / Dossier / Créer. Donnez un nom à votre dossier et dans le champs Dossier du menu Copernic, choisissez le. Les données finales sont classées dans le répertoire Copernic / Data / Default User.

  1. Choisir un domaine

Il vous faut d'abord choisir le domaine de recherche (partie gauche de la fenêtre), la boîte de dialogue "Créer une recherche" s'affiche. Vous pouvez choisir les moteurs ainsi que le nombre de résultats en cliquant sur le bouton Propriétés à droite du domaine de recherche. Puis tapez les mots à rechercher dans le champs "Requête" et cocher l'une des options de chercher (chercher tous les mots, chercher un des mots ou chercher l'expression exacte). Vous pouvez alors soit Chercher, soit aller à l'onglet Paramètres pour choisir le type de recherche (rapide, normale, détaillée, personnalisée). Je vous conseille de personnaliser en choisissant de 10 à 20 résultats par moteurs de recherche et un nombre total de résultats proportionnel au nombre de moteurs utilisés (si il y a 5 moteurs à 20 résultats, cela fait 100 résultats au final). Enfin, cliquez sur Chercher.

  1. Consulter les résultats

Une fois la recherche effectuée, dans la fenêtre de Copernic, vous avez les différentes pages trouvée avec, par défaut souligné en jaune, les mots clés (vous pouvez changer l'apparence en allant dans Affichage / Apparence).

En mettant en surbrillance un des résultats et en cliquant sur Fichier / Propriété, vous avez quelques renseignements sur la page.

Vous pouvez classer les résultats selon le critère qui vous semble le plus pertinent en allant dans Affichage / Trier les résultats par. La même chose peut être faite pour vous différentes recherche en allant dans Affichage / Trier les recherches par.

Vous pouvez consulter les résultats obtenus en cliquant sur l'URL d'un résultat, ou en allant dans Fichier / Ouvrir. Dans ce cas, vous pouvez choisir de l'ouvrir en local ou du Web. Le menu Ouvrir dans une nouvelle fenêtre ouvre de nouveau un navigateur.

Un autre moyen est d'aller dans Résultats / Consulter, et de choisir de visualiser tous les résultats ou seulement un type bien particulier (que vous pouvez choisir dans le menu déroulant). Une interface de contrôle (explorateur des résultats) s'ouvre alors et vous permet de passer de page en page (la page 0 est celle des résultats). Vous pouvez reclasser les résultats, aller directement au premier / dernier, ... Ce type de navigation est très conviviale.

  1. Un peu trop de résultats
  1. Enregistrement de votre travail

Vous pouvez enfin enregistrer les documents restant (avec ou sans images) avec Résultats / Télécharger.

Les résultats peuvent être envoyer par E-mail au format HTML, txt, ... (Fichier / Envoyer). Il faut dans ce cas avoir configurer son navigateur en allant dans Edit / Preference / Mail & Group et en cochant "Use Netscape Messenger from MAPI-based applications.
Vous pouvez aussi les exporter au format HTML, txt, .. (Fichier / Exporter).

Et après?

DigOut4U

 

Autres outils de recherche

 

Recherche de E-mail
Internet Adress Finder WhoWhere de Lycos Yahoo
Recherche de programmes
Downloads SoftSearch Shareware
Annuaire des forums
Listes des forums français
Recherche de forums et Newsgroup
Liszt Reference Tile
Recherche de listes de diffusion
Annuaire francophone
Kitalettre

 

La veille

Comment évaluer les sources :

Il est commun de dire que l'on trouve de tout sur Internet et que lorsque l'on "discute" avec quelqu'un (par chat, mail, ...) on ne sait jamais qui est au bout. Ainsi en est-il des sites, on ne sait jamais qui réalisé un site, dans quel but, .... Evaluer un site est de ce fait assez compliqué à moins que l'on soit expert du thème traité par ce site, mais on ne peut être expert en tout!

Quelques sites offrent des critères d'évaluation de sites :

Pour en savoir plus

Ouvrages

Revues

Sites

Annexes

Dictionnaires des termes utilisés

Référencement d'un site

Les étapes d'un référencement

L’avant-référencement.

Qui nous référence déjà ? Pour cela, Altavista et Yahoo permettent, en tapant dans le champs de la question link :www.nom_site.ext de connaître tous les sites qui indiquent cet url.

Le référencement ne se fait pas de la même manière dans un annuaire et dans un moteur de recherche. Alors que dans le premier cas, on choisit la catégorie et on peut commenter son site dans des champs spécifiques, dans le second cas, une page est référencée (en générale la page d’accueil), un robot (spider, araignée) parcours les liens de cette page et visite ainsi le site en profondeur. Il indexe les données des meta-balises ainsi que, dans certains cas, les pages in-extenso. C’est pour cela qu’il faut :

Exemple non-exhaustif de meta-balises (issu de http://www.adcom.fr/referencement/balise-meta.htm :

<HEAD>
<TITLE>Référencement de sites internet</TITLE>
<HTML LANG=fr>
<HEAD PROFILE="http://purl.org/metadata/dublin_core">
<META HTTP-EQUIV="Content-type" CONTENT="text/html; charset=ISO-8859-1">
<META HTTP-EQUIV="Expires" CONTENT="+30">
<LINK REV=made href="mailto:ld@adcom.fr">
<META NAME="keywords" CONTENT="Référencement de sites internet suivi">
<META NAME="description" CONTENT="Référencement de sites internet - suivi">
<META NAME="rating" CONTENT="General">
<META NAME="revisit-after" CONTENT="15 days">
<META NAME="VW96.objecttype" CONTENT="business">
<META NAME="ROBOTS" CONTENT="ALL">
<META NAME="DC.Title" CONTENT="Référencement de sites internet">
<META NAME="DC.Creator" CONTENT="adcom internet">
<META NAME="DC.Subject" CONTENT="référencement de sites">
<META NAME="DC.Description" CONTENT="Référencement de sites internet - suivi">
<META NAME="DC.Publisher" CONTENT="adcom">
<META NAME="DC.Contributors" CONTENT="laurent doublier">
<META NAME="DC.Language" SCHEME="RFC1766" CONTENT="FR">
<META NAME="DC.Coverage.PlaceName" CONTENT="France, Normandie, Hérouville">
<META NAME="DC.Coverage.x" CONTENT="-1.2888">
<META NAME="DC.Coverage.y" CONTENT="-48">
<META NAME="DC.Coverage.z" CONTENT="1">
</HEAD>

On peut distinguer 3 grandes familles de balises : les meta http-equiv, les metaname, et enfin les meta name DC. La première étant la plus utilisée par les moteurs, la deuxième assez peu courante, peu utilisée, la troisième est réalisée par le Dublin Core (initiale DC) qui est en train de réaliser un travail de fond sur l'archivage de document en utilisant ces balises comme source d'informations importantes, précises sur l'origine d'un texte, car sont regroupés l'auteur, la date, l'expiration du document, l'origine géographique (DC coverage.x.y.z), les contributeurs, publication, langue, etc...

Le référencement

Il faut compter entre 30 et 50 heures pour référencer un site.

En plus du temps passé à référencer, l’apparition de ce site dans un annuaire ou un moteur ne se fait pas instantanément, il faut compter une période de 1 jour à 10 semaines. Il faut compter environ 3 mois avant de connaître le positionnement d’un site.

Les informations demandées sont :

L’après-référencement

Une fois le site mis en ligne, il faut se faire connaître de la communauté :

Pour savoir combien de pages ont été référencées, tapez url:www.nom_site.ext dans le champs de recherche du moteur / annuaire de recherche.

Référencement sur les sites étrangers

Référence-t-on ce site dans les annuaires et moteurs de recherche étrangers ? Si c’est le cas, il faut traduire les mots-clés et la phrase descriptive.

Solutions

Pour des renseignements complémentaires : http://www.ability-referencement.com/white-paper-referencement.html .
Pour une liste des prestations existant : http://www.citeweb.net/gratuitfrance/ webmaster-referencement-fr.htm .

Manuellement

Il est communément dit que le meilleur moyen de se faire référencer est de le faire manuellement.

Le site WebMasterPlan (http://www.webmasterplan.com/fr)offre gratuitement quelques prestations de pré-référencement : contrôle du code, test de rapidité, test des liens, test de popularité (sur les moteurs de recherche), ….

Il convient pour cela de bien définir les meta-balises et le descriptif de chaque page ainsi qu’un ciblage des annuaires et moteurs sur lesquels on compte se faire référencer. Ensuite, il faut compter environ 1 semaine pour effectuer le travail – il dépend du nombre de page à référencer sur les annuaires, et un délai de 1 jour à 10 semaine pour être effectivement référencé.

Plusieurs sites offrent gratuitement la possibilité de se faire référencer automatiquement sur plusieurs annuaires / moteurs :

Logiciels

Prestataires de service

En plus de référencer un site, les prestataires offrent un suivi concernant, par exemple, le traffic généré par ce référencement, le positionnement du site dans les annuaires / moteurs de recherche. Il y a ainsi des services sur la présence du site sur le Web, mais aussi des services pour optimiser cette présence.

De plus, ce travail se fait en général avec un documentaliste qui aide à la constitution des mots-clés et descriptif.

Annuaires et moteurs de recherche

Les 17 outils de recherche importants :

Moteurs francophones

Moteurs internationaux

Carrefour.Net

Altavista

Ecila

Excite

Euréka

Infoseek

Francité

Hotbot

Lokace

Lycos

Nomade

Magellan

Les PagesWeb

Webcrawler

La Toile du Québec

Yahoo

Yahoo France

 

Annuaires de recherche

Moteurs de recherche

Pour en savoir plus :