MaxBoxer - Recherche sur Internet

Internet et la recherche d'information

Qu'est-ce que l'internet
La recherche d'information

Le cycle du renseignement
Elements terminologiques
Annuaires de recherche
Moteurs de recherche
Metamoteurs
Agents intelligents
1. Copernic
2. DigOut4U
Autres outils de recherche

La veille
1. Comment évaluer un site
Pour en savoir plus
1. Ouvrages
2. Revues
3. Sites
Annexes
1. Dictionnaires
2. Référencement d'un site

Qu'est-ce que l'internet

Le réseau

Internet est un réseau, un ensemble d'ordinateurs séparés et interconnectés, constitué de 3 composants :

un composant matériel (hardware) :
- les noeuds du réseau :
  - des machines serveurs : elles offrent l'information
  - des machines clients : elles utilisent l'information
- des liens : ce qui relie ces noeuds (câbles téléphoniques, fibres optiques, ondes radio, ...)
un composant logiciel (software) :
- les protocoles TCP/IP : ces protocoles permettent à des ordinateurs hétérogènes de communiquer.
- l'adressage :
  - numéro IP (adresse internet) : un numéro codé sur 32 bits (xxx.xx.x.xxx). Un nouvelle espace d'adressage devrait voir le jour, les numéros seront alors codés sur 128 bits (IPng : IP next generation)
  - nom logique (hostname) : ordinateur.sous-domaine.domaine (www.monsite.com)
  - serveur de noms (DNS) : ce serveur effectue la correspondance entre les adresses IP et les noms logiques. Les registres sont gérés par des organismes tels que l'InterNIC (US), RIPE NCC (Réseaux IP Européens Network Coordination Center), AP-NIC (Asia-Pacific Network Information Center).
  - URL (Uniform Ressource Locator) : lien entre une ressource (un document) et sa localisation physique. Un url est constitué de 3 parties : le protocole, le nom DNS de la machine et le nom de la page (le nom du fichier), chaque élément est séparé par un point. Le problème de l'url est qu'il fait référence à une seule page, or certaines sociétés, pour gérer les flux, ont fait des copies de pages à plusieurs endroits. Les URI (Uniform Ressource Information) permettront de dire que je veux une page xyz quel que soit son emplacement.(nom de la machine, du répertoire et du document). De nouvelles normes sont en cours d'élaboration :
    - URN (Uniform Ressource Name) : correspondance d'une URN avec une ou plusieurs URL
    - URC (Uniform Ressource Characteristic / Citation) : attaché un ensemble d'attributs à une ressource (auteur, éditeur, date de publication, ...)
un composant humain (manware)
- les gestionnaires du réseau
- les producteurs de services
- les utilisateurs de services

Les services

Courrier électronique (courriel, mèl, e-mail) :
- composition d'un mèl :
  - l'enveloppe (en-tête du message) :
    - A (to) : adresse(s) du / des destinataire(s) primaire(s)
    - Cc (carbon copy / copie conforme) : adresse(s) du / des destinataire(s) secondaire(s)
    - Bcc (blind carbon copy) : copie cachée
    - de (from) : émetteur
    - reçu (received) : identité de l'agent; date et heure de réception du message
    - MIME version (Multipurpose Internet Mail Extensions) : définit des règles de codage pour les messages non ASCII - pour les messages contenant par exemple des données multimédia.
  - le message : adresse de l'émetteur, le contenu
- le système de mèl est constitué de 2 sous-systèmes :
  - un agent utilisateur : le logiciel pour lire et écrire son courrier. Il permet :
    - la composition
    - le transfert du message de l'émetteur au récepteur
    - le compte rendu : est-ce que le message a bien été reçu
    - l'affichage des messages
    - de rediriger un message
    - la gestion des messages
  - un agent de transfert du message : il utilise les informations telles que l'adresse du récepteur, la priorité du message, la sécurisation, ... Le protocole de transfert de fichier est SMTP (Simple Mail Transfer Protocole). D'autres protocoles existent, répondant à des besoins spécifiques : POP3 (Post Office Protocol) - permet de prendre du courrier dans une boîte distante; IMAP (Interactive Mail Access Protocol) - si on dispose de plusieurs ordinateur; DMSP (Distributed Mail System Protocol) - si le courrier est sur plusieurs serveurs.
- la confidentialité du courrier : tout administrateur d'une machine relayant un message peut consulter ce message. Le seul moyen de sécurisé ses envois est de les crypter (PGP - Pretty Good Privacy; PEM - Privacy-Enhanced Mail).
Groupes de discussions (nouvelles, news, usenet) : les groupes de discussion sont des forums consacrés à un sujet particulier. Ils fonctionnent par abonnement. On peut lire et envoyer des articles. Cela va de la simple liste de diffusion jusqu'à l'installation d'un logiciel particulier.
- pour créer un groupe : chaque nouveau groupe est décrit par un RFD (Request For Discussion), cet RFD est soumis à un vote (CFV - Call For Vote). Il y a discussion entre les internautes puis vote. Il faut qu'il y ait 100 votes oui de plus que le non pour que le groupe soit créé.
- le protocole utilisé est NNTP (Network News Transfer Protocol)
- la netiquette :
  - lorsque l'on a une question a posé, l'une des premières choses à regarder est la FAQ (Frequent Asking Questions / Foire Aux Questions) afin de vérifier que la question n'a pas déjà été posée.
  - certains groupes ont un modérateur, cette personne vérifie chaque message envoyé avant qu'il n'apparaisse dans le groupe.
  - c'est au sein de ces groupes que sont apparus les émoticônes (smiley) : :-) ;-) 8-) Il faut faire subir une rotation de 90° vers la gauche à ces figures, elles représentent un visage qui, selon les cas, sourit, fait un clin d'oeil, ...
- voici quelques hiérarchies :

Comp	informatique	Comp.ai; Comp.lang.c
Sci	sciences dures	Sci.geo.earthquakes
Humanities	sciences humaines
News	discussions. C'est là que se décide la création de nouveaux newsgroups.	News.group
Rec	activités récréatives	Rec.arts.poems
Misc	tout et n'importe quoi	fr.misc.transport.autostop
Soc	Société	Soc.culture.french
Talk	débat	Talk.abortion
Alt	cf. Misc	Alt.alien.visitors

Le World Wide Web (Toile, web www) est un concept qui permet d'accéder à des milliers de documents disséminés sur plusieurs machines. L'accès à ces pages se fait à l'aide d'un logiciel spécifique appelé navigateur (browser). Netscape, Internet Explorer, Mosaïc, Opera sont les plus connus.
- Les étapes pour qu'une page s'affiche sont :
  - localisation de l'URL
  - le navigateur demande au DNS l'adresse IP du site, par exemple, www.monsite.com/index.html
  - le DNS renvoie l'adresse IP, par exemple 180.65.5.124
  - le navigateur établit une connexion TCP avec le port 80 de 180.65.5.124
  - il envoie la commande GET /index.html
  - le serveur www.monsite.com envoie le fichier index.html
  - la connexion TCP est libérée
  - le navigateur affiche le texte de la page html
  - il demande une nouvelle connexion pour les autres éléments de la page (images, son, ...).
Ces étapes s'affichent dans la ligne du bas du navigateur.
Le protocole HTTP (HyperText Transfer Protocole) est le plus utilisé, cependant ce n'est pas le seul. Certains serveurs utilisent le protocole FTP ou Gopher. Pour qu'un serveur HTTP puisse dialoguer avec un serveur FTP on utilise un serveur délégué (proxy server). Il traduit une requête HTTP en requête FPT. Un serveur délégué conserve aussi les pages des sites visités; il peut aussi être installé dans un garde-barrière (firewall) afin d'interdire l'accès à certains sites. Un navigateur comprend aussi d'autres protocoles tels que file, mailto (pour envoyer un mèl), telnet (connexion à distance), ...

Internet n'est pas l'unique réseau, des sociétés telles que AOL, CompuServe, Questel ont leur réseau auquel on a accès par abonnement.

La société de l'information

les unités de lieu et de temps ont disparu
information plus courte
rapidité de la transmission de l'information :
- rapidité de validation
- rapidité d'assimilation
l'internet est une évolution plus qu'une révolution
- la révolution est technologique et non informationnelle
internet est un média complémentaire et non de substitution

La recherche d'information

Le cycle du renseignement

Il faut dorénavant savoir gérer l'abondance d'information. Pour cela, un dispositif de veille (ou intelligence économique) doit être mis en place.

collecte
- cerner les besoins réels en information
- quelles sources d'information :
  - sources formelles : sur un support (CD, papier, …)
  - sources informelles : principalement orales (forum, colloque, exposition, …).
- type d'information :
  - information primaire : celle que l'on doit créer (rapport)
  - information secondaire : celle qui existe déjà.
- accessibilité à l'information :
  - information blanche : accessible à tous
  - information grise : plus de valeur ajoutée
  - information noire : sources informelles (réseaux)
traitement
- validation :
  - fiabilité
  - pertinence

traitement de l'information :
- indexation
- analyse bibliométrique
- analyse sémantique.
synthèse

stockage et diffusion : communiquer la bonne information à la bonne personne au bon moment. Pour cela, il faut des outils de communication (bulletin, forum, intranet, …).

Données brutes ==> informations pertinentes ==>renseignements utiles

Eléments terminologiques

il faut distinguer une donnée d'une information. Une donnée est un fait particulier (Jean-Pierre, 27ans, 1.83cm; nous avons ici 3 données). Une information est une suite de données (dans notre exemple, Jean-Pierre est un jeune homme plus grand que la moyenne). Il est toujours bon de définir les termes que l'on emploie.
certaines fois, des pourcentages apparaîtront à côté des résultats de votre requête. Ces pourcentages sont de 2 sortes, la précision et le rappel. Ces pourcentages se calculent soit sur 1.00%, soit sur 100% (si ces chiffres s'affichent, c'est que vous avez trouvé l'Information).
Ainsi, si vous posez une question sur les 'crapauds-buffles', que dans un site 10 pages contiennent au moins 1 de ces termes, avec 4 contenant ou (exclusif) crapauds ou buffles et 2 contenant crapauds-buffles, vous avez une précision de 0.66 (4/6) et un rappel de 0.40 (4/10).
La pertinence des termes est calculée de plusieurs manières. Lorsqu'il y a plusieurs termes, la contiguïté des termes (sont-ils proches l'un de l'autre) est une méthode. Une autre consiste à calculer la fréquence du / des termes de la requête. Une dernière façon est l'écho de pertinence, cela revient à une analyse par l'exemple, par le contexte.
techniques de recherche :
- la sous-chaîne, on recherche formellement le / les termes que vous avez tapés.
- pour avoir une recherche plus large, on peut utiliser le radical, ainsi, si vous tapez le terme 'ami', tous ces dérivés seront aussi cherchés (amis, amie, amical, amicalement).
- afin d'élargir le champs sémantique, on peut utiliser des synonymes des mots de la requêtes.
- certaines fois, il se peut que le / les termes de votre requête ne soient pas dans une langue que vous connaissiez (en russe par exemple). Pour résoudre cela, on utilise la technique du motif, une reconnaissance purement formelle sera effectuée, on affiche seulement les résultats où tous les éléments du motif concordent.

Annuaires de recherche

Ils sont aussi appelés répertoires de recherche ou plus simplement index.

Ce sont des outils qualitatifs. Ils permettent d'explorer un domaine peu connu afin d'avoir un état des lieux de l'existant. L'information est organisée logiquement. Chaque domaine, ou thème, est divisé en rubriques, elles-mêmes divisées en sous-rubriques. Certains ont un champs d'interrogation.

Lorsque l'on commence une recherche, il convient de d'abord utiliser ces outils. Grâce aux informations trouver on peut en effet compléter son corpus :

en enlevant les termes parasites : ceux qui apparaîssent dans les intitulés des rubriques et dans les descriptifs des sites
en enrichissant son corpus des termes issus des meta-balises des sites visités. Pour cela, selon les navigateurs :
- Internet explorer : Affichage / Source
- Netscape : Afficher / Source de la page
Il faut cependant faire attention à certaines choses : les cadres; si les pages du site sont dynamiques.

Annuaires thématiques
Excite : en français , en anglais	francite	looksmart
Nomade	Open directory	virtual library
Yahoo : en français , en anglais

Annuaire géographiques
virtual tourism

Annuaires spécialisés
All-in-One	Annuaires des outils de recherche classés par thème
European Search Engines	Annuaire des outils de recherche européens classés par pays
Fraternet	Le portail des associations
Le Gratuit	Tout ce qui est gratuit sur Internet.
Moteurs-régionaux	Carte sensitive donnant accès aux moteurs régionaux français
Nos ballades sur le Web	Listes de thèmes, de points de repères pratiques, avec une courte description des sites
Russian and East European Studies Web	Ressources internet sur la CEI, les balkans, les PECO et l'Asie Centrale fait par l'université de Pittsburg
Strategic Road	Strategic-Road est un annuaire ou méta-index spécialisé dans la recherche de documents concernant des thèmes sélectionnés

Sites personnels
Ahoy	Le "trouveur" de pages personnels
Sher Index	Important index de liens classés par thèmes
Joël de Rosnay	Site consacré à la prospective / futurologie dans le domaine des NTIC

Moteurs de recherche

Les moteurs sont des outils quantitatifs, de ce fait, si les termes de la question posée sont trop généraux, un nombre assez impressionnant de réponses va être affiché. Pour éviter cela, la formation d'un corpus est nécéssaire.

Un moteur de recherche se compose d'un robot (spider ou araignée) qui parcourt le web à l'affût de nouveaux sites, et d'un outil d'indexation.

De nouvelles technologies de recherche voient le jour, par exemple, la technologie NG. A la suite d'une requête, le moteur de recherche suggère une liste de termes ayant un rapport avec les mots de la demande. L'utilisateur peut inclure ou non des éléments de cette liste aux termes de sa question. A une question portant sur "Poutine et Russie", des éléments tels que "Tchétchénie", "le FSB","les présidentielles en Russie" apparaîtont, en ajoutant certains de ces termes on affine sa requête.

Une autre technologie, tout droit issue de l'IA (Intelligence Artificielle) existe, mais les résultats ne semblent pas encore être là. Cete technologie se nomme DWIM (Do What I Mean). Elle consiste à éviter, lorsqu'il y a synonymie, d'accéder à des pages ne portant pas sur le bon sujet.

Moteurs de recherche
Altavista : en français , en anglais	Ecila	Hotbot
Go	Google	Lycos
Webcrawler

Moteurs de recherche régionaux
Biélorusse		09.Open
Breton		Breizhoo
France	Francité	Voilà
Lettonie	All Latvia
Russie	Aport	Rambler

Moteurs de recherche spécialisés
Acronym Finder	Trouver des abrévations ou des acronymes
GoGraph	Moteur de recherche d'images
Trouvez	Pour les cyber-consommateurs
Sher Index	Important index de liens classés par thèmes

Syntaxe de quelques moteurs de recherche ( source : abondance )

	AltaVista	HotBot	Infoseek	Northern Light	Excite	Lycos	Web Crawler	Google	All The Web
OU	Par défaut	Choix any of the words	Par défaut	OR	Par défaut ou OR	Par défaut ou OR	Par défaut ou OR	Non utilisé	Choix any of the words
ET	Signe +	Choix all the words ou signe +	Signe +	AND ou signe +	AND ou signe +	Signe +	AND ou signe +	Opérateur par défaut ou signe +	Choix all the words ou signe +
SAUF	Signe -	Signe -	Signe -	NOT ou signe -	AND NOT ou signe -	Signe -	NOT ou signe -	Signe -	Signe -
Expression	Guillemets	Guillemets	Guillemets	Guillemets	Guillemets	Guillemets	Guillemets	Guillemets	Guillemets
Troncature	*	*	Non	*	Non	Non	Non	Non	Non
Recherche linguistique (nombre de langues)	Oui (25)	Oui (7)	Non	Oui (5) **	Non	Oui (15) **	Non	Oui (11)	Oui (31)**
Recherche sur le titre	title:	title:	title:	title:	Non	Choix "Title only" **	Non	Non	Choix "in the title"**
Recherche sur le domaine	domain:	domain:	site:	url:	Non	Non	Non	site:	Choix "in the url"**
Recherche sur le nom du serveur	host:	domain:	site:	url:	Non	Choix Title dans la zone "Page field"**	Non	site:	Choix "in the url"**
Recherche sur l'URL	url:	Non	url:	url:	Non	Choix URL dans la zone "Page field"**	Non	Non	Choix "in the url"**
Recherche sur les adresses des liens	link:	linkdomain:	link:	Non	Non	Non	Non	link:	Choix "in the link to url"**

Metamoteurs

Vous vous êtes rendu compte que chaque moteur de recherche à sa propre syntaxe. Chez certains, on peut taper tel quel sa requête en espaçant les mots clés par des blancs; chez un autre, il faut mettre des + entre les mots; chez un autre des parenthèses; chez un autre des opérateurs booléens du style and, or, not, near, .... Un metamoteur est en fait un super-moteur de recherche paramétrable. Il permet d'utiliser plusieurs moteurs de recherche simultanément. Vous lui indiquez sur quels moteurs vous voulez que la recherche s'effectue (en général, des moteurs sont prédéfinis et il suffit de cocher ceux que vous voulez utiliser), vous choisissez le nombre de résultats par moteur (les 10 premiers URL, les 50 premiers, etc.), enfin, vous tapez votre requête. Il va chercher sur les différents moteurs de recherche en traduisant pour vous votre requête d'après la syntaxe de ces différents moteurs. Ainsi, vous tapez vos mots clés, en les espaçant d'un blanc, et vous lancez votre requête. Le résultat final est ainsi beaucoup moins impressionnant que celui d'un moteur de recherche. Certains évacuent les doublons.
Certains ont des options paramétrables (ne vous attendez pas à pouvoir les personnaliser de a à z, ces options sont prédéfinies, vous pouvez au mieux faire un choix, sinon, cochez une / plusieurs cases).
Les metamoteurs permettent de débrousailler, de voir ainsi quels sont les moteurs de recherche qui répondent le mieux à une requête.
La seule restriction est qu'ils n'utilisent pas les options avancées des moteurs.

Il existe 2 types de metamoteurs : ceux que l'on utilise directement sur internet et ceux que l'on doit installer sur notre ordinateur. On parle dans le premier cas de meta-moteur on-line et dans le second de meta-moteur off-line. Ces derniers ont comme interêt que vous n'avez pas à vous connecter à internet. Vous pouvez paramétrer votre requête (choisir les moteurs, définir la périodicité de la recherche et le temps de la recherche, taper vos mots clés) sans être connecter à internet et une fois la recherche terminée, regarder les résultats sans être connecté. En effet, les résultats sont enregistrés sur votre disque dur, ce qui peut prendre beaucoup de place si la recherche dure longtemps, il faut donc faire attention à la quantité de résultat.

Accessibles du web :
- Metacrawler : cliquez sur Power Search. Vous pourrez ainsi choisir :
  - les moteurs de recherche que vous voulez utiliser (en cochant les cases correspondantes)
  - le domaine (régions géographiques) des sites - ça correspond à l'extension des URL (.fr; .ru; etc.)
  - le temps qu'il ne faut pas dépasser pour charger une page (erreur 404)
  - la quantité de résultats par page et par moteur de recherche
  - le mode d'affichage des résultats au final :
    - relevancy : nombre de mots trouvés au sein d'une page tout moteurs confondus
    - site : par domaine
    - source : par moteur de recherche
  - Vous pouvez configurer cela par défaut en cliquant non plus sur Power Search mais sur Customize (mais vous devez accepter les coockies).
- ProFusion : cliquez sur myProFusion pour créer votre compte. Au travers des pages de formulaire que vous avez à remplir, vous indiquer entre autre quels type de moteurs vous désirez utiliser (ils sont classés par thème). L'option ProFilter vous permet de gérer vos requêtes et de pouvoir, par exemple, les poser une nouvelle fois, les effacer, ...
A installer :
- Je vous conseille pour cela d'aller sur le site de WebFerret, de cliquer sur Free Downloads, de choisir le Power User Pack et de l'installer (ça se fait pratiquement automatiquement). Ce logiciel se compose de 7 modules, Pour paramétrer ces différents modules, allez pour chacun d'eux dans View / Options. Vous choisirez ainsi les moteurs de recherche à utiliser, le nombre de résultats, les balises HTML à analyser (que la balise titre, tout le document, etc.), etc.
  Une fois les résultats affichés, vous pouvez les enregistrer dans un fichier HTML. Chaque résultat peut être validé, supprimé, et bien sûr consulté. Le bouton resume permet de relancer une requête (les nouveaux résultats seront ajoutés aux anciens).
  Vos requêtes restent en mémoire dans le champs Containing, pour y avoir accés, cliquez sur le petit triangle à droite du champs.
  - WebFerret : metamoteur pour le Web
  - FileFerret : recherche de logiciels et de programmes
  - EmailFerret : recherche de E-mails
  - InfoFerret : recherche dans des domaines particuliers (finance, science, ...)
  - NewsFerret : recherche dans un NewsGroup, en l'occurrence DejaNews
  - PhoneFerret : recherche de numéros de téléphone (que pour les USA)
  - IRCFerret : recherche d'une personne sur un chat

Metamoteurs
Metamoteurs on line
1blink	All4one	Ariane6
Datahit	Dogpile	Inference Find
Metacrawler	Northernlight	Pro-Fusion
Search	SuperSearch
Metamoteurs off line
Inforian Quest	MataHari	WebFerret

Agents intelligents

Un agent intelligent est un logiciel dédié spécialement à la recherche d'information. Il permet de poser une question en langage naturel, de filtrer les résultats, d'effectuer une analyse sémantique, de programmer des veilles. Les résultats peuvent se présenter sous forme de liste de sites avec des pourcentages de pertinences ou sous forme de cartes ou de graphes.
Lorsque l'on parle de recherche en langage naturel, il ne faut pas oublier que ce langage naturel a été formalisé mathématiquement puis informatiquement, avec tous les problèmes que cela pose et toutes les décisions ad hoc utilisées. C'est un secteur dépendant des découvertes en linguistique formelle (avec toutes les restrictions que cela comporte) et en informatique.

Les agents intelligents sont des logiciels qu'ils faut installer sur son ordinateur puis paramétrer.
A l'image des meta-moteurs off line, les résultats sont enregistrés sur le disque dur, il faut donc faire attention au volume des résultats.

Agents intelligents
Copernic	Une version gratuite mais bridée (certaines options ne sont pas accessibles) est téléchargeable d'internet. Si vous désirez des renseignements, vous pouvez aller sur la fiche des spécifications ou sur la page support (FAQ, ...).
DigOut4U
Agents cartographiques
Semiomap	Umap

Copernic

Copernic est un logiciel de recherche d'informations sur Internet fait par Copernic Technologies Inc. Vous pouvez télécharger une version de démonstration dont certaines options sont bridées.

Configuration

Outils / Options
- onglet Général : paramètres visuels; activation ou désactivation des messages pour l'utilisateur; correction orthographiques de la requête.
- onglet Connexion : transfert et taille des fichiers pouvant être téléchargés; configuration du Proxy.
- onglet Domaine :
  - Domaine / Moteurs (ou par le menu Outils / Domaines) : vous permet de choisir les moteurs de recherche à utiliser dans les différents domaines de recherche (en cochant ou décochant des moteurs préétablis), ainsi que le type de recherche (rapide, normale, détaillée, personnalisée). Pour avoir accès à ces dernières options, cliquez sur un domaine puis sur Propriétés et allez dans l'onglet Détails. Choisissez le type dans le menu déroulant.
  - Groupe de moteurs : vous ne pouvez pas vous créer de groupe, simplement en télécharger du site Web de Copernic.
  - Barre des domaines de recherche : afin d'avoir de nouveaux domaines.
- onglet Navigateur : configurer le navigateur que vous utilisez pour visualiser les résultats.
- onglet Avancé : le délai d'attente qui sert à la validation et au téléchargement d'une page, vous pouvez choisir le temps au-delà duquel une page ne doit plus être prise en compte. Documents vous permet de spécifier au bout de combien de jours vos recherches peuvent être supprimées de votre disque dur. Copernic télécharge et classe les documents que vous avez jugé pertinents sur votre ordinateur afin que vous puissiez les consulter en local.

Lancer une recherche

Créer un dossier

Avant toute recherche, il vous faut créer un dossier où sera ranger le résultat de votre requête. Allez dans Fichier / Dossier / Créer. Donnez un nom à votre dossier et dans le champs Dossier du menu Copernic, choisissez le. Les données finales sont classées dans le répertoire Copernic / Data / Default User.

Choisir un domaine

Il vous faut d'abord choisir le domaine de recherche (partie gauche de la fenêtre), la boîte de dialogue "Créer une recherche" s'affiche. Vous pouvez choisir les moteurs ainsi que le nombre de résultats en cliquant sur le bouton Propriétés à droite du domaine de recherche. Puis tapez les mots à rechercher dans le champs "Requête" et cocher l'une des options de chercher (chercher tous les mots, chercher un des mots ou chercher l'expression exacte). Vous pouvez alors soit Chercher, soit aller à l'onglet Paramètres pour choisir le type de recherche (rapide, normale, détaillée, personnalisée). Je vous conseille de personnaliser en choisissant de 10 à 20 résultats par moteurs de recherche et un nombre total de résultats proportionnel au nombre de moteurs utilisés (si il y a 5 moteurs à 20 résultats, cela fait 100 résultats au final). Enfin, cliquez sur Chercher.

Consulter les résultats

Une fois la recherche effectuée, dans la fenêtre de Copernic, vous avez les différentes pages trouvée avec, par défaut souligné en jaune, les mots clés (vous pouvez changer l'apparence en allant dans Affichage / Apparence).

En mettant en surbrillance un des résultats et en cliquant sur Fichier / Propriété, vous avez quelques renseignements sur la page.

Vous pouvez classer les résultats selon le critère qui vous semble le plus pertinent en allant dans Affichage / Trier les résultats par. La même chose peut être faite pour vous différentes recherche en allant dans Affichage / Trier les recherches par.

Vous pouvez consulter les résultats obtenus en cliquant sur l'URL d'un résultat, ou en allant dans Fichier / Ouvrir. Dans ce cas, vous pouvez choisir de l'ouvrir en local ou du Web. Le menu Ouvrir dans une nouvelle fenêtre ouvre de nouveau un navigateur.

Un autre moyen est d'aller dans Résultats / Consulter, et de choisir de visualiser tous les résultats ou seulement un type bien particulier (que vous pouvez choisir dans le menu déroulant). Une interface de contrôle (explorateur des résultats) s'ouvre alors et vous permet de passer de page en page (la page 0 est celle des résultats). Vous pouvez reclasser les résultats, aller directement au premier / dernier, ... Ce type de navigation est très conviviale.

Un peu trop de résultats

Si vous considerez que vous avez trop de pages, vous pouvez en réduire le nombre sans avoir à affiner votre requête. Pour cela, allez dans Résultat / Valider, Copernic va ainsi détecter les documents qui sont inaccessibles (erreur 404 par exemple). En cliquant sur Détails dans la fenêtre Progression de la validation, vous voyez quelles sont les URL inaccessibles.
Vous pouvez ensuite raffiner votre requête (Résultats / Raffiner). Ceci réduira encore le nombre de documents. Comme ci-dessus, en cliquant sur Détails, vous voyez le / les sites supprimés.
Vous pouvez enfin cocher les documents que vous jugez pertinents afin de ne garder que ces derniers.

Enregistrement de votre travail

Vous pouvez enfin enregistrer les documents restant (avec ou sans images) avec Résultats / Télécharger.

Les résultats peuvent être envoyer par E-mail au format HTML, txt, ... (Fichier / Envoyer). Il faut dans ce cas avoir configurer son navigateur en allant dans Edit / Preference / Mail & Group et en cochant "Use Netscape Messenger from MAPI-based applications.
Vous pouvez aussi les exporter au format HTML, txt, .. (Fichier / Exporter).

Et après?

Vous pouvez programmer une veille, i.e., indiquer à Copernic quand est-ce que vous désirez qu'il relance votre requête automatiquement. Pour cela, aller dans Recherche / Veille (cette option est bridée dans la version de démonstration).
Cette veille peut se faire manuellement en choisissant Recherche / Mettre à jour la recherche.
Vous pouvez aussi modifier votre requête (Recherche / Modifier).
Si vous désirez poser la même requête mais dans un autre domaine, vous pouvez Dupliquer votre requête (Recherche / Dupliquer).

DigOut4U

DigOut4U est un système automatique de recherhe sémantique d'information sur le Web conçu par la société Arisem. Il permet de poser une requête multilangue (anglais, français) en langage naturel sur plusieurs moteurs de recherche en même temps. Les résultats sont analysés, téléchargés sur votre ordinateur et classés. Les pages doublons comme celles comportant une erreur (404 par exemple) ne sont pas prises en compte. Une requête peut être redéfinie afin de trouver des résultats plus pertinents (recherche en entenoire).
L'analyse sémantique doit permettre de réduire les problèmes de bruit, ou de silence, ainsi que le volume d'information.

Vous pouvez télécharger du site Arisem une version d'évaluation de 30 jours.

Comment ça marche :

Une fois que vous avez installer ce logiciel sur votre disque dur, avant de lancer pour la première fois une requête, vous devez configurer DigOut4U en allant dans :
- Fichier / Préférences (File / Preference) :
  - indiquer votre navigateur par défaut; si vous désirez qu'en double cliquant sur une adresse ce soit l'URL qui soit appelée ou le fichier chargé sur votre ordinateur. L'URL est préférable si vous voulez par la suite visiter plus profondément le site.
  - choisir le nombre de moteurs de recherche par requête, et de bipper pour tout résultat jugé pertinent.
  - configurer le proxy si vous en avez un.
Une fois configurer, vous pouvez lancer une requête :
- Fichier / Nouvelle recherche (File / New Search) :
  - onglet Question : posez votre question, le boutons Mots clés (keywords) vous affiche les mots clés en anglais et en français, puis choisissez la langue des documents que vous voulez consulter, par défaut l'anglais et le français sont prises en compte.
  - onglet Sources :
    - Sélection (ou Fichier / Edition des Sources (File / Source Edition)) : vous permet de choisir le lieu de recherche (Web ou NewsGroup) et le type de recherche pour le Web (Rapide (Quick) ou Recherche étendue (Large)). Le bouton Editer (Edit) vous permet de créer des groupes d'URLs servant aux recherches. Si vous cliquez sur Editer (Edit) :
      - dans la fénêtre de gauche (Groupe de Sources Disponibles (Available Source Groups)), une liste de moteurs de recherche apparaît. Pour rajouter ou un groupe de moteurs de recherche ou un seul moteur de recherche :
      - cliquez sur Créer Groupe (Add) : donnez un nom à votre groupe ou moteur;
      - cliquez de nouveau sur Créer... (Add) et choisissez une URL (a URL) si c'est un site spécifique ou un moteur de recherche (a search engine) (pour les moteurs ou metamoteurs de recherche).
        Une nouvelle fenêtre apparaît, suivez les étapes numérotées de 1 à 4 :
        
        1) indiquez lui l'adresse exacte du site (http://www.lesite.extension);
        
        2) cliquez sur Cliquer ici pour obtenir la page (Click here to obtain the page);
        
        3) tapez "$KEYWORD$" dans le champs de recherche et lancez la recherche (en appuyant sur le bouton Submit, Search, ... du site);
        
        4) puis enfin cliquez sur Quand la page de résultats est arrivée, cliquez ici (... when the results are displayed, click here).
        Répétez cette manoeuvre autant de fois que vous désirez avoir d'adresses de sites dans votre groupe.
        Au sein d'un groupe déjà existant, vous pouvez ajouter une adresse en cliquant sur Créer... (Add) dans la partie gauche de la fenêtre.
        Pour supprimer une URL ou un groupe, choisissez le groupe / URL à supprimer et cliquez sur Del.
      - puis pour vous servir de / des adresses que vous venez d'entrer, vous pouvez vous créer un "profile", i.e., un groupe contenant les moteurs que vous voulez utiliser. Dans la fenêtre de droite (Sélection de Sources (Source Selections)), vous pouvez cliquer sur Créer (Add), puis donner un nom à votre source et ensuite, vous avez juste à sélectionner dans la fenêtre de gauche les moteurs, ou les groupes, que vous désirez utiliser et en utilisant les boutons >> ou << pour respectivement ajouter ou enlever des moteurs ou groupes de la source.
        Si vous créer une nouvelle source, une fenêtre de dialogue apparaît vous demandant si vous voulez garder les moteurs se trouvant déjà dans la source active. Choisissez non seulement si vous voulez avoir une source vierge et choisir vous-même vos moteurs ou groupes de recherche.
    - Fichier HTML (HTML Files) : vous permet d'analyser un fichier HTML particulier (pour les fichiers particulièrement long que vous voulez analyser).
    - Locale (Directory) : analyser les fichiers ayant une extension particulière et se trouvant soit sur votre disque dur, soit sur un réseau local.
    - URL : analyser un site particulier. Vous pouvez limiter la recherche à ce site, ainsi, tout hyperlien de ce site renvoyant à un site extérieur ne sera pas pris en compte.
  - onglet Options Avancées (Advanced Options) :
    - Arrêt au bout de (Stop After) : une recherche sur le Web peut prendre beaucoup de temps (et donc beaucoup d'espace disque), cette option vous permet d'arrêter la recherche au bout de n heures et / ou de n minutes.
    - Vous choisissez l'emplacement où vous voulez que les pages Web soient copiées sur votre disque dur.
      Une fois une recherche effectuée, si vous allez dans ce répertoire (avec l'explorateur Windows par exemple) , vous verrez des répertoires numérotés de 0 à n, chaque répertoire contenant un ou plusieurs sous-répertoires portant le nom d'un site. Ce sous-répertoire contient lui même un ou plusieurs fichiers. Si vous désirez lire ces fichiers, cliquez avec le bouton droit de la souris sur le fichier, cliquez sur Ouvrir avec et choisissez votre navigateur (iexplore, Netscape, etc.).
    - La dernière option vous permet de limiter la profondeur de la recherche - 10 est une profondeur raisonnable.
    - Conseils :
      - plus le temps de recherche sera long et plus il téléchargera de fichiers, faîtes donc attention à la place que vous avez sur votre disque dur;
      - plus la profondeur est important et, selon le temps indiquer, moins de sites seront visités.
- Fichier / Serveurs Interdits (File / Forbidden Hosts) : vous permet d'interdire des recherches sur des sites particuliers. Pour implémenter cette liste, vous pouvez soit taper l'adresse du site, soit, une fois qu'une recherche a été effectuée, cliquer sur la ligne indiquant le site puis cliquer sur le menu déroulant Résultats / Ajouter ce serveur aux serveurs interdits (Results / Ignore this Host for futur searches).
- Fichier / Exporter (File / Export) : vous permet d'enregistrer le résultat de votre recherche au format HTML (une liste de résultat (a result list) et une liste de résultat avec résumé (a result list with relevant extracts)).
Manipulation sur les résultats de la recherche :
Une fois une requête lancée, la fenêtre de DigOut4U se divise en 2. La partie supérieure vous indique, entre autre, le titre de la page, son adresse, sa pertinence (grâce à la petite tête à gauche du titre - plus elle sourit, mieux c'est - et à l'indice Pertinence (Relevancy)). En cliquant une fois sur l'une des lignes, la page Web (chargée sur votre disque dur) apparaît dans la partie basse de la fenêtre. Si vous désirez consulter une page en local sur votre navigateur, allez dans Résultats / Lance le navigateur sur le fichier (local) (Results / Launch Browser on stored files). En double cliquant, la page apparaît dans votre navigateur. Vous pouvez ainsi consulter les pages en local ou en ligne pendant que la recherche se poursuit.
La petite étoile qui apparaît sur la tête près du titre de la page vous indique que la page n'a pas été consultée. L'étoile disparaît dans le cas contraire.
Une recherche peut être arrêter en cliquant sur la croix rouge ou en allant dans Recherche / Démarrer/Arrêter la recherche (Search / Start/Stop Search).
Pour supprimer une ou plusieurs lignes, mettez en subrillance la / les lignes à supprimer (si il y a plusieurs lignes qui se suivent, appuyez sur la touche Shift et cliquez sur les lignes; si les lignes ne se suivent pas, appuyez sur la touche CTRL et cliquez sur les lignes), puis appuyez sur la touche Suppr / Del du clavier ou allez dans Résultats / Supprimer (Results / Delete Selected Reference(s)).
Résultats / Copier vers le presse-papier (Results / Copy URLs to Clipboard) vous permet de copier une ou plusieurs URL(s) en mémoire et de le / les coller, par exemple, dans le champs adresse de votre navigateur pour une URL, dans un document Word pour une ou plusieurs URL(s), etc.
Résultats / Extraits Pertinents (Results / Relevant extracts) vous permet de voir les lignes où apparaîssent les termes de votre requête au sein de la page que vous avez choisie.
Une fois que vous avez effectué une recherche, vous pouvez l'enregistrer en allant dans Fichier / Enregistrer (File / Save). Vous pourrez ainsi plus tard consulter cette recherche en allant dans Fichier / Ouvrir (File / Open) et en choisissant la recherche sur laquelle vous désirez travailler.

Autres outils de recherche

Recherche de E-mail
Internet Adress Finder	WhoWhere de Lycos	Yahoo

Recherche de programmes
Downloads	SoftSearch	Shareware

Annuaire des forums
Listes des forums français
Recherche de forums et Newsgroup
Liszt	Reference	Tile

Recherche de listes de diffusion
Annuaire francophone
Kitalettre

La veille

Comment évaluer les sources :

Il est commun de dire que l'on trouve de tout sur Internet et que lorsque l'on "discute" avec quelqu'un (par chat, mail, ...) on ne sait jamais qui est au bout. Ainsi en est-il des sites, on ne sait jamais qui réalisé un site, dans quel but, .... Evaluer un site est de ce fait assez compliqué à moins que l'on soit expert du thème traité par ce site, mais on ne peut être expert en tout!

Quelques sites offrent des critères d'évaluation de sites :

Pour en savoir plus

Ouvrages

Généralité :
- Cyberculture; Pierre Levy; Editions Odile Jacob; 1997 : exposé clair des nouvelles technologies, de leur impact, de leurs enjeux et de leurs éventuelles évolutions
- L'homme symbiotique; Joël de Rosnay; Points; 1997 : réflexions sur les possibles des technologies du futur et les conséquences de leur intégration dans notre environnement
Communication :
- Internet, et après? - une thèorie critique des nouveaux médias; Dominique Wolton; Champs Flammarion; 2000 : réflexions très intéressantes sur les évolutions de la communication et des technologies modernes
Informatique / Internet
- Internet; Arnaud Dufour; Que sais-je n°3037; 1997 : très bonne et très claire introduction technique
- A la recherche de l'intelligence artificielle; Daniel Crevier; Champs Flammarion; 1999 : l'histoire de cette science appelée informatique. Quels en sont les grands personnages? Quelles en sont les grandes idées?
- L'ordinateur et le cerveau; John von Neumann; Champs Flammarion; 1996 : considérations du père de l'ordinateur moderne sur les ressemblances entre les processus humains et informatiques
Recherche sur internet
- Intelligence stratégique sur Internet; Carlo Revelli; Dunnot; 1998
Réseaux :
- Réseaux - 3ème édition; Andrew Tanenbaum; Dunot; 1997 : la bible. Tout est expliqué, cependant ce livre s'adresse plus à des techniciens.

Revues

Qui a inventé l'ordinateur?; Les cahiers de Science et vie hors série; décembre 1996
Révolution dans la communication; Manière de voir - le monde diplomatique; Juillet-août 1999
Internet et moi, et moi, et nous; Télérama hors série; 2000
La Recherche - spécial Internet; n°328; Février 2000

Sites

Abondance : site français d'information sur les outils de recherche. Très complet.
Abeille : intelligence économique et veille sur Internet. Très bon site portail.
AgentLand : portail des outils de recherche fait par la société Cybion
Association des professionnels de l'information et de la documentation - ADBS
Botspot : Actualité sur les outils de recherche.
Bottin Internet : les robots contre-attaquent.
Cybion : Fiches techniques sur les agents pour la veille et la recherche d'information.
dir.ru : catalogue russe des ressources de l'Internet. Une mine!
Guide de recherche d'information :
- La recherche d'information sur Internet : bonne introduction
- Guide d'Initiation à la Recherche sur Internet : université Laval au Québec.
- Guide ne No-Bug : permet d'avoir des définitions clairs de ce domaine et de distinguer les différents outils.
- Le Manuel de survie du chercheur sur Internet : donne des conseils méthodologiques.
- Vocabulaire des moteurs de recherche
indicateur : répertoire des outils de recherche
Internet.serach tools : listes assez impressionantes d'annuaires, de moteurs et metamoteurs.
Jean Michel : spécialiste des NTIC; écrits très intéressant en ligne.
Liste d'agents de recherche avec commentaires : ces pages permettent d'accéder : à une sélection des meilleurs moteurs classés par thèmes; à une fiche d'analyse des principaux moteurs pour comprendre leur fonctionnement, accompagnée d'untest d'utilisation en histoire géographie qui permet de choisir les plus efficaces.
Strategic-road : liste d'agents intelligents classés par thème

Annexes

Dictionnaires des termes utilisés

Adresse électronique : adresse permettant d'envoyer un message électronique à un utilisateur connecté à Internet ou à un des réseaux qui lui sont rattachés par une passerelle de messagerie.
Adresse IP (adresse internet) : adresse identifiant une machine sur le réseau Internet. Elle est composée de 4 octets (soit 32 bits) généralement écrits sous forme décimale, par exemple 159.36.5.45
Client : dans l'architecture client/serveur, la machine qui utilse un service est nommée client.
DNS (Domain Name Server) : protocole Internet assurant la conversion entre les noms IP (www.monsite.com) et les numéros IP (125.36.5.89) des machines reliées à Internet.
Firewall (pare-feu) : machine placée entre le réseau Internet et un réseau privé afin de renforcer la sécurité de ce dernier.
FTP (File Transfer Protocol) : protocole de transfert de fichiers utilisés sur Internet. Il définit les règles de transfert des fichiers entre 2 machines.
Gopher : système d'information distribué fonctionnant en mode client-serveur. L'accès à l'information est structuré selon un réseau de menus multiniveaux.
HTTP (HyperText Transfer Protocol) : protocole de communication utilisé pour les échanges de données entre les clients et les serveurs www.
Hostname (nom logique ou symbolique) : nom identifiant une machine sur Internet. Les serveurs de noms (DNS) convertissent les hostname en adresse IP.
IPng : future version 6 du protocole IP destinée à remplacer le protocole IPv4.
Meta-moteur : logiciel regroupant plusieurs moteurs de recherche. On parle de meta-moteur on-line lorsque l'on doit se connecter à internet pour paramétrer le meta-moteur, et meta-moteur off-line lorsque l'on installe ce logiciel sur son ordinateur et que l'on paramètre ainsi le meta-moteur sans avoir à se connecter à internet.
MIME (Multipurpose Internet Mail extensions) : protocole spécifiant le format des messages Internet comportant des éléments multimédia.
Netiquette : ensemble de règle comportementales à observer sur Internet, sur usenet ou sur un newsgroup.
News : système de discussion asynchrone distribué permettant d'échanger des informations dans des newsgroups thématiques.
Newsgroup : désigne un des groupes de discussion thématique sur Usenet. Ils sont organisés suivant une structure thématique hiérarchisée.
NNTP (Net News Transfer Protocol) : protocole utilisé pour diffuser les articles sur Usenet.
Protocole : convention précisant des règles et des spécifications techniques à respecter dans le domaine des télécommunication afin d'assurer l'interopérabilité des systèmes.
PEM (Privacy-Enhanced Mail) : protocole spécifiant l'utilisation du cryptage pour sécuriser la messagerie sur Internet.
PGP (Pretty Good Privacy) : logiciel de cryptage capable d'assurer confidentialité et authenticité aux communications électroniques.
POP (Post Office Protocol) : protocole de messagerie permettant à un micro-ordinateur de consulter et d'envoyer des messages électroniques sans être connecté au serveur de messagerie.
Serveur : une machine ou une application capable de rendre un service à des clients.
SMTP (Simple Network Management Protocol) : protocole de messagerie utilisé sur Internet spécifiant l'échange des messages électroniques.
TCP (Transmission Control Protocol) : protocole de niveau Transport utilisé par la plupart des protocoles utilisés par Internet.
TCP/IP (Transmission Control Protocol over Internet Protocol) : désigne la famille des protocoles utilisés sur Internet
URL (Uniform Ressource Locator) : syntaxe utilisée par le web pour spécifier la localisation physique d'un fichier ou d'une ressource sur Internet.
URN (Uniform Ressource Name) : syntaxe qui devrait permettre d'identifier une ressource par un nom qui sera plus stable dans le temps qu'une localisation physique.
Usenet (Unix User Network) : réseau offrant un service de discussion asynchrone mondial appelé Usenet news.
World Wide Web : système hypermédia développé par Tim Berners-Lee et son équipe du CERN. WWW est basé sur une architecture client-serveur et permet de mettre à disposition des documents hypertextes.

Référencement d'un site

Les étapes d'un référencement

L’avant-référencement.

Qui nous référence déjà ? Pour cela, Altavista et Yahoo permettent, en tapant dans le champs de la question link :www.nom_site.ext de connaître tous les sites qui indiquent cet url.

Le référencement ne se fait pas de la même manière dans un annuaire et dans un moteur de recherche. Alors que dans le premier cas, on choisit la catégorie et on peut commenter son site dans des champs spécifiques, dans le second cas, une page est référencée (en générale la page d’accueil), un robot (spider, araignée) parcours les liens de cette page et visite ainsi le site en profondeur. Il indexe les données des meta-balises ainsi que, dans certains cas, les pages in-extenso. C’est pour cela qu’il faut :

Donner un titre à chaque page ;
Remplir les meta-balises dans les pages html. Ne sont-elles qu’en français, ou aussi en anglais, espagnol, … ?
Remplir les ALT des balises image ;
Ajouter une balise, ou un fichier, ‘robot’ :
- Installer un fichier "robots.txt" sur votre serveur. Le fichier "robots.txt" doit se trouver à la racine de votre serveur (le répertoire "root"). Si votre site est hébergé par votre fournisseur d'accès ou un hébergeur gratuit (Tripod par exemple) vous n'avez certainement pas accès à ce répertoire. Dans ce cas, utilisez le Meta Tag Robots (http://www.lycos.fr/help/tips/robots.html)
- <meta name= "robots " content= "index, nofollow "> // on peut mettre soit index, soit noindex. Dans le premier cas, il index la page la page, dans le second, non. Follow et nofollow indiquent si le robot du moteur de recherche doit suivre les liens de la page.

Exemple non-exhaustif de meta-balises (issu de http://www.adcom.fr/referencement/balise-meta.htm :

<HEAD>
<TITLE>Référencement de sites internet</TITLE>
<HTML LANG=fr>
<HEAD PROFILE="http://purl.org/metadata/dublin_core">
<META HTTP-EQUIV="Content-type" CONTENT="text/html; charset=ISO-8859-1">
<META HTTP-EQUIV="Expires" CONTENT="+30">
<LINK REV=made href="mailto:ld@adcom.fr">
<META NAME="keywords" CONTENT="Référencement de sites internet suivi">
<META NAME="description" CONTENT="Référencement de sites internet - suivi">
<META NAME="rating" CONTENT="General">
<META NAME="revisit-after" CONTENT="15 days">
<META NAME="VW96.objecttype" CONTENT="business">
<META NAME="ROBOTS" CONTENT="ALL">
<META NAME="DC.Title" CONTENT="Référencement de sites internet">
<META NAME="DC.Creator" CONTENT="adcom internet">
<META NAME="DC.Subject" CONTENT="référencement de sites">
<META NAME="DC.Description" CONTENT="Référencement de sites internet - suivi">
<META NAME="DC.Publisher" CONTENT="adcom">
<META NAME="DC.Contributors" CONTENT="laurent doublier">
<META NAME="DC.Language" SCHEME="RFC1766" CONTENT="FR">
<META NAME="DC.Coverage.PlaceName" CONTENT="France, Normandie, Hérouville">
<META NAME="DC.Coverage.x" CONTENT="-1.2888">
<META NAME="DC.Coverage.y" CONTENT="-48">
<META NAME="DC.Coverage.z" CONTENT="1">
</HEAD>

On peut distinguer 3 grandes familles de balises : les meta http-equiv, les metaname, et enfin les meta name DC. La première étant la plus utilisée par les moteurs, la deuxième assez peu courante, peu utilisée, la troisième est réalisée par le Dublin Core (initiale DC) qui est en train de réaliser un travail de fond sur l'archivage de document en utilisant ces balises comme source d'informations importantes, précises sur l'origine d'un texte, car sont regroupés l'auteur, la date, l'expiration du document, l'origine géographique (DC coverage.x.y.z), les contributeurs, publication, langue, etc...

Le référencement

Il faut compter entre 30 et 50 heures pour référencer un site.

En plus du temps passé à référencer, l’apparition de ce site dans un annuaire ou un moteur ne se fait pas instantanément, il faut compter une période de 1 jour à 10 semaines. Il faut compter environ 3 mois avant de connaître le positionnement d’un site.

Les informations demandées sont :

URL ;
Titre ;
Sous-titre ;
Descriptif ;
Commentaires (mise à jour, nouveautés, …) ;
Type d’inscription (1^èreinscription, 2^ème , …) ;
Date d’ouverture ;
Localisation du serveur (le pays) ;
Type de service (commercial, service public, …) ;
E-mail ;
Information sur le responsable (nom, prémon, fonction ; …).

L’après-référencement

Une fois le site mis en ligne, il faut se faire connaître de la communauté :

Netlinking : échange de lien avec d’autres sites;
Echange de bannière ;
Aller sur les forums et les Newgroups traitant de nos thèmes ;
Une campagne de pub sur le web coûte environ 10 000F. Elle consiste à afficher sa bannière sur différents sites (moteurs de recherche, sites commerciaux, …). D’après certaines statistiques, le taux de clics sur une bannière de pub est de 0,1 à 5%.

Pour savoir combien de pages ont été référencées, tapez url:www.nom_site.ext dans le champs de recherche du moteur / annuaire de recherche.

Référencement sur les sites étrangers

Référence-t-on ce site dans les annuaires et moteurs de recherche étrangers ? Si c’est le cas, il faut traduire les mots-clés et la phrase descriptive.

Solutions

Pour des renseignements complémentaires : http://www.ability-referencement.com/white-paper-referencement.html .
Pour une liste des prestations existant : http://www.citeweb.net/gratuitfrance/ webmaster-referencement-fr.htm .

Manuellement

Il est communément dit que le meilleur moyen de se faire référencer est de le faire manuellement.

Le site WebMasterPlan (http://www.webmasterplan.com/fr)offre gratuitement quelques prestations de pré-référencement : contrôle du code, test de rapidité, test des liens, test de popularité (sur les moteurs de recherche), ….

Il convient pour cela de bien définir les meta-balises et le descriptif de chaque page ainsi qu’un ciblage des annuaires et moteurs sur lesquels on compte se faire référencer. Ensuite, il faut compter environ 1 semaine pour effectuer le travail – il dépend du nombre de page à référencer sur les annuaires, et un délai de 1 jour à 10 semaine pour être effectivement référencé.

Plusieurs sites offrent gratuitement la possibilité de se faire référencer automatiquement sur plusieurs annuaires / moteurs :

http://www.chez.com/aeroweb/annuaire
http://www.multimania.com/stoi/docs/refer.htm
http://www.topweb.com/submit/index.html
http://add.site.free.fr : 81 moteurs de recherche.

Logiciels

la société SilverCom (http://www.silvercom.com ) offre 2 logiciels :

WebAnalyse : WebAnalyse vous permet d'effectuer des audits de tout ou partie d'un site Internet, sur sa visibilité dans les outils de recherche (jusqu'à 3000 pages HTML). WebAnalyse automatise l'ensemble des tâches d'audit et vous fournit en quelques minutes des résultats précieux. Prix : 1420 FHT.
WebSubmit : WebSubmit vous permet d’effectuer des référencements rapides et efficaces en soumettant automatiquement votre site sur plus de 300 outils de recherche. Prix : 990 FHT.

Prestataires de service

En plus de référencer un site, les prestataires offrent un suivi concernant, par exemple, le traffic généré par ce référencement, le positionnement du site dans les annuaires / moteurs de recherche. Il y a ainsi des services sur la présence du site sur le Web, mais aussi des services pour optimiser cette présence.

De plus, ce travail se fait en général avec un documentaliste qui aide à la constitution des mots-clés et descriptif.

Ability-referencement : http://www.ability-referencement.com ; son premier devis commence à moins de 50 000F. Avant tout tourné vers le webmarketing.
Référencement-2000 – société Brioude-Internet : (http://www.referencement-2000.com ) : de 100F à 700 F pour le référencement ; service pour optimiser (5 200 F) ; …
France-référencement (http://www.france-referencement.com ) : offre une large palette de service autour du référencement et de l’audit : de 250 à 1050 F pour un référencement.
Internet-center (http://www.internet-center.fr ) : tourner vers le webmarketing.

Annuaires et moteurs de recherche

Les 17 outils de recherche importants :

Moteurs francophones	Moteurs internationaux
Carrefour.Net	Altavista
Ecila	Excite
Euréka	Infoseek
Francité	Hotbot
Lokace	Lycos
Nomade	Magellan
Les PagesWeb	Webcrawler
La Toile du Québec	Yahoo
Yahoo France

Annuaires de recherche

Ctrouvé : il faut d’abord se créer un compte (service gratuit) puis remplir un formulaire.
Dmoz : répertoire ouvert des ressources du Net qui vend ses bases de données en licences (Hotbot, Lycos, Netscape sont clients).
Euroseek : http://addsite.euroseek.com/page.php?ilang=fr
Francite : on référence son site en choisissant la catégorie. Un formulaire est à remplir demandant un descriptif en français et en anglais. On peut ensuite se faire directement référencer sur Altavista, Lycos, Hotbot, Infoseek, Excite, voilà, Nothern ligth, Magellan, …
Indexa : annuaire des professionnels; si l’on désire être enregistré sous les 48 heures, il faut payer 300FF. En cas contraire, l’enregistrement se fait sous 1 mois.
Hotbot
Nomade : ajouter.nomade.fr/ajouter; le délai est de 2 semaines; il est possible d’inscrire plusieurs sous-ensembles de pages.
Yahoo : il faut d’abord choisir sa catégorie en voyageant dans l’annuaire thématique. Une fois la catégorie choisie, cliquez dans le pied de page sur Proposer un site. Remplir les différents champs des pages (4 étapes) de formulaire. Une phrase descriptive ne doit pas dépasser 25 mots.
Wanadoo : un hyperlien Proposez votre site permet d’enregistrer son site. Le mode d’enregistrement est très convivial.

Moteurs de recherche

Altavista
Ecila
Excite
Lokace
Lycos (carrefour.net)
Voilà : en bas de page, un lien Ajouter votre site.

Pour en savoir plus :

conseils sur les sociétés françaises
ADcom : conseils pour se bien faire référencer.