MaxBoxer - Recherche sur Internet

Aux frontières de la Recherche sur Internet

Vous êtes un afficionados de Jean Bon 007 (Label Rouge, bien sûr). Vous voulez découvrir le dernier secret du complot mondial qu'on nous cache - la vérité n'est-elle pas ailleurs? Et vous vous dîtes que tout cela doit pouvoir se trouver sur Internet. Bonne chance ;-)

On peut trouver presque tout sur Internet, c'est vrai, et en quantité monstrueuse, c'est encore plus vrai, ce qui fait qu'en passant toute sa vie à rechercher ce qu'il y a de nouveau, ben ... on y passerait en effet TOUTE sa vie.

Classés par thèmes, voici les différents types de robots - ou bots dans l'jargon informateux - (ce n'est pas Terminatueur, ceux-ci, ils sont tout plein gentils, même si quelques fois ils sont un peu énervants) qui permettent de rechercher une information :

Un peu de thèorie
Répertoire de recherche
Moteur de recherche
Metamoteur
Agent intelligent
Encore

Un peu de thèorie

Un peu de vocabulaire avant d'entrer dans le vif du sujet. Il faut distinguer une donnée d'une information. Une donnée est un fait particulier (Jean-Pierre, 27ans, 1.83cm; nous avons ici 3 données). Une information est une suite de données (dans notre exemple, Jean-Pierre est un jeune homme plus grand que la moyenne). Il est toujours bon de définir les termes que l'on emploie.

Certaines fois, des pourcentages apparaîtront à côté des résultats de votre requête. Ces pourcentages sont de 2 sortes, la précision et le rappel. Ces pourcentages se calculent soit sur 1.00%, soit sur 100% (si ces chiffres s'affichent, c'est que vous avez trouvé l'Information, fêtez-le, ça n'arrive pas souvent!!!).
Ainsi, si vous posez une question sur les 'crapauds-buffles', que dans un site 10 pages contiennent au moins 1 de ces termes, avec 4 contenant ou (exclusif) crapauds ou buffles et 2 contenant crapauds-buffles, vous avez une précision de 0.66 (4/6) et un rappel de 0.40 (4/10).

La pertinence des termes est calculée de plusieurs manières. Lorsqu'il y a plusieurs termes, la contiguïté des termes (sont-ils proches l'un de l'autre) est une méthode. Une autre consiste à calculer la fréquence du / des termes de la requête. Une dernière façon est l'écho de pertinence, cela revient à une analyse par l'exemple, par le contexte.

Différentes techniques de recherche existent. Il y a celle de la sous-chaîne, on recherche formellement le / les termes que vous avez tapés. Pour avoir une recherche plus large, on peut utiliser le radical, ainsi, si vous tapez le terme 'ami', tous ces dérivés seront aussi cherchés (amis, amie, amical, amicalement). Afin d'élargir le champs sémantique, on peut utiliser des synonymes des mots de la requêtes. Certaines fois, il se peut que le / les termes de votre requête ne soient pas dans une langue que vous connaissiez (en russe par exemple). Pour palier cela, on utilise la technique du motif, une reconnaissance purement formelle sera effectuée, on affiche seulement les résultats où tous les éléments du motif concordent.

Répertoire de recherche

Dans un premier temps, agissant de façon méthodique, on regarde les thèmes donnés dans les répertoires de recherche (index thèmatiques - par exemple Yahoo- ou les annuaires -Strategic Road, pour l'actualité tous azimuts-) du net. Ainsi, on peut se faire une idée très générale de ce dont on cause le plus sur l'Internet.

Annuaires et Index

Indicateur.com

Répertoire des moteur de recherche classés par pays et par thèmes.

Russian and East European Studies Web The REESWeb is a comprehensive index of electronic resources on the Balkans, the Baltic states, the Caucusus, Central Asia, Central Europe, the CIS, Eastern Europe, the NIS, the Russian Federation, and the former Soviet Union. The REESWeb is sponsored by the Center for Russian and East European Studies of the University of Pittsburgh, a National Resource Center for Russian and East European Studies.

Strategic Road Strategic-Road est un annuaire ou méta-index spécialisé dans la recherche de documents concernant des thèmes sélectionnés. A ce titre il propose classiquement, pour chacun de ces thèmes et dans leur hiérarchie, une liste de liens vers des sites ou des documents pertinents au regard du thème choisi. Mais Strategic-Road est aussi un annuaire des annuaires puisqu'il propose, en parallèle à la liste de liens conduisant aux documents, une liste de liens conduisant à des annuaires et moteurs de recherche spécialisés concernant le thème choisi. L'utilisateur peut donc, dans un même espace, accéder immédiatement à des documents pertinents concernant le thème sélectionné et aux outils spécialisés lui permettant d'étendre ou d'approfondir sa recherche vers de nouveaux documents plus pertinents ou complémentaires. Plus qu'un méta-index, Strategic Road est donc un véritable outil de veille sur les ressources d'internet, à disposition des organisations et des professionnels, experts, décideurs économiques, journalistes, juristes, magistrats, universitaires etc....

Répertoires de recherche

Europe de l'Est & CEI

Slavophilia Slavophilia offers a comprehensive guide to Internet resources on Russia and Central/Eastern Europe.

France

Nos ballades sur le Web Listes de thèmes, de points de repères, avec une courte description des sites.

Le Gratuit Tout ce qui est gratuit sur Internet.

Russes

Catalogue 99 des ressources Web de la CEI et des Etats Baltes Répertoire en langue russe classé par pays

Inalco - département Russie. Arts, cuisine, histoire, périodiques, ...

Information économique Banques russes; droit; marché ...

Leader Sites officiels politiques, sites économiques, journaux, ...

RussianLondon Répertoire thèmatique et liste de serveurs couvrant l'ex-URSS.

Omen Pages personnelles et sites officiels sur les armements russes, la politique, la mafia, la société, ... plus de 10 000 liens.

Russia on-line

Sher Index Important index de liens classés par thèmes

Simtel Banques, droit, économie, ...

Videobridge Gouvernement, lois, affaires, ...

Weblist Altavista chez les russes

Zenon

Répertoires de recherche
Europe de l'Est & CEI
Slavophilia	Slavophilia offers a comprehensive guide to Internet resources on Russia and Central/Eastern Europe.
France
Nos ballades sur le Web	Listes de thèmes, de points de repères, avec une courte description des sites.
Le Gratuit	Tout ce qui est gratuit sur Internet.
Russes
Catalogue 99 des ressources Web de la CEI et des Etats Baltes	Répertoire en langue russe classé par pays
Inalco - département Russie.	Arts, cuisine, histoire, périodiques, ...
Information économique	Banques russes; droit; marché ...
Leader	Sites officiels politiques, sites économiques, journaux, ...
RussianLondon	Répertoire thèmatique et liste de serveurs couvrant l'ex-URSS.
Omen	Pages personnelles et sites officiels sur les armements russes, la politique, la mafia, la société, ... plus de 10 000 liens.
Russia on-line
Sher Index	Important index de liens classés par thèmes
Simtel	Banques, droit, économie, ...
Videobridge	Gouvernement, lois, affaires, ...
Weblist	Altavista chez les russes
Zenon

Moteur de recherche

Une fois qu'un thème précis a été repéré, on peut essayer de lancer une requête. On utilise pour ce faire un moteur de recherche (Yahoo - et oui, encore lui; AltaVista, Google...). Chaque moteur de recherche à sa propre technique de référencement des sites, ainsi, Google utilise la popularité des sites, i.e., le nombre de fois qu'un site (une url) est cité(e) dans d'autres sites (sur d'autres pages). De ce fait, si vous avez un milliard d'amis, demandez-leur de créer un site et de vous citer!!
Plus sérieusement, une fois une requête lancée, on regarde les résultats, et, oh miracle !!!, il y a 2 674 897 réponses à notre question. Alors là, 2 possibiltés, on retrousse ses manches et on passe d'URL en URL jusqu'à ce que mort s'ensuive, ou bien, usant de son cerveau pour trouver une solution plus humaine (un peu d'humanité dans ce monde de machines), on teste les metamoteurs.
De nouvelles technologies de recherche voient le jour, par exemple, la technologie NG. A la suite d'une requête, le moteur de recherche suggère une liste de termes ayant un rapport avec les mots de la demande. L'utilisateur peut inclure ou non des éléments de cette liste aux termes de sa question. A une question portant sur "Poutine et Russie", des éléments tels que "Tchétchénie", "le FSB","les présidentielles en Russie" apparaîtont, en ajoutant certains de ces termes on paufine sa requête.
Avant de passer aux metamoteurs, dans ma grande bonté, je vous fournis une liste de moteurs de recherche classés par pays - la direction ne se refusant aucun sacrifice.
Une autre technologie, tout droit issue de l'IA (Intelligence Artificielle) existe, mais les résultats ne semblent pas encore être là. Cete technologie se nomme DWIM (Do What I Mean). Elle consiste à éviter, lorsqu'il y a synonymie, d'accéder à des pages ne portant pas sur le bon sujet. Si vous vous intêressez à l'aéronautique et que vous désiriez avoir des informations sur McDonald, il serait bon de ne pas avoir d'informations sur la chaîne de hamburger-restaurant!!!

Moteurs de recherche

Américains

1blink Acronym Finder All4one

All in One Altavista Excite

Google Webcrawler Yahoo

Biélorusses

09.Open

Européens

Liste de moteurs européens classés par pays

Francophones

Breizhoo Lycos Mega-Francité

Nomade Spray Trouvez

Voilà Yahoo

Lettoniens

All Latvia

Russes

Aport Ay E-Ross

List Rambler Yahoo

Yandex

Moteurs de recherche
Américains
1blink	Acronym Finder	All4one
All in One	Altavista	Excite
Google	Webcrawler	Yahoo
Biélorusses
09.Open
Européens
Liste de moteurs européens classés par pays
Francophones
Breizhoo	Lycos	Mega-Francité
Nomade	Spray	Trouvez
Voilà	Yahoo
Lettoniens
All Latvia
Russes
Aport	Ay	E-Ross
List	Rambler	Yahoo
Yandex

Metamoteur

Le front se plisse !!! Qu'est-ce que c'est-y comme bestiole que ces "mets ta moteur"???? En fait, derrière ce nom un tantinet ésotérique se cache un outil très utile et très pratique.
Vous vous êtes rendu compte que chaque moteur de recherche à sa propre syntaxe. Chez certain, on peut taper tel quel sa requête en espaçant les mots clés par des blancs; chez un autre, il faut mettre des + entre les mots; chez un autre des parenthèses; chez un autre des opérateurs booléens du style and, or, not, near, ...En gros, on a une tête gros ça comme, ou autant de petites fiches qu'il y a de moteurs (vive la bureaucratie!). Un metamoteur est en fait un super-moteur de recherche paramétrable.Vous lui indiquez sur quels moteurs vous voulez que la recherche s'effectue (en général, des moteurs sont prédéfinis et il suffit de cocher ceux que vous voulez utiliser), vous choisissez le nombre de résultats par moteur (les 10 premiers URL, les 50 premiers, etc.), enfin, vous tapez votre requête. Il va chercher sur les différents moteurs de recherche l'information que vous cherchez en traduisant pour vous votre requête d'après la syntaxe de ces différents moteurs. Tiptop, non! Ainsi, vous tapez vos mots clés, en les espaçant d'un blanc, vous lancez votre requête. Le résultat final est ainsi beaucoup moins impressionnant que celui d'un moteur de recherche et un peu plus pertinent. Vous voulez testez, alors essayez Metafind, DataHit.
Certains ont des options paramétrables (ne vous attendez pas à pouvoir les personnaliser de a à z, ces options sont prédéfinies, vous pouvez au mieux faire un choix, sinon, comme au loto, cochez une / plusieurs cases - et dans ce cas, ne vous attendez pas à gagner le gros lot, y-en a pas! Enfin, sauf les réponses à votre requête). Ergoter est bien (encore que...), mais pratiquer est encore mieux, alors essayez :

Metacrawler : cliquez sur Power Search. Vous pourrez ainsi choisir :

les moteurs de recherche que vous voulez utiliser (en cochant les cases correspondantes)
le domaine (régions géographiques) des sites - ça correspond à l'extension des URL (.fr; .ru; etc.)
le temps qu'il ne faut pas dépasser pour charger une page (erreur 404)
la quantité de résultats par page et par moteur de recherche
le mode d'affichage des résultats au final :

relevancy : nombre de mots trouvés au sein d'une page tout moteurs confondus
site : par domaine
source : par moteur de recherche

Vous pouvez configurer cela par défaut en cliquant non plus sur Power Search mais sur Customize (mais vous devez accepter les coockies).
ProFusion : directement paramétrable dans la page de présentation (choix des moteurs, etc.).

Que diriez-vous d'avoir un metamoteur sur votre disque dur, une sorte de logiciel-metamoteur? Je vous conseille pour cela d'aller sur le site de WebFerret, de cliquer sur Free Downloads, de choisir le Power User Pack et de l'installer (ça se fait pratiquement automatiquement).
Ce logiciel se compose de 7 modules :

WebFerret : metamoteur pour le Web
FileFerret : recherche de logiciels et de programmes
EmailFerret : recherche de E-mails
InfoFerret : recherche dans des domaines particuliers (finance, science, ...)
NewsFerret : recherche dans un NewsGroup, en l'occurrence DejaNews
PhoneFerret : recherche de numéros de téléphone (que pour les States)
IRCFerret : recherche d'une personne sur un chat (attention, pas l'animal, hein, déconnez pas avec ça ;-)!!!)

Pour paramétrer ces différents modules, allez pour chacun d'eux dans View / Options. Vous choisirez ainsi les moteurs de recherche à utiliser, le nombre de résultats, les balises HTML à analyser (que la balise titre, tout le document, etc.), etc.
Une fois les résultats affichés, vous pouvez les enregistrer dans un fichier HTML. Chaque résultat peut être validé, supprimé, et bien sûr consulté. Le bouton resume permet de relancer une requête (les nouveaux résultats seront ajoutés aux anciens).
Vos requêtes restent en mémoire dans le champs Containing, pour y avoir accés, cliquez sur le petit triangle à droite du champs.

Metamoteurs
Ariane6	Datahit	Metafind
Metacrawler	Northernlight	Pro-Fusion
WebFerret

Agent intelligent

Vous n'êtes toujours pas satisfait - vous êtes dur là !!! Mais à tout (enfin presque), il y a une solution. Dans ce cas, le petit nom de cette solution est Agent Intelligent (pouaf, de l'intelligence en informatique, ça s'saurait). Un agent intelligent est un logiciel dédié spécialement à la recherche d'information. Il permet de poser une question en langage naturel (oui, oui, avec les articles et tout et tout), et d'avoir les résultats les plus pertinents. Ces résultats ont subi, avant de vous arrivez tout cuit sous le nez, une analyse ET syntaxique ET sémantique, fortiche, hein!
Ca y-est, vous vous dîtes "je vais enfin pouvoir trouver l'Information avec ces "'gens intelligents". Attention, ces logiciels sont certes performants, mais ils ont leurs limites. Lorsque l'on parle de recherche en langage naturel, il ne faut pas oublier que ce langage naturel a été formalisé mathématiquement puis informatiquement, avec tous les problèmes que cela pose et toutes les décisions ad hoc utilisées pour que "ces foutus machines comprennent ce qu'on leur dit". C'est un secteur dépendant des découvertes en linguistique formelle (avec toutes les restrictions que cela comporte) et en informatique, et en plus, c'est tout nouveau (moins de 80 ans!!!).
Ca vous démanche? Comme les agents intelligents sont des logiciels, il faut les acheter (misère de misère :-((). Mais dans leur bonté, certaines sociétés permettent de télécharger ces logiciels et d'en avoir ainsi une version d'évaluation ou de démonstration. Allez faire un tour sur les sites de Copernic, d'Arisem. Si vous désirez un peu d'exotisme quand à l'analyse finale de l'information, je vous conseille Umap de la société Trivium.
D'autre part, on ne se sert pas de ces agents comme de simples moteurs de recherche, il faut un minimum de connaissances. Ok, ok, où peut-on trouver le GROS livre de 650 pages écrites en tout petit? Ayant bon coeur, j'ai écrit quelques explications permettant de se servir de ces logiciels sans trop galérer. Je vous conseille donc d'aller sur les pages parlant de ces logiciels, puis ensuite, ben d'essayer.

Encore

Mais, allez-vous me dire, si je recherche le E-mail de quelqu'un, par exemple, comment fais-je? Ou bien si je recherche un programme? Utilise-je les mêmes moyens? Hein-je?
Le principe est le même, mais les outils sont différents. Si ce n'est les outils de Ferret qui traitent cela (principalement pour les USA), et quelques moteurs et metamoteurs qui offrent ce type de service, je ne vous ai pas encore donné d'adresses précises de moteurs pour E-mail, programmes, forums & Newsgroup, etc.
Afin de contentez, en voici quelques uns. Des explications supplémentaires seraient redondantes, alors, cliquez, requêtez, et voyez.

Recherche de E-mail
Internet Adress Finder	WhoWhere de Lycos	Yahoo

Recherche de programmes
Downloads	SoftSearch	Shareware

Nous avons pour le moment vu ce que l'on appelle le Web (www). Il existe d'autres domaines, tels que les Newsgroups ou Forums. Se sont des espaces de discussion. Chaque forum a un thème défini. Ils sont gratuits ou payants, aussi bien pour l'accès que pour y participer. Si vous voulez avoir un aperçu des thèmes traités dans les forums français.

Recherche de forums et Newsgroup
Liszt	Reference	Tile

Recherche de listes de diffusion
Annuaire francophone
Kitalettre

Et enfin, petit bouquet final, voici quelques sites donnant de plus amples informations sur tout ce domaine trop vaste pour être ne serait-ce que traité à 1% par ma frêle personne.

Sites d'informations
Botspot	Actualité sur les outils de recherche.
Cybion	Fiches techniques sur les agents pour la veille et la recherche d'information.

Références :

Recherche d'aiguilles dans une botte de liens; article de François Bourdoncle et Patrice Bertin; La Recherche - spécial Internet; n°328; Février 2000; p.66-71.

Sites :

Abondance : site français d'information sur les outils de recherche. Site très complet.
Bottin Internet : les robots contre-attaquent.
Guide d'Initiation à la Recherche sur Internet : université Laval au Québec.
Abeille : intelligence économique et veille sur Internet. Très bon site portail.
Internet.serach tools : listes assez impressionantes d'annuaires, de moteurs et metamoteurs.
Liste d'agents de recherche avec commentaires : ces pages permettent d'accéder : à une sélection des meilleurs moteurs classés par thèmes; à une fiche d'analyse des principaux moteurs pour comprendre leur fonctionnement, accompagnée d'untest d'utilisation en histoire géographie qui permet de choisir les plus efficaces.
dir.ru : catalogue russe des ressources de l'Internet. Une mine!
Guide de recherche d'information :

La recherche d'information sur Internet : bonne introduction
Guide ne No-Bug : permet d'avoir des définitions clairs de ce domaine et de distinguer les différents outils.
Le Manuel de survie du chercheur sur Internet : donne des conseils méthodologiques.
Vocabulaire des moteurs de recherche

Association des professionnels de l'information et de la documentation - ADBS
AgentLand

En tout cas, bonne recherche, que "le Bit de l'information soit avec vous", et si vous avez des suggestions à me faire, n'hésitez pas.

Annuaires et Index
Indicateur.com	Répertoire des moteur de recherche classés par pays et par thèmes.
Russian and East European Studies Web	The REESWeb is a comprehensive index of electronic resources on the Balkans, the Baltic states, the Caucusus, Central Asia, Central Europe, the CIS, Eastern Europe, the NIS, the Russian Federation, and the former Soviet Union. The REESWeb is sponsored by the Center for Russian and East European Studies of the University of Pittsburgh, a National Resource Center for Russian and East European Studies.
Strategic Road	Strategic-Road est un annuaire ou méta-index spécialisé dans la recherche de documents concernant des thèmes sélectionnés. A ce titre il propose classiquement, pour chacun de ces thèmes et dans leur hiérarchie, une liste de liens vers des sites ou des documents pertinents au regard du thème choisi. Mais Strategic-Road est aussi un annuaire des annuaires puisqu'il propose, en parallèle à la liste de liens conduisant aux documents, une liste de liens conduisant à des annuaires et moteurs de recherche spécialisés concernant le thème choisi. L'utilisateur peut donc, dans un même espace, accéder immédiatement à des documents pertinents concernant le thème sélectionné et aux outils spécialisés lui permettant d'étendre ou d'approfondir sa recherche vers de nouveaux documents plus pertinents ou complémentaires. Plus qu'un méta-index, Strategic Road est donc un véritable outil de veille sur les ressources d'internet, à disposition des organisations et des professionnels, experts, décideurs économiques, journalistes, juristes, magistrats, universitaires etc....