Aux frontières de la Recherche sur Internet


Vous êtes un afficionados de Jean Bon 007 (Label Rouge, bien sûr). Vous voulez découvrir le dernier secret du complot mondial qu'on nous cache - la vérité n'est-elle pas ailleurs? Et vous vous dîtes que tout cela doit pouvoir se trouver sur Internet. Bonne chance ;-)

On peut trouver presque tout sur Internet, c'est vrai, et en quantité monstrueuse, c'est encore plus vrai, ce qui fait qu'en passant toute sa vie à rechercher ce qu'il y a de nouveau, ben ... on y passerait en effet TOUTE sa vie.

Classés par thèmes, voici les différents types de robots - ou bots dans l'jargon informateux - (ce n'est pas Terminatueur, ceux-ci, ils sont tout plein gentils, même si quelques fois ils sont un peu énervants) qui permettent de rechercher une information :

Un peu de thèorie

Un peu de vocabulaire avant d'entrer dans le vif du sujet. Il faut distinguer une donnée d'une information. Une donnée est un fait particulier (Jean-Pierre, 27ans, 1.83cm; nous avons ici 3 données). Une information est une suite de données (dans notre exemple, Jean-Pierre est un jeune homme plus grand que la moyenne). Il est toujours bon de définir les termes que l'on emploie.

Certaines fois, des pourcentages apparaîtront à côté des résultats de votre requête. Ces pourcentages sont de 2 sortes, la précision et le rappel. Ces pourcentages se calculent soit sur 1.00%, soit sur 100% (si ces chiffres s'affichent, c'est que vous avez trouvé l'Information, fêtez-le, ça n'arrive pas souvent!!!).
Ainsi, si vous posez une question sur les 'crapauds-buffles', que dans un site 10 pages contiennent au moins 1 de ces termes, avec 4 contenant ou (exclusif) crapauds ou buffles et 2 contenant crapauds-buffles, vous avez une précision de 0.66 (4/6) et un rappel de 0.40 (4/10).

La pertinence des termes est calculée de plusieurs manières. Lorsqu'il y a plusieurs termes, la contiguïté des termes (sont-ils proches l'un de l'autre) est une méthode. Une autre consiste à calculer la fréquence du / des termes de la requête. Une dernière façon est l'écho de pertinence, cela revient à une analyse par l'exemple, par le contexte.

Différentes techniques de recherche existent. Il y a celle de la sous-chaîne, on recherche formellement le / les termes que vous avez tapés. Pour avoir une recherche plus large, on peut utiliser le radical, ainsi, si vous tapez le terme 'ami', tous ces dérivés seront aussi cherchés (amis, amie, amical, amicalement). Afin d'élargir le champs sémantique, on peut utiliser des synonymes des mots de la requêtes. Certaines fois, il se peut que le / les termes de votre requête ne soient pas dans une langue que vous connaissiez (en russe par exemple). Pour palier cela, on utilise la technique du motif, une reconnaissance purement formelle sera effectuée, on affiche seulement les résultats où tous les éléments du motif concordent.

Répertoire de recherche

Dans un premier temps, agissant de façon méthodique, on regarde les thèmes donnés dans les répertoires de recherche (index thèmatiques - par exemple Yahoo- ou les annuaires -Strategic Road, pour l'actualité tous azimuts-) du net. Ainsi, on peut se faire une idée très générale de ce dont on cause le plus sur l'Internet.
 
Annuaires et Index
Répertoire des moteur de recherche classés par pays et par thèmes.
Russian and East European Studies Web
The REESWeb is a comprehensive index of electronic resources on the Balkans, the Baltic states, the Caucusus, Central Asia, Central Europe, the CIS, Eastern Europe, the NIS, the Russian Federation, and the former Soviet Union. The REESWeb is sponsored by the Center for Russian and East European Studies of the University of Pittsburgh, a National Resource Center for Russian and East European Studies.
Strategic Road
Strategic-Road est un annuaire ou méta-index spécialisé dans la recherche de documents concernant des thèmes sélectionnés. A ce titre il propose classiquement, pour chacun de ces thèmes et dans leur hiérarchie, une liste de liens vers des sites ou des documents pertinents au regard du thème choisi. Mais Strategic-Road est aussi un annuaire des annuaires puisqu'il propose, en parallèle à la liste de liens conduisant aux documents, une liste de liens conduisant à des annuaires et moteurs de recherche spécialisés concernant le thème choisi. L'utilisateur peut donc, dans un même espace, accéder immédiatement à des documents pertinents concernant le thème sélectionné et aux outils spécialisés lui permettant d'étendre ou d'approfondir sa recherche vers de nouveaux documents plus pertinents ou complémentaires. Plus qu'un méta-index, Strategic Road est donc un véritable outil de veille sur les ressources d'internet, à disposition des organisations et des professionnels, experts, décideurs économiques, journalistes, juristes, magistrats, universitaires etc....

 
 
 Répertoires de recherche
Europe de l'Est & CEI
Slavophilia Slavophilia offers a comprehensive guide to Internet resources on Russia and Central/Eastern Europe. 
France
Nos ballades sur le Web Listes de thèmes, de points de repères, avec une courte description des sites.
Le Gratuit Tout ce qui est gratuit sur Internet.
Russes
Catalogue 99 des ressources Web de la CEI et des Etats Baltes Répertoire en langue russe classé par pays
Inalco - département Russie. Arts, cuisine, histoire, périodiques, ...
Information économique Banques russes; droit; marché ...
Leader Sites officiels politiques, sites économiques, journaux, ...
RussianLondon Répertoire thèmatique et liste de serveurs couvrant l'ex-URSS.
Omen Pages personnelles et sites officiels sur les armements russes, la politique, la mafia, la société, ... plus de 10 000 liens.
Russia on-line
Sher Index Important index de liens classés par thèmes
Simtel Banques, droit, économie, ...
Videobridge Gouvernement, lois, affaires, ...
Weblist
Altavista chez les russes
Zenon

 

Moteur de recherche

Une fois qu'un thème précis a été repéré, on peut essayer de lancer une requête. On utilise pour ce faire un moteur de recherche (Yahoo - et oui, encore lui; AltaVista, Google...). Chaque moteur de recherche à sa propre technique de référencement des sites, ainsi, Google utilise la popularité des sites, i.e., le nombre de fois qu'un site (une url) est cité(e) dans d'autres sites (sur d'autres pages). De ce fait, si vous avez un milliard d'amis, demandez-leur de créer un site et de vous citer!!
Plus sérieusement, une fois une requête lancée, on regarde les résultats, et, oh miracle !!!, il y a 2 674 897 réponses à notre question. Alors là, 2 possibiltés, on retrousse ses manches et on passe d'URL en URL jusqu'à ce que mort s'ensuive, ou bien, usant de son cerveau pour trouver une solution plus humaine (un peu d'humanité dans ce monde de machines), on teste les metamoteurs.
De nouvelles technologies de recherche voient le jour, par exemple, la technologie NG. A la suite d'une requête, le moteur de recherche suggère une liste de termes ayant un rapport avec les mots de la demande. L'utilisateur peut inclure ou non des éléments de cette liste aux termes de sa question. A une question portant sur "Poutine et Russie", des éléments tels que "Tchétchénie", "le FSB","les présidentielles en Russie" apparaîtont, en ajoutant certains de ces termes on paufine sa requête.
Avant de passer aux metamoteurs, dans ma grande bonté, je vous fournis une liste de moteurs de recherche classés par pays - la direction ne se refusant aucun sacrifice.
Une autre technologie, tout droit issue de l'IA (Intelligence Artificielle) existe, mais les résultats ne semblent pas encore être là. Cete technologie se nomme DWIM (Do What I Mean). Elle consiste à éviter, lorsqu'il y a synonymie, d'accéder à des pages ne portant pas sur le bon sujet. Si vous vous intêressez à l'aéronautique et que vous désiriez avoir des informations sur McDonald, il serait bon de ne pas avoir d'informations sur la chaîne de hamburger-restaurant!!!
 
Moteurs de recherche 
Américains
1blink Acronym Finder All4one
All in One Altavista Excite
Google Webcrawler Yahoo
Biélorusses
09.Open
Européens
Liste de moteurs européens classés par pays
Francophones
Breizhoo Lycos Mega-Francité
Nomade Spray Trouvez
Voilà Yahoo  
Lettoniens
All Latvia
Russes
Aport Ay E-Ross
List Rambler Yahoo
Yandex    

 

Metamoteur

Le front se plisse !!! Qu'est-ce que c'est-y comme bestiole que ces "mets ta moteur"???? En fait, derrière ce nom un tantinet ésotérique se cache un outil très utile et très pratique.
Vous vous êtes rendu compte que chaque moteur de recherche à sa propre syntaxe. Chez certain, on peut taper tel quel sa requête en espaçant les mots clés par des blancs; chez un autre, il faut mettre des + entre les mots; chez un autre des parenthèses; chez un autre des opérateurs booléens du style and, or, not, near, ...En gros, on a une tête gros ça comme, ou autant de petites fiches qu'il y a de moteurs (vive la bureaucratie!). Un metamoteur est en fait un super-moteur de recherche paramétrable.Vous lui indiquez sur quels moteurs vous voulez que la recherche s'effectue (en général, des moteurs sont prédéfinis et il suffit de cocher ceux que vous voulez utiliser), vous choisissez le nombre de résultats par moteur (les 10 premiers URL, les 50 premiers, etc.), enfin, vous tapez votre requête. Il va chercher sur les différents moteurs de recherche l'information que vous cherchez en traduisant pour vous votre requête d'après la syntaxe de ces différents moteurs. Tiptop, non! Ainsi, vous tapez vos mots clés, en les espaçant d'un blanc, vous lancez votre requête. Le résultat final est ainsi beaucoup moins impressionnant que celui d'un moteur de recherche et un peu plus pertinent. Vous voulez testez, alors essayez Metafind, DataHit.
Certains ont des options paramétrables (ne vous attendez pas à pouvoir les personnaliser de a à z, ces options sont prédéfinies, vous pouvez au mieux faire un choix, sinon, comme au loto, cochez une / plusieurs cases - et dans ce cas, ne vous attendez pas à gagner le gros lot, y-en a pas! Enfin, sauf les réponses à votre requête). Ergoter est bien (encore que...), mais pratiquer est encore mieux, alors essayez :

Que diriez-vous d'avoir un metamoteur sur votre disque dur, une sorte de logiciel-metamoteur? Je vous conseille pour cela d'aller sur le site de WebFerret, de cliquer sur Free Downloads, de choisir le Power User Pack et de l'installer (ça se fait pratiquement automatiquement).
Ce logiciel se compose de 7 modules : Pour paramétrer ces différents modules, allez pour chacun d'eux dans View / Options. Vous choisirez ainsi les moteurs de recherche à utiliser, le nombre de résultats, les balises HTML à analyser (que la balise titre, tout le document, etc.), etc.
Une fois les résultats affichés, vous pouvez les enregistrer dans un fichier HTML. Chaque résultat peut être validé, supprimé, et bien sûr consulté. Le bouton resume permet de relancer une requête (les nouveaux résultats seront ajoutés aux anciens).
Vos requêtes restent en mémoire dans le champs Containing, pour y avoir accés, cliquez sur le petit triangle à droite du champs.
 
Metamoteurs
Ariane6
Datahit
Metafind
Metacrawler
Northernlight
Pro-Fusion
WebFerret

 

Agent intelligent

Vous n'êtes toujours pas satisfait - vous êtes dur là !!! Mais à tout (enfin presque), il y a une solution. Dans ce cas, le petit nom de cette solution est Agent Intelligent (pouaf, de l'intelligence en informatique, ça s'saurait). Un agent intelligent est un logiciel dédié spécialement à la recherche d'information. Il permet de poser une question en langage naturel (oui, oui, avec les articles et tout et tout), et d'avoir les résultats les plus pertinents. Ces résultats ont subi, avant de vous arrivez tout cuit sous le nez, une analyse ET syntaxique ET sémantique, fortiche, hein!
Ca y-est, vous vous dîtes "je vais enfin pouvoir trouver l'Information avec ces "'gens intelligents". Attention, ces logiciels sont certes performants, mais ils ont leurs limites. Lorsque l'on parle de recherche en langage naturel, il ne faut pas oublier que ce langage naturel a été formalisé mathématiquement puis informatiquement, avec tous les problèmes que cela pose et toutes les décisions ad hoc utilisées pour que "ces foutus machines comprennent ce qu'on leur dit". C'est un secteur dépendant des découvertes en linguistique formelle (avec toutes les restrictions que cela comporte) et en informatique, et en plus, c'est tout nouveau (moins de 80 ans!!!).
Ca vous démanche? Comme les agents intelligents sont des logiciels, il faut les acheter (misère de misère :-((). Mais dans leur bonté, certaines sociétés permettent de télécharger ces logiciels et d'en avoir ainsi une version d'évaluation ou de démonstration. Allez faire un tour sur les sites de Copernic, d'Arisem. Si vous désirez un peu d'exotisme quand à l'analyse finale de l'information, je vous conseille Umap de la société Trivium.
D'autre part, on ne se sert pas de ces agents comme de simples moteurs de recherche, il faut un minimum de connaissances. Ok, ok, où peut-on trouver le GROS livre de 650 pages écrites en tout petit? Ayant bon coeur, j'ai écrit quelques explications permettant de se servir de ces logiciels sans trop galérer. Je vous conseille donc d'aller sur les pages parlant de ces logiciels, puis ensuite, ben d'essayer.

Encore

Mais, allez-vous me dire, si je recherche le E-mail de quelqu'un, par exemple, comment fais-je? Ou bien si je recherche un programme? Utilise-je les mêmes moyens? Hein-je?
Le principe est le même, mais les outils sont différents. Si ce n'est les outils de Ferret qui traitent cela (principalement pour les USA), et quelques moteurs et metamoteurs qui offrent ce type de service, je ne vous ai pas encore donné d'adresses précises de moteurs pour E-mail, programmes, forums & Newsgroup, etc.
Afin de contentez, en voici quelques uns. Des explications supplémentaires seraient redondantes, alors, cliquez, requêtez, et voyez.
 
Recherche de E-mail
Internet Adress Finder WhoWhere de Lycos Yahoo

 
 
Recherche de programmes
Downloads SoftSearch Shareware

Nous avons pour le moment vu ce que l'on appelle le Web (www). Il existe d'autres domaines, tels que les Newsgroups ou Forums. Se sont des espaces de discussion. Chaque forum a un thème défini. Ils sont gratuits ou payants, aussi bien pour l'accès que pour y participer. Si vous voulez avoir un aperçu des thèmes traités dans les forums français.
 

Recherche de forums et Newsgroup
Liszt Reference Tile
Recherche de listes de diffusion
Annuaire francophone
Kitalettre

 

Et enfin, petit bouquet final, voici quelques sites donnant de plus amples informations sur tout ce domaine trop vaste pour être ne serait-ce que traité à 1% par ma frêle personne.
 

Sites d'informations
Botspot Actualité sur les outils de recherche.
Cybion Fiches techniques sur les agents pour la veille et la recherche d'information.

 

Références :

Sites : En tout cas, bonne recherche, que "le Bit de l'information soit avec vous", et si vous avez des suggestions à me faire, n'hésitez pas.