Vous êtes un afficionados de Jean Bon 007 (Label Rouge, bien sûr). Vous voulez découvrir le dernier secret du complot mondial qu'on nous cache - la vérité n'est-elle pas ailleurs? Et vous vous dîtes que tout cela doit pouvoir se trouver sur Internet. Bonne chance ;-)
On peut trouver presque tout sur Internet, c'est vrai, et en quantité monstrueuse, c'est encore plus vrai, ce qui fait qu'en passant toute sa vie à rechercher ce qu'il y a de nouveau, ben ... on y passerait en effet TOUTE sa vie.
Classés par thèmes, voici les différents types de robots - ou bots dans l'jargon informateux - (ce n'est pas Terminatueur, ceux-ci, ils sont tout plein gentils, même si quelques fois ils sont un peu énervants) qui permettent de rechercher une information :
Un peu de thèorieUn peu de vocabulaire avant d'entrer dans le vif du sujet. Il faut distinguer une donnée d'une information. Une donnée est un fait particulier (Jean-Pierre, 27ans, 1.83cm; nous avons ici 3 données). Une information est une suite de données (dans notre exemple, Jean-Pierre est un jeune homme plus grand que la moyenne). Il est toujours bon de définir les termes que l'on emploie.
Certaines fois, des pourcentages apparaîtront à
côté des résultats de votre requête. Ces pourcentages
sont de 2 sortes, la précision et le rappel. Ces pourcentages
se calculent soit sur 1.00%, soit sur 100% (si ces chiffres s'affichent,
c'est que vous avez trouvé l'Information, fêtez-le, ça
n'arrive pas souvent!!!).
Ainsi, si vous posez une question sur les 'crapauds-buffles', que dans
un site 10 pages contiennent au moins 1 de ces termes, avec 4 contenant
ou (exclusif) crapauds ou buffles et 2 contenant crapauds-buffles, vous
avez une précision de 0.66 (4/6) et un rappel de 0.40 (4/10).
La pertinence des termes est calculée de plusieurs manières. Lorsqu'il y a plusieurs termes, la contiguïté des termes (sont-ils proches l'un de l'autre) est une méthode. Une autre consiste à calculer la fréquence du / des termes de la requête. Une dernière façon est l'écho de pertinence, cela revient à une analyse par l'exemple, par le contexte.
Différentes techniques de recherche existent. Il y a celle de la sous-chaîne, on recherche formellement le / les termes que vous avez tapés. Pour avoir une recherche plus large, on peut utiliser le radical, ainsi, si vous tapez le terme 'ami', tous ces dérivés seront aussi cherchés (amis, amie, amical, amicalement). Afin d'élargir le champs sémantique, on peut utiliser des synonymes des mots de la requêtes. Certaines fois, il se peut que le / les termes de votre requête ne soient pas dans une langue que vous connaissiez (en russe par exemple). Pour palier cela, on utilise la technique du motif, une reconnaissance purement formelle sera effectuée, on affiche seulement les résultats où tous les éléments du motif concordent.
Dans un premier temps, agissant de façon méthodique, on
regarde les thèmes donnés dans les répertoires
de recherche (index thèmatiques - par exemple Yahoo-
ou les annuaires -Strategic
Road, pour l'actualité tous azimuts-) du net. Ainsi, on peut
se faire une idée très générale de ce dont
on cause le plus sur l'Internet.
|
|
Répertoire des moteur de recherche classés
par pays et par thèmes.
|
|
|
|
|
|
Répertoires de recherche | |
---|---|
Europe de l'Est & CEI | |
Slavophilia | Slavophilia offers a comprehensive guide to Internet resources on Russia and Central/Eastern Europe. |
France | |
Nos ballades sur le Web | Listes de thèmes, de points de repères, avec une courte description des sites. |
Le Gratuit | Tout ce qui est gratuit sur Internet. |
Russes | |
Catalogue 99 des ressources Web de la CEI et des Etats Baltes | Répertoire en langue russe classé par pays |
Inalco - département Russie. | Arts, cuisine, histoire, périodiques, ... |
Information économique | Banques russes; droit; marché ... |
Leader | Sites officiels politiques, sites économiques, journaux, ... |
RussianLondon | Répertoire thèmatique et liste de serveurs couvrant l'ex-URSS. |
Omen | Pages personnelles et sites officiels sur les armements russes, la politique, la mafia, la société, ... plus de 10 000 liens. |
Russia on-line | |
Sher Index | Important index de liens classés par thèmes |
Simtel | Banques, droit, économie, ... |
Videobridge | Gouvernement, lois, affaires, ... |
Weblist |
|
Zenon |
Une fois qu'un thème précis a été repéré,
on peut essayer de lancer une requête. On utilise pour ce faire un
moteur de recherche (Yahoo -
et oui, encore lui; AltaVista, Google...).
Chaque moteur de recherche à sa propre technique de référencement
des sites, ainsi, Google utilise la popularité des sites, i.e.,
le nombre de fois qu'un site (une url) est cité(e) dans d'autres
sites (sur d'autres pages). De ce fait, si vous avez un milliard d'amis,
demandez-leur de créer un site et de vous citer!!
Plus sérieusement, une fois une requête lancée,
on regarde les résultats, et, oh miracle !!!, il y a 2 674 897 réponses
à notre question. Alors là, 2 possibiltés, on retrousse
ses manches et on passe d'URL en URL jusqu'à ce que mort s'ensuive,
ou bien, usant de son cerveau pour trouver une solution plus humaine (un
peu d'humanité dans ce monde de machines), on teste les metamoteurs.
De nouvelles technologies de recherche voient le jour, par exemple,
la technologie NG. A la suite d'une requête, le moteur de recherche
suggère une liste de termes ayant un rapport avec les mots de la
demande. L'utilisateur peut inclure ou non des éléments de
cette liste aux termes de sa question. A une question portant sur "Poutine
et Russie", des éléments tels que "Tchétchénie",
"le FSB","les présidentielles en Russie" apparaîtont, en ajoutant
certains de ces termes on paufine sa requête.
Avant de passer aux metamoteurs, dans ma grande bonté, je vous
fournis une liste de moteurs de recherche classés par pays - la
direction ne se refusant aucun sacrifice.
Une autre technologie, tout droit issue de l'IA (Intelligence Artificielle)
existe, mais les résultats ne semblent pas encore être là.
Cete technologie se nomme DWIM (Do What I Mean). Elle consiste à
éviter, lorsqu'il y a synonymie, d'accéder à des pages
ne portant pas sur le bon sujet. Si vous vous intêressez à
l'aéronautique et que vous désiriez avoir des informations
sur McDonald, il serait bon de ne pas avoir d'informations sur la chaîne
de hamburger-restaurant!!!
Moteurs de recherche | ||
---|---|---|
Américains | ||
1blink | Acronym Finder | All4one |
All in One | Altavista | Excite |
Webcrawler | Yahoo | |
Biélorusses | ||
09.Open | ||
|
||
Liste de moteurs européens classés par pays | ||
Francophones | ||
Breizhoo | Lycos | Mega-Francité |
Nomade | Spray | Trouvez |
Voilà | Yahoo | |
Lettoniens | ||
All Latvia | ||
Russes | ||
Aport | Ay | E-Ross |
List | Rambler | Yahoo |
Yandex |
Le front se plisse !!! Qu'est-ce que c'est-y comme bestiole que ces
"mets ta moteur"???? En fait, derrière ce nom un tantinet ésotérique
se cache un outil très utile et très pratique.
Vous vous êtes rendu compte que chaque moteur de recherche à
sa propre syntaxe. Chez certain, on peut taper tel quel sa requête
en espaçant les mots clés par des blancs; chez un autre,
il faut mettre des + entre les mots; chez un autre des parenthèses;
chez un autre des opérateurs booléens du style and, or,
not, near, ...En gros, on a une tête gros ça comme, ou
autant de petites fiches qu'il y a de moteurs (vive la bureaucratie!).
Un metamoteur est en fait un super-moteur de recherche paramétrable.Vous
lui indiquez sur quels moteurs vous voulez que la recherche s'effectue
(en général, des moteurs sont prédéfinis et
il suffit de cocher ceux que vous voulez utiliser), vous choisissez le
nombre de résultats par moteur (les 10 premiers URL, les 50 premiers,
etc.), enfin, vous tapez votre requête. Il va chercher sur les différents
moteurs de recherche l'information que vous cherchez en traduisant pour
vous votre requête d'après la syntaxe de ces différents
moteurs. Tiptop, non! Ainsi, vous tapez vos mots clés, en les espaçant
d'un blanc, vous lancez votre requête. Le résultat final est
ainsi beaucoup moins impressionnant que celui d'un moteur de recherche
et un peu plus pertinent. Vous voulez testez, alors essayez Metafind,
DataHit.
Certains ont des options paramétrables (ne vous attendez pas
à pouvoir les personnaliser de a à z, ces options sont prédéfinies,
vous pouvez au mieux faire un choix, sinon, comme au loto, cochez une /
plusieurs cases - et dans ce cas, ne vous attendez pas à gagner
le gros lot, y-en a pas! Enfin, sauf les réponses à votre
requête). Ergoter est bien (encore que...), mais pratiquer est encore
mieux, alors essayez :
|
||
|
|
|
|
|
|
|
Vous n'êtes toujours pas satisfait - vous êtes dur là
!!! Mais à tout (enfin presque), il y a une solution. Dans ce cas,
le petit nom de cette solution est Agent Intelligent (pouaf, de
l'intelligence en informatique, ça s'saurait). Un agent intelligent
est un logiciel dédié spécialement à la recherche
d'information. Il permet de poser une question en langage naturel (oui,
oui, avec les articles et tout et tout), et d'avoir les résultats
les plus pertinents. Ces résultats ont subi, avant de vous arrivez
tout cuit sous le nez, une analyse ET syntaxique ET sémantique,
fortiche, hein!
Ca y-est, vous vous dîtes "je vais enfin pouvoir trouver l'Information
avec ces "'gens intelligents". Attention, ces logiciels sont certes
performants, mais ils ont leurs limites. Lorsque l'on parle de recherche
en langage naturel, il ne faut pas oublier que ce langage naturel a été
formalisé mathématiquement puis informatiquement, avec tous
les problèmes que cela pose et toutes les décisions ad hoc
utilisées pour que "ces foutus machines comprennent ce qu'on leur
dit". C'est un secteur dépendant des découvertes en linguistique
formelle (avec toutes les restrictions que cela comporte) et en informatique,
et en plus, c'est tout nouveau (moins de 80 ans!!!).
Ca vous démanche? Comme les agents intelligents sont des logiciels,
il faut les acheter (misère de misère :-((). Mais dans leur
bonté, certaines sociétés permettent de télécharger
ces logiciels et d'en avoir ainsi une version d'évaluation ou de
démonstration. Allez faire un tour sur les sites de Copernic,
d'Arisem. Si vous désirez un
peu d'exotisme quand à l'analyse finale de l'information, je vous
conseille Umap de la société
Trivium.
D'autre part, on ne se sert pas de ces agents comme de simples moteurs
de recherche, il faut un minimum de connaissances. Ok, ok, où peut-on
trouver le GROS livre de 650 pages écrites en tout petit? Ayant
bon coeur, j'ai écrit quelques
explications permettant de se servir de ces logiciels sans trop galérer.
Je vous conseille donc d'aller sur les pages parlant de ces logiciels,
puis ensuite, ben d'essayer.
Recherche de E-mail | ||
---|---|---|
Internet Adress Finder | WhoWhere de Lycos | Yahoo |
Recherche de programmes | |||
---|---|---|---|
Downloads | SoftSearch | Shareware |
Nous avons pour le moment vu ce que l'on appelle le Web (www). Il existe
d'autres domaines, tels que les Newsgroups ou Forums. Se sont des espaces
de discussion. Chaque forum a un thème défini. Ils sont gratuits
ou payants, aussi bien pour l'accès que pour y participer. Si
vous voulez avoir un aperçu des thèmes traités dans
les forums français.
Recherche de forums et Newsgroup | ||
---|---|---|
Liszt | Reference | Tile |
Recherche de listes de diffusion | ||
---|---|---|
Annuaire francophone | ||
Kitalettre |
Et enfin, petit bouquet final, voici quelques sites donnant de plus
amples informations sur tout ce domaine trop vaste pour être ne serait-ce
que traité à 1% par ma frêle personne.
Sites d'informations | |
---|---|
Botspot | Actualité sur les outils de recherche. |
Cybion | Fiches techniques sur les agents pour la veille et la recherche d'information. |
Références :