Si Google gagne des parts de marché et s’impose chaque jour un peu plus face à ses deux grands concurrents sur les marchés occidentaux (il en va autrement ailleurs, notamment en Chine), la messe sur ce marché est loin d’être dite. Plusieurs entreprises travaillent actuellement au développement de moteurs de recherche alternatifs que l’on peut classer en deux grandes catégories :
ceux qui souhaitent construire des alternatives régionales au géant américain, groupe dont le représentant le plus important est sans conteste le chinois Baidu, dans lequel on trouve des acteurs indiens (Guruji), européens (comme Quaero en France ou Yandex en Russie), japonais (Fresh eye), coréens (Naver, Simmani), arabes (Sawafi) ;
ceux qui veulent développer des moteurs de recherche plus performants. La plupart s’appuient sur des techniques d’intelligence artificielle qui leur permettraient de sélectionner les documents en fonction de leur sens et non plus seulement de l’index des mots qu’on y trouve. C’est le cas de Powerset, Hakia et Snap (on trouve une explication intéressante du projet de Powerset ici. Dans ce texte, Barney Pell, l’un des fondateurs de Powerset souligne l’ambiguïté des interrogations que l’on réaliser sur les moteurs de recherche actuels qui ne prennent pas en compte les mots les plus courants de la langue (le, il, pour, sur…) qui contribuent cependant au sens. Il prend l’exemple d’une interrogation avec les deux mots "livres" et "enfants" qui peut vouloir dire : "livres pour enfants", "livres d’enfants", "livres sur des enfants".
D’autres tentent l’aventure en s’appuyant sur notre intelligence collective, comme SearchTheWeb2, une entreprise canadienne qui exploite les interrogations des internautes pour accélérer la recherche : lorsque l’on fait une recherche, on trouve sur l’écran les résultats tels que les donnent Google mais aussi une liste de recherches voisines réalisées par d’autres internautes extraites des bases de données Google et qui doivent, d’après les concepteurs de ce produit, améliorer les performances de la recherche (à la différence d’autres moteurs, ils ne se contentent pas de nous proposer les recherches les plus fréquentes, mais nous donnent aussi les plus rares). Si l’on reprend l’exemple de Barney Pell, on retrouve bien dans la liste des propositions : "books on children" et "books for children" avec un classement différent des réponses.
Le projet de moteur de recherche annoncé récemment par le fondateur de Wikipedia s’appuie probablement sur un modèle voisin puisqu’il s’agit de mettre l’intelligence humaine au service de celui qui recherche.
Ces tentatives d’entrer en compétition avec Google, Yahoo ou MSN attirent toute l’attention des observateurs, mais il est deux autres familles d’innovations qui sont au moins aussi prometteuses, sinon plus. La première consiste à offrir à l’internaute la possibilité de se créer une base de données privées. Il sélectionne des thèmes qui l’intéressent et commande au moteur des recherches automatiques. C’est cette idée que déclinent sous des formes diverses Googlenews, les alertes Google ou les moteurs de recherche personnalisés que chacun peut dorénavant installer sur son site.
Améliorer la recherche en créant des outils de lecture adaptés aux documents La seconde vise à intégrer la recherche à la lecture et à l’exploitation des informations trouvées. Cette deuxième famille de projets repose sur une idée simple : on ne lit pas tous les documents de la même façon. On n’aborde pas de la même manière un roman, un brevet et un article de journal et on n’attend donc pas la même chose du moteur de recherche. Ces produits consistent donc à construire au dessus du moteur de recherche des outils pour accéder aux informations de la manière la plus efficace.
Googlepatents est un bon exemple de cette nouvelle famille de produit. Un brevet comprend plusieurs éléments : un résumé, des dessins, des revendications, et une description de l’invention. Rares sont les lecteurs qui lisent tout le brevet, la plupart se contentent de lire les revendications et de regarder les dessins. C’est seulement lorsque ceux-ci les intéressent qu’ils approfondissent et lisent la description. Googlepatents donne la possibilité de le faire, puisque l’on va, à partir d’une liste de brevets que l’on a identifiés dans une recherche classique pouvoir accéder directement à ces différents éléments.
Amazon offre un autre exemple très intéressant de ces produits intégrés puisque l’on peut, pour certains ouvrages au moins, accéder au sommaire, à la quatrième de couverture, à l’index, à une recherche dans l’ouvrage, à des extraits et, surtout, à l’ensemble des ouvrages de la base de données Amazon qui cite le livre que l’on consulte. Le lecteur qui poursuit une recherche ciblée peut ainsi rapidement accéder à un corpus pertinent, avec les commentaires d’autres auteurs sur l’ouvrage qu’il consulte. Ce service est aujourd’hui limité, puisqu’on ne peut pas accéder au texte intégral du livre, mais le modèle existe et pourrait être facilement appliqué dans des contextes non commerciaux.
Les publications scientifiques présentent un autre cas de figure. Avant d’en lire une, on regarde son résumé (les quelques lignes qui décrivent ce qu’elle apporte) ainsi que la liste des articles cités qui donnent des indications assez précises sur le contenu, sur la manière dont l’auteur a pris le sujet, sur sa connaissance du domaine. On trouve sur plusieurs sites spécialisés dans leur distribution, sur Citeseer, arXiv.org, CiteBase, SSRN… toute une série d’outils d’aide à la lecture : le résumé de l’article, bibliographie de leurs auteurs, listes des publications qu’ils citent et des publications qui les citent. Citebase y ajoute des données, dans le temps, sur le nombre de citations et de téléchargements qui donnent des indications précieuses sur la réception de l’article et l’intérêt qu’il suscite dans la communauté scientifique. Autant d’éléments, propres à ce type de littérature qui facilitent la lecture et réduisent le bruit (le lecteur sait rapidement si le document sur son écran est, ou non, pertinent).
Créer automatiquement des collections de documents Ces deux dernières pistes supposent le développement des bases de données verticales. Ce qui est simple à obtenir dans certains cas (les brevets sont tous stockés dans les bases de données des offices de brevets, les livres viennent de chez les éditeurs, les agrégateurs de nouvelles demandent à leurs utilisateurs de donner une listes de sites à consulter) est plus compliqué lorsque les documents ont en vrac. Sortis des quelques cas dans lesquels les collections d’ouvrages homogènes sont faciles à constituer, leur développement passe par la mise au point d’algorithmes qui classent les documents selon leurs ressemblances. Plusieurs équipes travaillent sur un sujet qui intéressent d’autant plus les moteurs de recherche que sa solution devrait faciliter l’interrogation des bases de données de sons ou d’images (si l’on peut classer les musiques par genre, les recherches sont plus faciles). On signalera notamment les travaux de Paul Vitanyi de l’université d’Amsterdam et de ses collaborateurs qui s’appuient sur les analyses de la complexité à la Kolmogorov, mathématicien russe qui a proposé dans les années 60 de définir la complexité d’un objet (un nombre entier, un fichier informatique, une image numérisée…) par la taille du plus petit programme capable de le produire. Vitanyi et ses collaborateurs dont plusieurs publications sont disponibles sur internet s’appuient sur les informations que les techniques de compression nous donnent. Ils peuvent ainsi mesurer des distances entre fichiers et calculer des similarités qui vont servir à construire des ensembles relativement homogènes.
Ces techniques sont pour l’instant expérimentales mais elles ouvrent des perspectives intéressantes dans deux domaines :
celui de la constitution de collections homogènes dans les domaines les plus divers (le texte, l’image, le son) qui pourront être utilisées pour améliorer les performances des recherches. Si l’on reprend l’exemple "livres"/"enfants", on voit bien que l’on aura deux collections différentes, un peu comme dans une librairie on a un rayon psychologie (livres sur les enfants) et un rayon enfants (livres pour les enfants) ;
celui de l’analyse des textes. On peut, en effet, attendre de ces techniques (ou d’autres similaires) qu’elles traitent l’une des sources majeures du bruit sur internet : les citations infiniment répétées des mêmes informations.
Des aides au travail sur internet Les chercheurs qui trouvent un document ne se contentent pas de le lire, ils l’exploitent, le classent, le commentent, en extraient des éléments, des informations… Toujours dans la même veine d’outils conçu pour améliorer la productivité des utilisateurs d’internet, il convient signaler des applications d’aide à la prise de notes.
La prise de notes intéresse depuis longtemps les informaticiens et l’on trouve sans difficultés sur le net un très grand nombre de logiciels spécialisés. Ils sont le plus souvent décevants : on les utilise quelques jours et puis on les abandonne tant ils ont des concurrents puissants : le traitement de texte, le crayon et la feuille de papier. Or, on voit apparaître des outils infiniment plus intéressantes qui associent à la prise de notes, le stockage des pages que l’on visite sur le net (un peu à la manière de Digg, Kaboodle, Livelocker ou de cette extension très originale sur Firefox : Piggy bank…) et des outils de traitement de l’information spécifiques. J’en citerai trois : Sohonotes, qui réside sur l’ordinateur, et deux extensions de Firefox : Googlenotebook et, surtout, Zotero. Ces différents produits sont complètement intégrés à la recherche (dans le cas de Sohonote, un petit onglet est en permanence présente sur la droite de l’écran), ils permettent des copier/coller rapides des pages ou des segments de pages consultés sur internet, de prendre des notes à la volée, notes sur les pages que l’on a copiées ou libres et dont ils extraient automatiquement des informations utiles (source, auteur…). Conçu par des universitaires pour des universitaires, Zotero ajoute à cela la possibilité d’extraire automatiquement des références bibliographiques et donc de constituer des listes d’articles à consulter, de livres à lire. (pour entendre une interview des créateurs de cette application).
Ces outils n’en sont qu’à leurs toutes premières versions et ils évolueront probablement rapidement. Googlenotebook devrait se rapprocher des outils de traitement en texte en ligne du moteur de recherche, ce qui permettrait de créer une ligne complète et très originale de produits bureautiques. Zotero devrait évoluer dans le sens d’une meilleure exploitation des documents consultés.
Le fait que deux de ces applications soient des extensions de Firefox l’indique : le navigateur est devenu l’espace de travail d’un nombre croissant d’utilisateurs. Comme hier les systèmes d’exploitation, c’est celui qui attire le plus d’extension qui a le plus de devenir le poste de travail. Les relations très particulières que Google a nouées avec Firefox s’expliquent sans doute par là.








