le salon

Trouver l’info en ligne : des stratégies de recherche sociales qui font mieux que Google

Je poursuis mes explorations des méthodes alternatives aux moteurs dans la recherche d’information en ligne… (lire sur novövision : “Y a pas que Google dans la vie ! “, inspiré de la lecture du passionnant article d’Olivier Le Deuff : “Folksonomies et communautés de partage de signets. Vers de nouvelles stratégies de recherche d’informations.”)…

Concrètement (et en schématisant un tout petit peu 😉 ), trouver une information en ligne, c’est trouver le lien hypertexte qui vous mène à la page où se trouve cette information. Il existe de multiples manière de trouver des liens, soit vers des sources rassemblant des ressources (des sites web), soit directement vers des ressources (des pages précises).

Les moteurs de recherches, tels que Google, sont loin d’être la seule manière d’ouvrir le chemin, et ils ne sont peut-être même pas la plus utilisée par les gens. Sûrement pas la plus efficace en tout cas. Face aux moteurs, qui indexent le web et le moulinent au moyen d’algorithmes, les méthodes humaines, basées sur la recommandation par des tiers, des personnes ou des institutions, de confiance ou d’autorité, continuent à jouer un rôle important, si ce n’est prépondérant (qualitativement du moins).

Et de nouvelles stratégies de recherche “sociales”, utilisant la force de l’organisation en réseau, se mettent en place et se développent peu à peu. Elles conduisent vers une recherche personnalisée et la fabrication par chacun de ses propres outils de recherche composites. Ces stratégies se montrent plus pertinentes et plus rapides que les moteurs, et contribuent à faire émerger en ligne des “personnes ressources” reconnues par leurs pairs, et des “communautés actives”, qui deviennent de nouvelles références pour ceux qui les ont distinguées.

Transmission “de la main à la main”

La première méthode pour trouver les informations en ligne, historiquement du moins, ce sont les liens placés “à la main” et échangés individuellement.

Il existe des listes et des annuaires, référençant des sources et des ressources, selon des classements et des indexations divers, sur des critères et selon des méthodes professionnels (documentalistes, bibliothécaires), ou non… On peut encore suivre des liens par recommandation de la part d’institutions ou de personnes connues et de confiance, qui ont acquis cette autorité hors du web ou en ligne. Tout le monde fait ça, chacun à son réseau personnel et ses propres références…

Les manières d’échanger les liens par recommandation “individuelle” sont extrêmement variées. En ligne : des blogs, jusqu’à Twitter, aux sites de partages de signets tels que delicious (ma propre sélection de liens sur delicious, par exemple, pour ceux qui me jugent digne de confiance 😉 ), sans oublier le mail, les messageries instantanées, le tchat, les forums, etc. Comme hors ligne, bien entendu
(ça marche toujours très bien aussi) : du bouche à oreille – téléphone compris -, dans les cercles familiaux, amicaux, scolaires ou professionnels, jusqu’aux médias traditionnels (livre, télévision, presse…).

Cette liste ne se veut pas exhaustive. Elle vise simplement à signaler (voire à rappeler) le nombre et la variété des moyens de diffusion des liens “de la main à la main”, qui continuent à jouer un rôle primordial dans notre manière de trouver des informations en ligne.

Méthodes robotisées

Il y a ensuite des méthodes “robotisées”.

Il y a celles fonctionnant sur mots-clés, tels que les moteurs de recherches et aggrégateurs automatisés de toutes sortes : des moteurs classiques tels que Google portant sur l’ensemble du web (enfin, en réalité, seulement sur une partie), à ceux plus spécifiques portant uniquement sur les blogs, ou sur les sites de presse, etc. Des moteurs qui fonctionnent par extraction “robotisée” de ces mots-clés dans les pages, après leur analyse sémantique par des algorithmes, puis indexation des résultats, pondérés selon des critères de popularité (comme le fameux PageRank de Google).

Il y a également des systèmes robotisés, dits “sociaux” fonctionnant sur l’agrégation de “recommandations” individuelles (notation, “les plus lus”, “les plus commentés”, etc.), depuis les sites de notation (Digg-like) jusqu’aux modules fonctionnant sur ce principe insérés dans les sites et les blogs…

De nombreux moteurs aujourd’hui tentent d’associer de manières complexes différentes méthodes, en croisant mots-clés, annuaires, popularité et recommandation, selon des formules de pondération de plus en plus sophistiquées (et qui restent le plus souvent obscures, et même secrètes).

Les folksonomies

Il y a enfin les méthodes basées sur des mots-clés (ou Tag) déterminés par des internautes, permettant d’effectuer des recherches sans passer par des algorithmes : les “folksonomies“, “mot composé par Thomas Vander Wal à partir de folk et de taxonomy et qui définit la possibilité offerte à l’usager d’ajouter des mots-clés à des ressources” (Olivier Le Deuff). Le site le plus utilisé fonctionnant sur ce principe est delicious (voir par exemple, la sélection des liens proposés par l’ensemble des membres de delicious sur le mot-clé “journalisme”). On va revenir un peu plus loin sur ce sujet passionnant…

Quand on parle de recherche en ligne, c’est ainsi très abusivement qu’on réduit trop souvent la question à Google, aux moteurs et autres agrégateurs automatisés. Alors que l’on voit que les manières dont s’échangent les liens sont d’une extrême variété et peuvent conduire à des stratégies de recherches qui le sont tout autant, sans qu’il soit réellement possible de déterminer de manière fiable la part de chacune dans l’ensemble. Même si on peut essayer… 😉

Une question de pertinence

L’enjeu est-il d’ailleurs plus une question de quantité que de qualité ? C’est à dire d’efficacité de la méthode, selon la pertinence du résultat obtenu et la rapidité avec laquelle on l’obtient.

On ne soulignera jamais assez la confusion très fréquente entre les notions de “pertinence” ou d’“autorité” (dans le sens de “crédit”, de “confiance”, et non de “pouvoir”, même si certains pouvoirs sont assis sur la confiance que l’on a placée dans leurs détenteurs – et qu’ils parviennent à conserver en s’en montrant dignes… ;-)), une confusion avec la notion de “popularité”, qui trop souvent dérive vers une autre forme de pouvoir qu’on nomme alors “populisme” (fin de l’aparté de philosophie politique).

Le concept de PageRank de Google opère lui-même, de manière abusive, le glissement d’une mesure de popularité relative des pages les unes par rapport aux autres, selon le nombre de liens qui pointent vers elles, à l’établissement d’une valeur d’autorité ou de pertinence (le fameux PageRank qui note les pages de 0 à 10).

A son origine, le PageRank de Google est inspiré du fonctionnement des systèmes d’évaluation de la littérature universitaire, par le nombre de références envers un article scientifique relevées dans les autres articles universitaires. Il s’agit là d’un système de “pair à pair”, basé sur le principe selon lequel tous ceux qui “votent” pour un article (en le citant dans le leur) sont en mesure de porter à son sujet un jugement pertinent, car ils sont qualifiés. Mais étendu à l’ensemble des internautes, comme le fait Google, le système dilue totalement toute notion de pertinence dans un simple concours de beauté. Et puis la pertinence du modèle universitaire d’évaluation dont Google s’inspire est elle-même contestée dans le monde universitaire (où il arrive aussi que l’on cite ses confrères par facilité, par pure complaisance, par révérence ou même par calcul de carrière (parait-il…) 😉 ).

On constate d’ailleurs à l’usage que les résultats fournis par Google (et les autres moteurs) manquent beaucoup de pertinence : la part de “déchets” sur une page de recherche est importante, le résultat le plus pertinent ne se retrouve pas, bien souvent, parmi les premiers présentés, et cela d’autant plus que des “astuces” de référencement permettent d’améliorer de manière artificielle le niveau de classement, ce qui tourne parfois à la manipulation des résultats (SEO, en général, et Google bombing en particulier).

Dans la pratique, pour celui qui est à la recherche d’une information pertinente, lorsqu’il est suffisamment armé intellectuellement pour faire le tri lui-même, le moteur de recherche ne peut guère fournir qu’un premier défrichage, et ça demande beaucoup de travail d’affinement derrière… Bref, c’est long et pas pratique.

Surtout, pour ceux qui n’ont pas le “background” nécessaire – les jeunes en formation par exemple, ou bien lorsqu’on aborde un sujet sur lequel on n’a pas de connaissances particulières préalables -, ces outils sont à prendre avec d’extrêmes pincettes : ils nous envoient très rapidement vers de fausses pistes, nous font louper l’essentiel et surtout perdre beaucoup de temps…

La recherche “sociale” est efficace = rapide et pertinente

Olivier Le Deuff relève de manière très intéressante que la recherche au moyen des folksonomies n’est pas tant “concurrente” de Google, qu’elle n’est “alternative” :

(noir)Ne nous méprenons pas : les folksonomies n’en sont pas au stade de prétendre proposer une alternative équivalente au moteur de recherche (…). Néanmoins il est possible de trouver de l’information plus intéressante voire plus pertinente via les folksonomies. Elles présentent ainsi deux versants : le premier est lié à la sérendipité, le second est plus lié à la veille. Ses principaux atouts résident dans la médiation humaine. (Metzger, 2004) Il est ainsi fréquent d’accéder à de l’information ou à un site que le moteur de recherche ne nous aurait pas renvoyé dans ses premiers résultats voire que ce dernier n’aurait pas pu indexer.

(noir)Faut-il pour autant voir dans ces systèmes un concurrent potentiel des moteurs ? Nous songeons plutôt à les considérer comme des alternatives au sens de cheminements de recherche différents qui nécessitent une construction et non une logique de push. Les sentiers qui bifurquent sont parfois le meilleur accès que le chemin direct de l’interface du moteur. Néanmoins, il est probable que les moteurs cherchent à l’avenir à utiliser ces données pour affiner leurs résultats à la manière dont ils se servent déjà des annuaires (Nous avons déjà constaté que des pages de signets sont désormais indexées par les moteurs de recherche. Mais la valeur ajoutée des folksonomies n’est pas encore réellement intégrée.)].

(/noir)

Le chercheur y voit, de plus, la possibilité d’une “veille collaborative” et d’une “recherche personnalisée” :

(noir)Outre le fait de pouvoir accéder à ses signets de n’importe où, l’intérêt des signets sociaux réside dans son caractère collectif (Hamon, 2005). Il est possible d’identifier des « folksonomistes » que l’usager perçoit comme référence ce qui permet facilement ainsi de réaliser de la veille collaborative. Le site le plus connu est le pionnier [del.icio.us qui permet de se créer un réseau (network) de membres dont on peut surveiller les derniers signets tagués. Ce système permet aussi parfois d’obtenir de l’information plus rapidement que ne l’aurait permis le moteur de recherche. En ce sens les folskonomies s’inscrivent dans une perspective de personnalisation de l’information en liaison avec les « agrégateurs » de flux Rss. Il est ainsi possible de créer des flux Rss à partir de tags sélectionnés mais aussi à partir des derniers signets d’autres usagers. Ce système nous apparaît bien plus efficace que celui des google alerts dont le fonctionnement demeure tributaire des variations de l’index de Google.

(/noir)

Le chercheur étudie également une autre “plate-forme de partage de signets“, Ma.gnolia.com., moins connue, mais aux fonctionnalités plus sophistiquées que delicious, et il observe :

(noir)La plateforme permet facilement la construction de parcours impliquant la reconnaissance de personnes ressources ayant acquis une légitimité dans la validation de l’information au sein de domaines particuliers. (…) Finalement, il semble que ce réseau implique un degré de reconnaissance voire de confiance. Par conséquent l’atout de Ma.gnolia se situe plutôt dans les activités de veille via la surveillance des signets de personnes ou de groupes thématiques notamment en récupérant les flux Rss associés.

(/noir)

Se forger ses propres outils de recherche

Je retiens particulièrement deux remarques d’Olivier Le Deuff :

– ce système contribue à identifier (et donc à faire émerger) des “personnes ressources” (de la même manière, finalement, que fonctionne la blogosphère en désignant non pas des “blogueurs influents”, mais des autorités élues par leur pairs).

– ces pratiques conduisent les utilisateurs à se forger leurs propres outils de veille en ligne sur les sujets qui les intéressent.

Je note également que ces réflexions sont convergentes avec celles que je signalais récemment (“L’enjeu de l’info en ligne : moissonner et partager des liens”) de David Cushman (en anglais) et Francis Pisani.

David Cushman :

(noir)Ce que je sais, c’est que je me tourne vers les personnes pour me fournir des liens – pas vers les algorithmes.

(/noir)

Et j’observe enfin, que ces réflexions rendent finalement assez bien compte de ma propre pratique de veille et de recherche d’information en ligne. 😉

Mon principal outil, je me le suis fabriqué tout seul. Il tient tout entier dans mon lecteur de flux RSS. C’est un outil personnalisé et complexe (je suis bien le seul à m’y retrouver 😉 ), que j’ai mis un certain temps à construire, et qui agrège un certain nombre de sources de nature différente. C’est mon outil de veille en ligne…

Cet outil est dédié à ma veille sur ce qui paraît en ligne sur la thématique qui m’intéresse (en gros l’information, les médias et le journalisme – y a pas que ça, mais je me restreins à cet aspect pour simplifier 😉 ). C’est un outil mixte, qui associe des sources directes : des flux RSS d’une sélection de blogs, de sites de médias et des sources diverses (d’origine institutionnelles, universitaires, professionnelles…), que j’ai repérés au fil de mes recherches et dont j’ai évalué la pertinence à l’usage, et des sources “indirectes” : des flux de liens sélectionnés par des “veilleurs” dont je me suis abonné au flux delicious, ainsi que des flux RSS de résultats de recherches automatisées sur des mots-clés auprès de différents moteurs de recherche (recherche web, recherche de blogs, recherche d’actualité, recherche de signets…).

Dans cet ensemble, la part “automatisée” issue des moteurs de recherche est assez faible et pas très efficace. Mon réseaux, de type transmission de liens “de la main à la main” évoqué en début de billet, formé des blogs experts que j’ai identifiés et retenus, est prépondérant et plutôt très efficace. Les flux de liens issus de delicious, à travers le suivi de “veilleurs” identifiés, et de recherches globales sur des mots-clés, prennent une place croissante.

Hors du cadre de ma veille habituelle sur mes thèmes préférés, delicious se révèle aussi un outil très efficace pour des recherches ponctuelles :

– La détermination des mots-clés pertinent pour ma recherche est bien plus rapide et efficace que sur Google, car elle est bien plus intuitive. Je devine bien mieux les mots-clés que sont susceptibles d’avoir “tagués” d’autres humains sur un thème donné que ceux que l’algorithme de Google aura retenus.

– Ces mots-clés me permettent aussi d’identifier très rapidement des “personnes ressources” qui effectuent une veille sur le sujet concerné et qui mettent immédiatement à ma disposition une mine de matière à exploiter (par la sélection de liens déjà effectuée, éventuellement le renvoi vers leur blog où ils poursuivent ce travail).

En conclusion, au-delà des considérations politiques (et éthiques) sur les dangers du monopole de fait de Google sur la recherche automatisée, c’est une question réellement d’efficacité (pertinence et rapidité) qui me fait aujourd’hui me tourner vers des stratégies alternatives de recherche d’information en ligne. En effet, il n’y a pas que Google dans la vie… 🙂

—-

Complément (10 septembre 2008) :

Jean-Marie Le Ray, sur Adscriptors, rappelle aujourd’hui dans un billet (“Moteurs de recherche alternatifs : 2% du marché ! “), la traduction qu’il avait effectuée en 2006, de deux articles intéressants de Chris Sherman au sujet des progrès, et des limites, de la recherche sociale d’information en ligne :

“La recherche sociale vue par Chris Sherman”

Lire aussi sur novövision :

“Mon information 2.0. Le rédacteur en chef, c’est moi !”

2 Comments

  1. Certes, ce type de recherche apporte plus de pertinence quand vous avez bien sélectionné vos sources, et que vous connaissez les outils.

    Cependant, cela s’adresse encore à un public “averti” et je pense que les moteurs “à la Google” ont encore de beaux jours devant eux. Cependant, Google semble s’attaquer au problème, j’en veux pour preuve la tentative avortée de rachat de Digg par le géant. Quelques bonnes réactions sur ce sujet dans “Paroles de Blogs”, le podcast de Presse-Citron (n°4 je crois) : La différence entre l’actualité et l’article de fonds…

  2. @ GuAM

    Oui, sauf si un “génie” invente un delicious qui retrouve l’esprit de MySpace ou des SkyBlog… 🙂

Comments are closed.