sur le web

Google News Archive Search : Google met à jour ses archives de presse

Le service d’accès aux archives de presse de Google, News Archive Search (lancé en 2006) vient de subir une sérieuse mise à jour et prend de la profondeur historique.

Des millions de pages de journaux anciens (américains) sont ajoutées à l’index, en version “brut de scan”, avec une interface permettant de naviguer de page en page à l’intérieur du journal. Résultat assez bluffant.

Le service donne accès également aux archives de très nombreux journaux, notamment français, et souvent payantes, mais en protégeant le modèle économique de vente de ces derniers.Un billet de Punit Soni, Product Manager de Google, sur The Official Google Blog, (“Bringing history online, one newspaper at a time”) annonce que de nouvelles archives de journaux anciens sont mises en ligne, des numéros entiers de vieux journaux en version scannée au sein desquels on peut naviguer, page après page (billet traduit en français sur Goopilation) :

(noir)Aujourd’hui, nous démarrons une initiative visant à mettre en ligne davantage de vieux journaux grâce à des partenariats avec des éditeurs afin de digitaliser le contenu de ces millions de pages d’archive. Imaginez que vous vouliez en apprendre plus sur le premier pas sur la Lune. (…)

(noir)Non seulement vous pourrez rechercher ces journaux, mais vous pourrez aussi les consulter comme s’ils étaient en version imprimée — photographies, gros titres, articles, publicités, la totale.

(/noir)

Punit Soni indique que l’archivage des journaux est menée dans le cadre de partenariats :

(noir)Cette initiative vient s’ajouter aux travaux de certains qui ont déjà commencé à digitaliser leurs archives. En 2006, nous avons commencé à travailler avec des éditions telles que le New York Times et le Washington Post pour indexer leurs archives digitales et les mettre à disposition via la recherche Google. A présent, cette nouvelle initiative nous permet de vous donner accès un plus large panel de journaux, avec l’aide de nos partenaires comme ProQuest and Heritage (firme spécialisée dans la numérisation), qui se sont joints à nous dans cet effort. L’un de nos partenaires, le Quebec Chronicle-Telegraph, est en fait le tout premier journal publié en Amérique du Nord — amateurs d’histoire, tenez-vous bien : cette édition a été publiée sans interruption depuis plus de 244 ans.

(/noir)

Il ajoute que, dans un second temps, ces résultats seront accessibles également via le moteur de recherche web de Google, et pas seulement Google News.

La nouvelle est déjà commentée, bien entendue.

Frederic Lardinois, sur Read Write Web, souligne à la fois l’extension de la base archivée, mais surtout la possibilité de “voir les articles dans leur contexte”, avec “une interface très similaire” à celle de consultation des livres archivés dans le cadre du programme GoogleBooks.

Il souligne l’intérêt pour les chercheurs (traduction Google non remaniée ! 😉 ) :

(noir)Être capable de naviguer à travers un article dans le contexte de la version papier est un grand pas en avant pour les chercheurs. Avant, vous devez soit avoir à la poussière de vieux exemplaires dans une archive ou de faire fonctionner une machine obsolète de microfilms (sans la possibilité de faire une recherche en texte intégral, bien sûr). Maintenant, au moins en théorie, il vous suffit de taper une requête de recherche et Google s’engage à ne pas seulement faire une recherche en texte intégral des archives historiques, mais aussi vous montrer toutes les publicités et des articles connexes dans le document lui-même.

(/noir)

(Je note, au passage, que le service de traduction automatique de Google fait d’étonnants progrès !)

“Tout cela sonne bien en théorie”, signale tout de même Frederic Lardinois, mais ces contenus scannés ne sont pas si faciles à trouver que ça, à son avis.

Il faut chercher dans les résultats de recherche, ceux qui sont signalés “Google News Archive ” : sur cet exemple que je viens de tester (une recherche sur Marylin Monroe), seule la seconde référence est une version scannée du St. Petersburg Times, l’autre est une version “texte numérique” du New York Times (en accès payant).

L’interface de navigation est composée d’une fenêtre centrale pour visualiser le scan, et d’outils de navigation au sein du document, dans une barre supérieure et dans une colonne à droite (qui propose également des liens vers d’autres ressources en rapport avec le document, et aussi de la publicité).

Frédéric Lardinois souligne également que beaucoup d’archives réalisée sous la licence de ProQuest and Heritage sont en accès payant, sauf pour certaines universités qui ont souscrit au service.

Et les sources françaises ?

Emmanuel Parody, sur Ecosphère, s’est également amusé à jouer avec le bébé : “Google Archives : vers la bibliotheque universelle”.

Il s’intéresse tout particulièrement aux sources françaises disponibles et il relève qu’“il semble que l’ensemble du contenu ne soit pas issu de partenariats. Pas mal de sources semblent indexées à partir du référencement naturel des articles.” Et il se penche sur l’aspect économique de l’entreprise pour les éditeurs :

(noir)Principal avantage du système, et c’est une bonne nouvelle, Google préserve le modèle économique des éditeurs en pointant vers les pages d’archives payantes si nécessaire, vers la page en accès libre si disponible. D’où l’intérêt de rendre visible le chapô ou résumé de ses articles quand ils sont payants (ce que nous avions fait aux Echos mais Google ne semble pas l’avoir identifié). (…)

(noir)Le résultat est, je dois dire, impressionnant, et pourrait donner un peu d’oxygène au marché des archives payantes auparavant chasse gardée de quelques prestataires privés. Ici les éditeurs restent maître de la commercialisation de leurs archives donc de leur politique de prix, Google se rémunère comme d’habitude sur la recherche. Bien vu, l’initiative ne devrait moins se prêter à la polémique que Google News à ses débuts.

(/noir)

J’ai joué moi aussi avec le bébé… 😉 Je vous livre le résultat de mes quelques – rapides – expérimentations :

– une recherche sur la requête “Beuve-Mery” (fondateur du journal Le Monde) donne “554 résultats”. 98 liens sont présentés sur la première page de recherche, en trois niveaux de hiérarchie : 10 titres principaux, 4 sous forme de titres secondaires, 84 “related web page”. Sur les 14 ressources accessibles au premier et second niveau : 9 archives payantes pour cinq en accès gratuit, 12 en anglais pour deux en français.

– Une recherche sur la requête “Dalida” (je sais, j’aime les contrastes. 😉 ) donne “1780 résultats”. Sur la première page : toutes les archives sont en anglais, toutes d’accès payant, et semble-t-il, seulement 3 concernent la chanteuse….

– une requête sur “mai 68” : “5.260 résultats”. Sur la première page : 13 archives en français pour 4 en anglais, 6 payantes pour 11 gratuites.

– une requête sur “Yves Adrien” (écrivain français, injustement méconnu auquel ce blog doit son nom) : “19 résultats” annoncés, menant en réalité vers 45 archives différentes, l’essentiel en français et d’accès gratuit. Je note aussi que sur une telle requête donnant peu de résultats, ces derniers sont très pertinents.

Je n’ai pas trouvé de sources françaises scanées par Google, et pas trouvé trace d’information non plus sur l’existence de partenariat entre Google et des éditeurs français de journaux pour scaner leur archives, comme Google en a conclut pour son programme GoogleBooks avec des bibliothèques françaises…

—-

Complément (10 septembre 2008) :

– Lire également : Astrid Girardeau et Frédérique Roussel, dans Libération : “Google, papivore numérique” :

(noir)Le projet est bien sûr basé sur des partenariats avec une centaine de journaux et des sociétés de microfilmage. Google prévoit de financer la numérisation des journaux qui accepteraient de donner l’accès libre à leurs archives via News Archive Search. Les pages afficheront des liens sponsorisés (Adsenses), dont les rentrées d’argent seront partagées entre Google et le partenaire. La recherche donne accès à une liste d’articles, gratuits ou payants selon les médias. Certains se lisent dans l’interface de News Archive Search ou directement sur le site du journal. Seuls quelques exemples sont aujourd’hui visibles, mais Google parle de la mise en ligne imminente de millions d’articles.

(/noir)

Numérisation de la presse française par la Bibliothèque nationale :

Libération :

(noir)Côté Bibliothèque nationale de France (BNF) justement, on se veut serein. La vieille dame a démarré en 2004 la numérisation des archives de la presse française jusqu’en 1944. A ce jour, un million de pages de 1 200 titres (dont le Figaro, la Croix, l’Humanité, le Temps, Ouest-Eclair ou encore l’Aurore) ont été numérisées pour être disponible en accès libre sur Gallica, la BNF numérique. La BNF encourage les partenariats des éditeurs de presse concernant la période plus récente.

(/noir)

La presse quotidienne dans Gallica
– Version numérisée dans Gallica du n°1 du journal L’Humanité du 08 avril 1904.

1 Comment

  1. “(…)mais ces contenus scannés ne sont pas si faciles à trouver que ça, à son avis”

    On peut tout de même mettre 30 secondes de son temps de cerveau disponible pour mettre au point une requête qui permettra à GooF1 de ne retourner que des archives scannées:
    (site:news.google.com/newspapers marilyn monroe)

    Sans les crochets bien sur

    😉

Comments are closed.