Archiver (le web)
Par Véronique Rabuteau le jeudi 15 avril 2010, 08:07 - Communauté - Lien permanent
Billet inspiré par des discussions sur FriendFeed (<oui, il y a encore du monde là-bas!) à l'annonce de la décision de la Librairie du Congrès américaine d'archiver tous les tweets - messages sur Twitter - publics depuis 2006.
Cette vénérable institution - pas Twitter, donc - bien connue des documentalistes, fait œuvre patrimoniale depuis 1800, et assemble des collections de documents de toute nature (livres, cartes, films etc).
Dans l'annonce qui est faite sur le blog, l'auteur rappelle que l'archivage de certains éléments issus du web date de 2000 et s'élève déjà à 167 terabytes.
Cette décision pointe un certain nombre de questions et - ceci étant dit en passant - souligne aussi l'avènement de cette ère numérique dans laquelle nous sommes entrés.
Et quand je vous disais que nous aurions de futurs archéologues numériques! Imaginez leur émoi questionnement devant les tweets suivants:
- "Suis dans le train at La Ferté/Oise" ou - "Aime les cèpes"...
Mais, détrompez-vous, cela donnera de précieuses indications sur les modes de vie du XXIè siècle... On peut même imaginer que, parmi les futures générations d'ethnologues, anthropologues et sociologues, certains s'attacheront par exemple à étudier le cas d'une personne uniquement via un compte Twitter. Et cela génèrera surement des analyses pertinentes sur une population donnée.
Quand à la Librairie du Congrès, elle souligne bien-sûr les tweets des hommes d'état, ceux qui font référence à des évènements historiques (ou encore, peut-être, le premier tweet envoyé récemment depuis l'espace).
Je ne sais pas si l'on peut vraiment imaginer - concevoir - la masse colossale des données qui s'accumulent jour après jour avec l'essor de la technologie numérique et sa simplicité d'utilisation grandissante!

Rien que pour Twitter, ce sont quelques 55 millions de tweets quotidiens - et un article du New York Times est mis en ligne chaque 4 secondes! (source Reuters).
Ou ceci - traduit dans les grandes lignes - issu d'une analyse d'IBM (2006) intitulées The Toxic Terabyte (à lire, pour les anglophones):
Les projections datées d'il y a quatre ans prévoyaient que l'ensemble des données mondiales allait doubler toutes les 11 heures. La croissance de ces données digitales mondiales est si rapide que le vocabulaire pour le désigner a du s'adapter et s'étendre. Il y a dix ou vingt ans les professionnels de l'informatique s'exprimaient en kilobytes et megabytes (...) Aujourd'hui ce sont les écoliers qui ont accès à des ordinateurs qui ont des capacités de mémoire de l'ordre de dizaines de gigabytes (...) Au-delà, ce sont maintenant des exabytes, zettabytes et yottabytes dont on parle, chacun étant une centaine de fois supérieur au précédent (...).
Cela pose - comme toujours - de nombreuses questions et, je ne sais pas vous, mais moi, j'y pense souvent:
- Comment indexer et archiver: passé la consultation immédiate - ou en 'temps réel' - l'important sera de savoir remonter/retrouver les informations et trier par pertinence.
- Les langages et les outils vont évoluer: pourrons-nous toujours lire/consulter ce qui a été stocké à un temps T? (souvenez-vous, les manges disques et les lecteurs VHS...). D'ailleurs, développeurs, pensez à laisser quelque part une possible pierre de Rosette pour le futur en plusieurs langages.
- Que sera-t-il pertinent de conserver - ou pas? Question ancienne mais, dont il me semble que la nouveauté est qu'elle concerne également aujourd'hui les individus dans leur dimension intime et sociale. Avant le numérique, seuls existaient les journaux intimes, correspondances, albums de famille ou documents notariés, etc - il paraît qu'aujourd'hui sur FaceBook la jeune génération accole les noms de famille des amis à son propre patronyme: votre nom + celui d'un ami, pour marquer l'affinité: imaginez le travail des généalogistes du futur!
- Dans la même veine, cela pose peut-être aussi la question de la trace - ou de l'illusion de: aujourd'hui chaque utilisateur en ligne peut avoir le sentiment d'exister de façon pérenne en laissant ces fameuses "traces". Cela change-t-il quelque chose dans notre rapport au temps, à la perception que nous avons de nous-même?
- Enfin, qui détient - ou va détenir - cette colossale mémoire? Celle qui est stockée pour partie par des entreprises privées, qui sont aussi celles qui acheminent l'information, construisent et vendent les outils et le matériel, les serveurs, les centres de données, les câbles sous-marins, les antennes et réseaux, satellites et moteurs de recherches...
Je ne veux pas aborder ici l'aspect paranoïa et vie privée, mais simplement souligner qu'il s'agit d'une question qui prend une dimension nouvelle, et qu'il ne s'agit pas d'organismes publics.
Contrairement à la Librairie du Congrès - qui fait œuvre patrimoniale - comme toutes les entités de cette nature, aujourd'hui les données privées étant de plus en plus numérisées - et donc, de moins en moins conservées sur d'autres supports - il faut bien se poser la question de leur conservation, de leur accès et de leur "place" dans un futur, pas si lointain.
A qui est/sera dévolu ce rôle?
Beaucoup de questions donc pour un samedi matin, invite à la réflexion plutôt qu'à la réponse immédiate et - surtout pas - définitive!
Illustration 1: Bram J. Meijer - copyright photoXpress.com - Illustration 2: Nikkis Noise.




Commentaires
Tiens, cette discussion ne m’est pas étrangère
@Alban
merci de ton passage.
...et, merci aussi pour le reste!
J'aime les cèpes les smiley et les articles de @VeroniqueR (en moins de 140 caractères).
@lolobobo
+ 
Cette initiative me laisse très perplexe à la vue de récents évènements comme la reprise en boucle de certains tweets décrivant la prise d'otage en inde (cf http://blog.lefigaro.fr/hightech/20... ) par les média alors que ces tweets était des reprise des médias....le tout s'auto alimentant !!
Qui fera la part des choses dans 100 ans ? Personne.
@dio (c'est -quoi- votre- nom- derrière -le lien, que je laisse): il y aura, sur le lot, des choses plus ou moins pertinentes, à l'évidence! Pour ce qui est de la différenciation, pas d'accord, c'est exactement dans la méthodologie des ethnologues, archéologues, etc. Et puis, tout dépend de ce que l'on cherche, pas forcément important.
@vero Le journalisme défend l'idée d'utiliser des sources venant corroborer les tweets (dans le lien que je vous ai donné) mais pour moi le problème est plus profond. Peut on accorder de la crédibilité à une source anonyme ? Cette problématique se pose avec plus d'acuité si on y ajoute la barrière du temps (le métier d'archéologue va drôlement changer !). Pour moi tweeter est un accélérateur d'accès à l'information, la vrai, qui elle n'est pas dans les tweets. Par nature le tweet devient donc obsolète très rapidement et mieux vaux donc stocker l'information probante qui elle ne sera plus accessible. Bref je m'égare et je parie que le nombre de TERA nécessaires au stockage des tweets rendra l'approche du congrès plus ... sélective.
Le talent de paléontologues et des archéologues du XXe siècle leur permettait de reconstituer le squelette entier d’un ankylosaure à partir d’un bout de vertèbre caudale ou encore l’architecture d’une cité babylonienne à partir de tessons de poterie.
Demain leurs collègues devront apprendre à décrypter les rumeurs sur l’infidélité de Carla, les grèves SNCF, la traitrise d’Éric Besson et le bourbier afghan à travers des milliards d’informations fragmentaires allant des bribes de Twitter au blog culinaire de Simone Champignard. À n'en point douter, le progrès est en marche. Bon courage les mortels!
Mais qui est donc cette méchante tricarde qui gâche nos enthousiasmes numériques ? Vous avez bien raison amis des « outils d’aujourd’hui » de moquer les modestes réflexions des adeptes de la « télé d’antan». Oh, rassurez-vous amis mutants ce n’est ni par incompétence ou par esprit réactionnaire que je m’interroge sur le bien-fondé de toutes ces pratiques. Simplement l’idée même qu’un chercheur de demain s’ingénie à interpréter ma dernière froissure d’aire sur un tronc de séquoia me chagrine un tantinet. (Et oui, ne vous en déplaise, les fées ont aussi de la pudeur même si on me reproche de trop offrir aux facéties du vent ma si courte jupette). Déjà que dans votre monde, on ne sait même plus comment stoker et restaurer les 25500 charrues, les 58900 lampes à pétrole et autres 15600 costumes régionaux des écomusées de vos belles provinces et les millions d’ouvrages de vos bibliothèques, vous imaginer le casse-tête de demain avec tout ce que vous laisser sur la toile comme info de premier ordre sur la culture de lombric à domicile, la légitimité au trône de France d’Henri d’Orléans et les pétitions pour la rénovation de la salle des fêtes de Cromiard-sur-Moselle.
Ici au pays magique, on se parle face à face, de voix à voix, de branche en branche. Quand on doit absolument écrire un message, on le grave sur une feuille de balisier qui sèche et pourrie à la saison suivante. Mais vous avez raison, nous sommes des tricards, des ringards, des antiquités has been qui ont loupé le train du progrès communicationnel. Même Peter en à ras le bol d’aller lire en douce le blog de Véronique sur l’ordi planqué dans la cabine du capitaine Crochet. Il vient de commander sur le catalogue de la Camif un Goupil Golf 286 et même un Amiga portable pour Wendy (ne venait pas me rabâcher que je suis jalouse). The first computers in Neverland, un événement ! J’espère que vous apprécierez nos efforts pour marcher dans vos traces. Avec ces bécanes-là, pas d’inquiétude. On sera à la page numérique. On ne sera plus l’archétype de fracture social du réseau social, les laissez pour compte de la Word Internet compagny.
Twitter, « Bloguez » chatez mes amis, « il en restera toujours quelques choses » même si bientôt on ne saura plus ou caser votre prose sur les exabytes, zettabytes et yottabytes complètement saturés. Les maitres du monde en auront-ils moins une âme de valets … Pas si sur.
Allez, je me retire sur la pointe des ailes. Ma prose inutile prend déjà bien trop de place sur les disques de stockage. Je vais rejoindre Peter au bord de la rivière et là…. Chut… C’est un secret.
Amitié à vous
Fée Clochette
Je n'arrive pas à laisser un commentaire sur l'article "arte..." donc je le fait ici...
Félicitations pour ton nouveau job! Arte, c'est du grand Art! Je profite aussi pour te féliciter encore pour ton travail d'analyse sur ce blog, un grand bravo!
bravo, c'est bien d'avoir repris l'info ce qui est triste c'est qu'aux Etat-Unis,ils ont une longueur d'avance sur nous quand nous en France on peine à numériser nos travaux universitaires et tous nos richesses qui dorment dans les librairies.J'espère que ce qui se passera aux states et à travers cet exemple poussera nos politiciens à réagir face à la fracture numérique.
Je rentre de la plage avec Peter. C’était sympa. Mais je ne vous raconterais pas.
Véronique, comme je suis aussi mutine qu’une insupportable mauvaise langue, j’ai constaté que les « félicitations » avaient été unanimes (dont les miennes au passage) pour saluer votre nouveau job sur ARTE. Encore une petite dernière laissée hier à 22h 14 par Lucien Mediadisc
Qu’en aurait-il été si vous aviez intégré une autre chaine du PAF? A votre avis ? Quelque chose dans le genre ? :
Sur ARTE « Félicitation » « Félicitation » « Félicitation » « Félicitation » « Félicitation » "Felicitation" ect....
Sur CANAL + « le job de rêve Véro, la chaine mythique Franchement, je vous le dis comme je le pense, je suis un peu jalouse »
Sur France 5 « ma chaine préférée. Les docus, j’adore. Vous allez y être comme un poisson dans l’eau »
Sur France 2 « Mille Bravos Véro ! C’est génialo»
Sur TF1 « Par les temps qui courent, c’est déjà une super bonne nouvelle»
Sur France 3 « Content pour vous …En attendant mieux »
Sur RFO « Les iles, l’eau turquoise, la langouste sauce chien… Retour aux sources, vous devez être contente, non ? »
Sur M6 « Du moment que vous y plaisez, c’est l’essentiel et puis Valérie Damidot à l’air d’une fille sympa. Je suis sur que vous allez vous entendre»
Sur NRJ 12 « C’est une chaine jeune, parfaite pour vous. Ne vous bilez pas Véronique, la télé c’est toujours que de la télé… »
Sur LCP « Des fois les débat y sont bien intéressants. Je comprends pas tout qu’est ce qui y disent mais je les regarde en faisant mon repassage »
Sur France 3 Régionale «Vraiment, l’agent Pôle emploi ne vous a pas gâtée. Je compatis de tout cœur mais bon, faut bien faire bouillir la marmite »
Sur KTO « C’est une terrible épreuve que le Seigneur vous envoie. Allez, soyez courageuse ma fille »
Je laisse le reste de la liste TNT et câble à votre imagination.
Je vous le dis les amis. Y’a pas de fracture cathodique (cristoliquidique) Y’a que de la fracture sociale et numérique.
FC en directe de Neverland
@dio: merci pour ce complément. Suis d'ailleurs en train de regarder ce qui se développe du côté du 'data journalisme'.
@mediadisc: pardon d'avoir tardé à répondre et merci beaucoup.
@Fée Clochette: vous êtes déchainée! Votre imagination étant beaucoup plus développée que la mienne (et pour cause). Il faudrait que je vous réponde par téléphone là (ce que j'essaie de faire, promis).
Neverland, neverland...
Nietzsche disait qu'une des plus grandes souffrances et de ne pas parvenir à oublier ces souvenirs qui nous hantent et qui nous rangent. Cet article nous montre que la société est en train de se doter d'une "hyper-mémoire" ; l'oubli sera impossible, et le plus petit tweet sera conservé jusqu'à la fin des temps... Aïe !
C'est un travail de titan mais qui effectivement en vaut la peine
J'attends ta proposition pour parler de tout ça autour d'un déj !!
Bises
à bientôt
Carole