sebsauvage.net

Ce site n'est pas le site officiel.
C'est un blog automatisé qui réplique les articles automatiquement

CommonCrawl

Thursday 28 November 2013 at 08:44

Tiens donc, je ne connaissais pas ce cousin d'Archive.org. Tout comme archive.org, c'est une organisation à but non lucratif.
Archive.org archive la musique, les films, les livres (papier et électroniques) et les pages web.  CommonCrawl se limite au web.
Ils viennent juste de publier une petite archive de sites web... si vous avez 102 Téra-octets de libre, vous pouvez la télécharger: http://commoncrawl.org/new-crawl-data-available/
Elle contient environ 2 milliards de pages web.
A noter qu'ils utilisent le même format de stockage qu'Archive.org: WARC (qui est en prime une norme ISO: ISO 28500)
(Permalink)

Source: http://commoncrawl.org/