Common Crawl

Fondation sans but lucratif éponyme d'un moissonnage périodique et ouvert du web From Wikipedia, the free encyclopedia

Common Crawl est une organisation à but non lucratif 501(c)(3) qui explore le Web et fournit gratuitement ses archives et ses ensembles de données au public[2],[3]. Les archives Web de Common Crawl se composent de pétaoctets de données collectées depuis 2008[4]. Il effectue des crawls environ une fois par mois[5].

Création
FondateursGil Elbaz
Personnages clésPeter Norvig
Rich Skrenta
Eva Ho
Faits en bref Création, Fondateurs ...
Common Crawl
logo de Common Crawl
Logo de Common crawl

Création
Fondateurs Gil Elbaz
Personnages clés Peter Norvig
Rich Skrenta
Eva Ho
Forme juridique 501(c)(3) non lucratif
Siège social San Francisco, Californie
Los Angeles, Californie
Drapeau des États-Unis États-Unis
Activité Édition et collecte de données (en)Voir et modifier les données sur Wikidata
Site web https://commoncrawl.org/

Chiffre d'affaires 1,3 M$ ()[1]Voir et modifier les données sur Wikidata
Bilan comptable 1,3 M$ ()[1]Voir et modifier les données sur Wikidata
Fermer

Common Crawl a été fondé par Gil Elbaz[6]. Peter Norvig et Joi Ito comptent parmi les conseillers de l'organisation à but non lucratif[7]. Les robots d'exploration de l'organisation respectent les politiques nofollow et robots.txt. Le code open source pour le traitement de l'ensemble de données de Common Crawl est accessible au public.

L'ensemble de données Common Crawl comprend des travaux protégés par le droit d'auteur et est distribué depuis les États-Unis dans le cadre de revendications d'utilisation équitable. Les chercheurs d'autres pays ont eu recours à des techniques telles que le mélange de phrases ou le référencement de l'ensemble de données Common Crawl pour contourner la législation sur le droit d'auteur dans d'autres juridictions[8].

L'anglais est la langue principale de 46 % des documents de la version de mars 2023 de l'ensemble de données Common Crawl. Les autres langues les plus courantes sont l'allemand, le russe, le japonais, le français, l'espagnol et le chinois, chacune représentant moins de 6 % des documents[9].

Histoire

Amazon Web Services a commencé à héberger les archives de Common Crawl via son programme Public Data Sets en 2012[10].

L'organisation a commencé à publier des fichiers de métadonnées et la sortie texte des robots d'exploration ainsi que des fichiers .arc en juillet 2012[11]. Les archives de Common Crawl ne comprenaient auparavant que des fichiers .arc[11].

En décembre 2012, blekko a fait don au moteur de recherche Common Crawl des métadonnées qu'il avait recueillies lors des recherches qu'il avait effectuées entre février et octobre 2012[12]. Les données offertes ont aidé Common Crawl à « améliorer son crawl tout en évitant le spam, la pornographie et l'influence d'un référencement excessif »[12].

En 2013, Common Crawl a commencé à utiliser le robot d'exploration Web (webcrawler) Nutch de l'Apache Software Foundation au lieu d'un robot d'exploration personnalisé[13]. De plus, Common Crawl est passé de l'utilisation des fichiers .arc aux fichiers .warc avec son crawl de novembre 2013[14].

Une version filtrée de Common Crawl a été utilisée pour former le modèle de langage GPT-3 d'OpenAI, annoncé en 2020[15].

Chronologie des données de Common Crawl

Les données suivantes ont été collectées à partir du blog officiel de Common Crawl[16] et de l'API de Common Crawl[17].

Davantage d’informations date de scan, Taille en TiB ...
date de scan Taille en TiB Milliards de pages Information complémentaire
Février 2025 402 2.6
Janvier 2025 460 3.0
Décembre 2024 394 2.64
Novembre 2024 405 2.68
Octobre 2024 365 2.49
Septembre 2024 410 2.8
Août 2024 327.4 2.3
Juillet 2024[18] 360 2.5
Juin 2024 382 2.7
Mai 2024 377 2.7
Avril 2024 386 2.7 Le scan a été mené du 12 au 24 avril 2024.
Février/Mars 2024 425 3.16 Le scan a été mené du 20 février au 5 mars 2024.
Décembre 2023 454 3.35 Le scan a été réalisé du 28 novembre au 12 décembre 2023.
Juin 2023 390 3.1 Le scan a été mené du 27 mai au 11 juin 2023.
Avril 2023 400 3.1 Le scan a été mené du 20 mars au 2 avril 2023.
Février 2023 400 3.15 Le scan a été mené du 26 janvier au 9 février 2023.
Décembre 2022 420 3.35 Le scan a été mené du 26 novembre au 10 décembre 2022.
Octobre 2022 380 3.15 Le scan a été mené en septembre et octobre 2022.
Avril 2021 320 3.1
Novembre 2018 220 2.6
Octobre 2018 240 3.0
Septembre 2018 220 2.8
Août 2018 220 2.65
Juillet 2018 255 3.25
Juin 2018 235 3.05
Mai 2018 215 2.75
Avril 2018 230 3.1
Mars2018 250 3.2
Février 2018 270 3.4
Janvier 2018 270 3.4
Décembre 2017 240 2.9
Novembre 2017 260 3.2
Octobre 2017 300 3.65
Septembre 2017 250 3.01
Août 2017 280 3.28
Juillet 2017 240 2.89
Juin 2017 260 3.16
Mai 2017 250 2.96
Avril 2017 250 2.94
Mars 2017 250 3.07
Février 2017 250 3.08
Janvier 2017 250 3.14
Décembre 2016 2.85
Octobre 2016 3.25
Septembre 2016 1.72
Août 2016 1.61
Juillet 2016 1.73
Juin 2016 1.23
Mai 2016 1.46
Avril 2016 1.33
Février 2016 1.73
Novembre 2015 151 1.82
Septembre 2015 106 1.32
Août 2015 149 1.84
Juillet 2015 145 1.81
Juin 2015 131 1.67
Mai 2015 159 2.05
Avril 2015 168 2.11
Mars 2015 124 1.64
Février 2015 145 1.9
Janvier 2015 139 1.82
Décembre 2014 160 2.08
Novembre 2014 135 1.95
Octobre 2014 254 3.7
Septembre 2014 220 2.8
Août 2014 200 2.8
Juillet 2014 266 3.6
Avril 2014 183 2.6
Mars 2014 223 2.8 Premier crawl Nutch
Hiver 2013 148 2.3 Le scan a été mené du 4 au 22 décembre 2013.
Été 2013 ? ? Le scan a été mené de mai 2013 à juin 2013. Premier scan WARC
2012 ? ? Le scan a été mené de janvier 2012 à juin 2012. Dernier scan ARC
2009-2010 ? ? Le scan a été mené de juillet 2009 à septembre 2010.
2008-2009 ? ? Le scan a été mené de mai 2008 à janvier 2009.
Fermer

Prix Norvig de la science des données Web

En corroboration avec SURFsara, Common Crawl sponsorise le Norvig Web Data Science Award, un concours ouvert aux étudiants et chercheurs du Benelux[19],[20]. Le prix porte le nom de Peter Norvig, qui préside également le comité de sélection du prix[19].

Colossal Clean Crawled Corpus

La version de Google du Common Crawl s'appelle Colossal Clean Crawled Corpus, ou C4 en abrégé. Il a été construit pour la formation de la série de modèles linguistiques T5 en 2019[21]. Il existe quelques inquiétudes concernant le contenu protégé par le droit d'auteur dans le C4[22].

Références

Liens externes

Related Articles

Wikiwand AI