ImageNet
From Wikipedia, the free encyclopedia
| Producteur |
ImageNet |
|---|---|
| Décrit par |
ImageNet: A large-scale hierarchical image database (d) |
| Licence |
BSD-3-Clause |
|---|---|
| Site web |
(en) www.image-net.org |
ImageNet est une base de données d'images annotées produit par l'organisation du même nom, à destination des travaux de recherche en vision par ordinateur.
En 2016, plus de dix millions d'URLs ont été annotées à la main pour indiquer quels objets sont représentés dans l'image ; plus d'un million d'images bénéficient en plus de boîtes englobantes autour des objets. La base de données d'annotations sur des URL d'images tierces est disponible librement, ImageNet ne possédant cependant pas les images elles-mêmes.
De 2010 à 2017, le projet ImageNet a organisé un concours annuel : ImageNet Large Scale Visual Recognition Challenge (ILSVRC), ou « Compétition ImageNet de Reconnaissance Visuelle à Grande Échelle ». Elle consistait en une compétition logicielle dont le but était de détecter et classifier précisément des objets et des scènes dans les images naturelles.

La chercheuse Fei-Fei Li a commencé a travailler sur l'idée du dataset ImageNet en 2006. Alors que les chercheurs travaillent à améliorer les modèles et les algorithmes, Li décide d'augmenter et d'améliorer les données disponibles pour entraîner les algorithmes d'apprentissage automatique[1]. En 2007, Fei-Fei Li rencontre Christiane Fellbaum (en), professeure à l'Université de Princeton et une des créatrices de WordNet pour discuter du projet. À la suite de cette rencontre, Li construit ImageNet à partir de la base lexicale WordNet, en ré-utilisant plusieurs de ses caractéristiques[2].
La base de données ImageNet a été présentée pour la première fois lors des sessions de présentation de posters en 2009 à la Conférence sur la Vision par Ordinateur et Reconnaissance de formes (CVPR) en Floride, par des chercheurs du département d'Informatique à l'Université de Princeton[2],[3].
Le jeu de données
ImageNet utilise la production participative dans son processus d'annotation. L'annotation à l'échelle de l'image indique la présence ou l'absence d'une classe d'objet dans celle-ci, par exemple « il y a des tigres dans cette image » ou « il n'y a pas de tigres dans cette image ». Pour l'annotation d'objets, il s'agit de fournir une boîte englobante autour de l'objet ou de sa partie visible. ImageNet utilise une variante de la structure WordNet de catégorisation d'objets, augmentée de 120 catégories de races de chiens, afin de présenter la classification sémantique fine[4].
Le jeu de données ImageNet le plus utilisé, ILSVRC 2012-2017, est composé d'environ 1.5 million d'images, réparties en environ 90 % d'images d'entraînement, 3 % de validation et 7 % de test[5].