Apprentissage profond

ensemble de méthodes d'apprentissage automatique From Wikipedia, the free encyclopedia

L'apprentissage profond[1],[2] ou apprentissage en profondeur[1] (en anglais : deep learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux artificiels composés de nombreuses couches pour résoudre des tâches complexes. L'apprentissage profond permet des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel, notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage. Les développements de l'apprentissage profond sont portés par des investissements privés et publics importants depuis les années 2010, notamment de la part des géants du Web[3].

Partie de
Méthode d'apprentissage automatique (d)Voir et modifier les données sur Wikidata
Personne clé
Michal Valko (d)Voir et modifier les données sur Wikidata
Faits en bref Partie de, Personne clé ...
Apprentissage profond
Partie de
Méthode d'apprentissage automatique (d)Voir et modifier les données sur Wikidata
Personne clé
Michal Valko (d)Voir et modifier les données sur Wikidata
Fermer

Définition

Pour créer un modèle informatique prédictif de manière classique, on modélise les données par extraction de caractéristiques, cette dernière étant souvent effectuée au moyen d'un algorithme. Selon la méthode de l'apprentissage profond, l'extraction de caractéristiques résulte elle-même d'un processus d'apprentissage : on parle donc d'apprentissage de représentations. En pratique, la machine apprend des représentations hiérarchisées, souvent dans les couches cachées de réseaux de neurones artificiels, chacune étant définie à partir de représentations plus simples[DLB2016 1]. Ces représentations étant apprises directement à partir des données, cela évite que les humains aient à expliciter la manière de les construire au moyen d'un algorithme. Si l'on représente la manière dont ces représentations sont construites les unes à partir des autres au moyen d'un graphe, celui-ci contiendra de multiples couches, justifiant ainsi la qualification de « profond ».

Un exemple de réseau de neurones avec une seule couche cachée (en bleu) entre les couches d'entrée (en vert) et de sortie (en jaune).


Les premières couches d'un réseau neuronal convolutif identifient des motifs relativement simples, comme des contours, et les couches suivantes identifient des motifs de plus en plus complexes.

Historique

L'apprentissage profond est considéré comme « la troisième vague » de développement, après le « cybernétique » des années 1940-1960, puis le « connexionniste » des années 1980, chacun ayant été suivi par un hiver de l'intelligence artificielle[DLB2016 2]. Le concept d'apprentissage profond prend forme dans les années 2010, avec la convergence de trois facteurs[DLB2016 3] :

  • des avancées théoriques, notamment dues à Geoffrey Hinton, qui a proposé des approches de pré-entraînement permettant d'apprendre des architectures profondes[DLB2016 4] ;
  • le phénomène de Big data, qui a permis la mise à disposition de volumes colossaux de données numériques, nécessaires pour apprendre les architectures profondes[DLB2016 5] ;
  • l'avènement du GPGPU, consistant à effectuer des calculs génériques et utiles pour l'apprentissage d'architectures profondes au moyen de processeurs graphiques qui accélèrent les calculs[DLB2016 6].

En 2012, le modèle AlexNet, conçu par Alex Krizhevsky, Ilya Sutskever et leur directeur de thèse Geoffrey Hinton[4], obtient les meilleures performances lors de la campagne d'évaluation internationale ImageNet de reconnaissance d'images. Le réseau surpasse largement le deuxième[5] et popularise ainsi les approches par apprentissage profond en vision par ordinateur.

En 2015, le programme AlphaGo, un modèle neuronal profond qui a « appris » à jouer au jeu de go grâce à l'apprentissage par renforcement, bat le champion européen Fan Hui[6] par cinq parties à zéro. En , le même programme bat le champion du monde Lee Sedol par 4 parties à 1[7]. Ces matches ont eu un fort retentissement dans le grand public, en particulier en Asie.

En 2017, à la conférence NIPS, des chercheurs travaillant pour la plupart dans des équipes de recherche de Google proposent l'architecture transformeur[8], qui servira peu de temps après de base aux grands modèles de langage. L'année suivante, l'entreprise propose le modèle BERT, basée sur la partie « encodeur » du transformeur. Ce modèle de langage permettra une amélioration significative des performances en traitement automatique des langues. La même année, OpenAI propose le modèle GPT, qui est pour sa part fondé sur la partie « décodeur » des transformeurs.

En 2018, Yann Le Cun, Yoshua Bengio et Geoffrey Hinton sont récipiendaires du prix Turing « Pour les percées conceptuelles et techniques qui ont fait des réseaux neuronaux profonds une composante essentielle de l'informatique[9] ». En 2024, Geoffrey Hinton et John Joseph Hopfield sont co-lauréats du prix Nobel de physique pour « leurs découvertes fondamentales et inventions qui ont rendu possible l'apprentissage automatique et les réseaux de neurones artificiels »[10]

En 2019, OpenAI publie GPT-2, un modèle de fondation capable de générer du texte. Tout en exprimant leurs inquiétudes sur les détournements possibles de ce type de technologie, les chercheurs de l'association renoncent à partager la version complète[11].

Domaines d'application

L'apprentissage profond s'applique à divers secteurs des NTIC, notamment :

Dans le système de santé, l'apprentissage profond peut aussi[3] :

En physique, l'apprentissage profond est utilisé pour la recherche sur les particules exotiques[42].

Réactions

Sont pointés de possibles usages malveillants de l'apprentissage profond. Il est devenu possible avec les hypertrucages d'incruster le visage d'une personne sur une autre, à son insu, et de lui faire faire ou dire des choses qu'elle n'a pas faites (comme dans le film Running Man de 1986), l'apprentissage profond recréant les mouvements du visage en rendant l'incrustation ressemblante. Ainsi, plusieurs actrices comme Gal Gadot, Emma Watson, Cara Delevingne, Emma Stone, Natalie Portman ou Scarlett Johansson se sont retrouvées avec leur visage incrusté sur celui d'une actrice pornographique, soulevant des craintes quant à la généralisation d'un tel usage, permettant à n'importe qui de nuire à la réputation d'une autre personne[43]. Face à ce danger, plusieurs plates-formes telles que Pornhub, Twitter et Reddit ont réagi en interdisant la publication de telles vidéos, et l'utilisateur « deepfakes », créateur du logiciel éponyme permettant à tout usager de créer des fausses vidéos à caractère pornographique, a été banni de Reddit et son fil dédié supprimé[44].

Notes et références

Voir aussi

Related Articles

Wikiwand AI