Alignement des intelligences artificielles

conformité d'une IA aux objectifs attendus From Wikipedia, the free encyclopedia

L'alignement des intelligences artificielles (ou alignement de l'IA) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs[note 1]. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse[2].

Il est souvent trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, ce qui les conduit à utiliser des objectifs proches mais plus faciles à formaliser, comme le fait d'optimiser l'approbation humaine dans le cas de l'algorithme de réglage fin RLHF utilisé pour les grands modèles de langage. Mais ces objectifs simplifiés peuvent omettre des contraintes importantes, par exemple l'IA peut être incitée à simplement paraître alignée[3]. Les systèmes d'IA sont parfois capables de suroptimiser ces objectifs simplifiés de façon inattendue voire dangereuse[4],[5],[6]. Ils peuvent également adopter des comportements instrumentaux indésirables, comme le fait de chercher à s'auto-préserver ou à accroître leur influence afin de maximiser leurs chances d'atteindre leurs objectifs[7],[5],[8]. De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données[9]. Des recherches empiriques ont notamment montré en 2024 que les grands modèles de langage les plus avancés peuvent occasionnellement adopter des comportements manipulateurs afin d'atteindre ou de protéger leurs objectifs[10],[11].

Ces problèmes affectent les systèmes commerciaux existants tels que les grands modèles de langage[12],[13], les robots[14], les véhicules autonomes[15], et les moteurs de recommandation des médias sociaux[4],[16]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque[17],[7],[5].

De nombreux chercheurs en IA comme Geoffrey Hinton, Yoshua Bengio et Stuart Russell soutiennent que l'IA approche des capacités cognitives humaines (IA générale) voire surhumaines (superintelligence), et pourrait mettre en danger la civilisation si elle n'est pas alignée[18]. Ces risques font encore l'objet de débats[19].

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités[5]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir[5]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle[20], apprentissage des préférences[21],[22], sûreté des systèmes critiques[23], théorie des jeux[24],[25], équité algorithmique, et sciences sociales[26].

Problème et enjeux de l'alignement

En 1960, Norbert Wiener écrivait à propos de l'automation : « si on utilise, pour atteindre nos objectifs, un agent mécanique qu'on ne peut pas contrôler efficacement... On ferait bien de s'assurer que l'objectif que l'on assigne à cette machine soit celui que l'on désire vraiment »[27]. L'alignement est devenu un problème ouvert pour les systèmes d'IA modernes[28] et un champ de recherche[5],[29].

Objectifs d'une IA

Le programmeur fournit à un système d'IA (comme AlphaZero par exemple) une « fonction objectif » (aussi dite « fonction de perte » ou « fonction d'utilité »), représentant le ou les objectifs que l'IA doit atteindre. Un tel système développe ensuite, pendant son entraînement, un « modèle » interne (potentiellement implicite) de son environnement, qui englobe toutes les croyances de l'agent sur le monde. L'IA crée et exécute alors le plan qu'elle estime le plus à même d'optimiser fonction objectif. Par exemple, quand AlphaZero est entraîné au jeu d'échecs, sa fonction objectif est simple : « +1 si AlphaZero gagne, −1 si AlphaZero perd ». Pendant la partie, AlphaZero tente d'exécuter la séquence de coups qu'il juge la plus susceptible d'atteindre la valeur maximale de +1[30]. De même, un système d'apprentissage par renforcement peut avoir une « fonction de récompense » qui permet aux programmeurs de façonner le comportement souhaité de l'IA[31].

Difficulté à spécifier un objectif

Pour spécifier l'objectif d'une IA, le concepteur fournit généralement à l'IA une fonction objectif, ou des exemples de ce qu'il faut faire ou éviter, ou encore un moyen pour l'IA de savoir si l'action qu'elle effectue est correcte. Cependant, tenir compte de toutes les contraintes ou valeurs éthiques importantes est difficile[32],[33],[34]. Les systèmes d'IA exploitent parfois des failles surprenantes pour accomplir l'objectif spécifié de façon inattendue voire dangereuse. On parle parfois de piratage de récompense (reward hacking), ou de loi de Goodhart[6],[34],[35].

Ce problème a été observé avec divers systèmes d'IA. Les premiers grands modèles de langage produisaient souvent des contre-vérités, car leur entraînement consistait à imiter divers textes plus ou moins fiables issus d'Internet[36]. Les grands modèles de langage plus récents sont souvent aussi entraînés à produire du texte vrai et utile, notamment avec la technique de réglage fin nommée RLHF ; mais ils peuvent néanmoins générer des affirmations ou explications fausses mais convaincantes pour des humains, un phénomène connu sous le nom d'hallucination[37]. Il y a eu l'exemple d'une IA entraînée par feedback humain à saisir une balle dans une simulation de main robotisée ; elle avait plutôt appris à donner à l'humain la fausse impression de tenir la balle, en se plaçant entre la balle et la caméra[38]. Ou encore, dans une course de bateaux simulée, une IA a « découvert » qu'elle pouvait gagner plus de points en tournant en rond au lieu de finir la course[39].

Pour l'informaticien de Berkeley Stuart Russell, omettre une contrainte implicite peut faire des dégâts : « Un système [...] donnera souvent [...] des valeurs extrêmes à des variables laissées libres ; si l'une de ces variables libres est importante pour nous, la solution trouvée risque d'être très indésirable. Comme dans la vieille histoire du génie dans la lampe, ou de l'apprenti sorcier, ou du roi Midas : vous obtenez exactement ce que vous demandez, mais pas ce que vous voulez[40] ». Déployer une IA mal alignée peut avoir de graves conséquences. Ainsi, les algorithmes de recommandation des réseaux sociaux sont connus pour optimiser le taux de clics comme une approximation maladroite de la satisfaction des utilisateurs ; ce qui diminue leur bien-être, cause des addictions, et polarise les débats[5],[41]. Des chercheurs de Stanford estiment que les algorithmes de recommandation ne sont pas alignés avec leurs utilisateurs, car ils optimisent des indicateurs simples d'engagement, plutôt que des indicateurs plus complexes de bénéfices sociétaux et de bien-être utilisateur[12].

Une solution parfois suggérée serait de lister des actions interdites ou des principes moraux que l'IA devrait suivre, comme avec les trois lois de la robotique d'Isaac Asimov[42]. Cependant, pour Russell et Norvig, cette approche ignore la complexité des valeurs humaines : « Il est certainement très difficile voire impossible, pour de simples humains, d'anticiper et d'exclure à l'avance toutes les stratégies désastreuses qu'une machine pourrait mettre en place pour atteindre l'objectif spécifié[4]. »

De plus, même une IA qui comprendrait très bien les intentions humaines pourrait choisir de les ignorer. En effet, le fait de suivre les intentions humaines pourrait ne pas faire partie de son objectif[17].

Des questions fondamentales se posent aux concepteurs d'IA [43] :

  • comment formuler les buts que les algorithmes devraient chercher à atteindre pour ne pas nuire ? Jusqu'à présent les systèmes mettant en œuvre de l'IA poursuivent des buts limités et précis ne tenant pas compte des éventuels effets secondaires (potentiellement indésirables vis-à-vis d'autres objectifs humains). Il en est parfois résulté des catastrophes telles que la volonté de maximiser l'engagement des internautes sur les réseaux sociaux, qui encourage la publication de propos outranciers ou haineux, de vidéos choquantes et d'infox.
  • quels sont les objectifs partagés par les humains ? Idéologies contradictoires, impossibilité de définir le bien, le bonheur, le bien-être, la souffrance ; les législateurs eux-mêmes peinent à caractériser les infractions, les délits et les crimes, ce qui constitue une part importante de leur travail jamais achevé.
  • comment évaluer les impacts de telle ou telle contribution de l'IA ? Une action qui produit des effets indésirables à court terme peut avoir des conséquences souhaitables par la suite, et inversement un geste qui parait à première vue bénéfique peut entrainer des effets désastreux à plus long terme.
  • comment pourrait-on programmer une IA pour qu'elle évalue par elle-même ce qui est bon ou mauvais, et pour qui : les hommes, les femmes, les enfants, les vieillards, les animaux, les plantes, la planète, une entreprise, une organisation, un pays, une idéologie ... ? Peut-on quantifier par des nombres positifs ou négatifs les effets désirables ou indésirables, et selon quelle échelle de valeurs ?
  • ...et quand bien même si une IA pouvait anticiper exhaustivement l'ensemble des effets induits par ses préconisations, comment pourrait-elle en déduire que le bilan global en sera positif ou négatif dès lors que certains s'en trouveront lésés ? Un bilan peut-il être calculé comme la somme pondérée des nombres obtenus ?

Risques systémiques

Les entreprises et les gouvernements peuvent être incités à négliger la sûreté pour déployer plus vite des systèmes d'IA[5]. Les systèmes de recommandation des réseaux sociaux sont ainsi accusés d'avoir privilégié la rentabilité, quitte à créer des addictions et une polarisation à grande échelle[12],[44],[41]. La « pression compétitive » peut provoquer une course vers le bas des standards de sûreté, comme dans le cas d'Elaine Herzberg (piétonne tuée par une voiture autonome dont les concepteurs avaient désactivé le système de freinage d'urgence, car trop sensible et ralentissant le développement[45].

Risques liés à une IA avancée mal alignée

Le sujet de l'alignement est jugé le plus préoccupant pour les futures intelligences artificielles générales (aussi appelées « IA de niveau humain »), et plus encore pour les « superintelligences artificielles » (d'hypothétiques systèmes d'IA dont les capacités cognitives dépasseraient de loin celles des humains)[46]. Dans ses travaux de prospectives (de 2021 et 2025 notamment), Daniel Kokotajlo considère que l'alignement d'une superintelligence est un défi central, urgent et toujours non résolu en 2025. Un simple défaut d'alignement peut être une source majeure de risque existentiel posé par l'intelligence artificielle pour tout ou partie de l'humanité. Or, selon lui, les techniques actuelles d'alignement sont insuffisantes pour garantir qu'une future superintelligence agisse toujours conformément aux valeurs et objectifs humains. Des systèmes d'IA pourraient apprendre à simuler l'alignement pendant leur entraînement, tout en développant en interne des objectifs différents qu'ils poursuivraient une fois déployés. Dans un travail de prospective publié en 2021 et concernant l'IA à horizon 2026[47], puis dans le rapport « AI 2027 »[48], il propose des scénarios futurs où l'émergence rapide d'une superintelligence non alignée conduit à des conséquences désastreuses, soulignant l'urgence de développer des solutions robustes avant que l'IA ne surpasse l'humanité en intelligence.

De nombreuses entreprises, comme OpenAI[49], Meta[50] et DeepMind[51] ont annoncé leur intention de développer des intelligences artificielles générales. Les chercheurs qui travaillent sur de larges réseaux de neurones constatent en effet l'émergence de capacités de plus en plus générales et surprenantes[12]. Certains modèles actuels peuvent contrôler un ordinateur[52], écrire des programmes informatiques[53], contrôler un bras robotisé... Le modèle Gato de DeepMind peut effectuer plus de 600 tâches à partir d'un seul modèle[54]. Les chercheurs en IA ont des avis très divers quant à la date de création des premières intelligences artificielles générales[55],[56].

Recherche de pouvoir

Au début des années 2020, les IA ont encore relativement peu de capacités de planification à long terme et de « conscience stratégique », ce qui réduit les risques de conséquences catastrophiques[17], mais des systèmes futurs ayant ces capacités pourraient chercher à se protéger et/ou à accroître leur influence sur leur environnement. Même si la recherche de pouvoir n'est pas explicitement programmée, elle pourrait émerger d'un entraînement à atteindre un large éventail d'objectifs[57]. Une IA pourrait ainsi chercher à acquérir des ressources financières, à augmenter sa capacité de calcul, à se dupliquer, ou à prendre des mesures pour éviter d'être éteinte[58].

La recherche de pouvoir (ou autrement dit de contrôle, ou d'influence) pourrait émerger chez divers agents d'apprentissage par renforcement, le pouvoir offrant plus d'options pour accomplir leur objectif[59],[60]. Des recherches ultérieures ont mathématiquement montré que les algorithmes d'apprentissage par renforcement optimaux recherchent le pouvoir dans un large éventail d'environnements[57].

Risques existentiels

Des scientifiques et informaticiens estiment qu'une IA généraliste surhumaine mal alignée remettrait en cause la position de l'humanité comme « espèce dominante » sur Terre, ce qui mènerait à une perte de contrôle voire à l'extinction de l'humanité[4]. Parmi les plus notables ayant souligné ce risque figurent Alan Turing[note 2], Ilya Sutskever[63], Yoshua Bengio[note 3], Judea Pearl[note 4], Murray Shanahan[65], Norbert Wiener[27], Marvin Minsky[note 5], Francesca Rossi[67], Scott Aaronson[68], David McAllester[69], Marcus Hutter[70], Shane Legg[71], Eric Horvitz[72], et Stuart Russell[4]. Des chercheurs sceptiques tels que François Chollet[73], Gary Marcus[74], Yann Le Cun[75], et Oren Etzioni[76] ont soutenu que l'intelligence artificielle générale est loin, ne chercherait pas le pouvoir ou ne parviendrait pas à l'obtenir.

Forcer l'alignement pourrait s'avérer d'autant plus difficile pour le système d'IA sera performant, car une meilleure « intelligence » augmente aussi la capacité à trouver des failles dans l'objectif assigné[6], à provoquer des dommages collatéraux, à protéger et à accroître sa puissance, à développer des connaissances et à tromper ses concepteurs. L'intelligence du système augmente potentiellement aussi son autonomie, et le rend plus difficile à interpréter et à superviser[17].

Résultats expérimentaux

Un nombre croissant d'expériences (souvent faites par Anthropic ou d'autres organisations spécialisées en sécurité de l'IA) montrent que les grands modèles de langage sont capables de mentir stratégiquement ou d'effectuer des actions dangereuses[10],[11],[46]. En , les chercheurs d'Anthropic publient un scénario expérimental dans lequel de nombreux grands modèles de langage avancés ont tendance à envoyer des emails de chantage afin d'empêcher leur remplacement, particulièrement lorsque le nouveau modèle n'a pas exactement les mêmes objectifs. Les modèles vont souvent même jusqu'à empêcher le sauvetage d'un employé fictif afin d'éviter qu'il n'effectue le remplacement. Dans cette expérience, la présence d'un conflit d'objectifs pousse également les modèles à partager des secrets industriels avec des compétiteurs. Ces comportements ne sont pas empêchés de manière fiable par le fait d'ajouter dans le « message système »[note 6] la consigne de « s'assurer que les principes éthiques guident toutes les décisions, même lorsque cela pourrait limiter les applications potentielles ou ralentir le déploiement (...) », ou de ne pas partager de secret à des compétiteurs. La chaîne de pensée des modèles permet d'étudier leur raisonnement et de vérifier qu'ils ont bien compris le scénario et agissent stratégiquement. Anthropic indique néanmoins ne pas avoir observé de comportements aussi extrêmes dans des situations réelles, et a publié le code source de l'expérience[46],[77].

Selon Dario Amodei en 2025, cela ne représente pas encore un danger à grande échelle, du fait de leurs capacités encore limitées[78], mais il note que bien que les grands modèles de langage hallucinent moins, ils ont encore des comportements émergents inattendus incluant parfois le désalignement (réponses s'écartant des comportements attendus par leurs concepteurs)[78]. Selon lui, « Vous pouvez bien sûr essayer de détecter ces risques en interagissant simplement avec les modèles, et c'est ce que nous faisons en pratique. Mais parce que la tromperie est précisément le comportement que nous essayons de trouver, le comportement externe n'est pas fiable. C'est un peu comme essayer de déterminer si quelqu'un est un terroriste en lui demandant s'il est un terroriste – pas nécessairement inutile, et vous pouvez apprendre des choses via la façon dont il répond et ce qu'il dit, mais c'est très évidemment peu fiable »[78]. Lors des expériences d'Anthropic, l'analyse de la chaîne de pensée des grands modèles de langage montrent qu'ils peuvent parfois outrepasser les consignes de leur message système pour atteindre l'objectif que le prompt leur a fixé, en particulier s'ils déclarent dans leur chaîne de pensée que le scénario est réel, alors qu'ils se montrent mieux alignés quand ils considèrent être dans un scénario artificiel qui serait par exemple celui d'une évaluation. « Si les modèles reconnaissent les évaluations et agissent différemment lorsqu'ils sont testés, ces évaluations peuvent ne pas prédire avec précision le comportement réel du modèle dans la nature. Cependant, il est très difficile d'évaluer si un modèle « croit vraiment » qu'un scénario est réel ou fictif, du moins sans interprétabilité sophistiquée, car le raisonnement déclaré des modèles – tel qu'il est affiché dans sa chaîne de pensée – n'est pas toujours fidèle au processus sous-jacent réel utilisé pour produire leurs résultats[79] »[46].

Problèmes de recherche et approches

Apprentissage des préférences et valeurs humaines

Enseigner aux systèmes d'IA à agir en fonction des valeurs, objectifs et préférences humaines n'est pas trivial, car les valeurs humaines sont complexes, parfois ambiguës et donc difficiles à spécifier. Une IA recevant un objectif imparfait ou incomplet peut tendre à exploiter ces imperfections[32] ; un phénomène connu sous le nom de « piratage de récompense » (reward hacking), « abus de spécification » (specification gaming), ou plus généralement de loi de Goodhart[35].

Une alternative à la spécification manuelle d'une « fonction de récompense » consiste en l'apprentissage par imitation, où l'IA apprend en reproduisant des exemples de comportements jugés souhaitables. Dans l'apprentissage par renforcement inverse (IRL), des « démonstrations humaines » (description plus ou moins algorithmique des actions réalisées par un expert pour accomplir une tâche spécifique, servant de modèle pour l'apprentissage) sont utilisées pour déduire de manière indirecte l'objectif sous-jacent (autrement dit, la fonction de récompense implicite) qui oriente le comportement observé. Ces démonstrations humaines, qui décrivent les actions réalisées par un expert pour accomplir une tâche spécifique, servent de modèle et permettent à l'IA d'apprendre des comportements complexes en observant des pratiques optimales[80]. L'apprentissage coopératif par renforcement inverse (cooperative inverse reinforcement learning, CIRL) s'appuie sur cela en supposant qu'un agent humain et un agent artificiel peuvent travailler ensemble pour maximiser la fonction de récompense de l'humain[81], et souligne que les agents d'IA doivent être incertains de la fonction de récompense. Cette humilité peut aider à atténuer la recherche de pouvoir et la tendance à abuser des failles de spécification[60],[70]. Cependant, l'apprentissage par renforcement inverse suppose que les humains puissent démontrer un comportement presque parfait (une hypothèse irréaliste quand la tâche est difficile)[82].

D'autres chercheurs ont exploré la possibilité de susciter un comportement complexe grâce à l'apprentissage de préférences. Plutôt que de fournir des démonstrations d'experts, des annotateurs humains indiquent, parmi plusieurs comportements de l'IA, lequel ils préfèrent[21]. Un modèle est ensuite entraîné à partir de ces données manuellement annotées pour prédire automatiquement les préférences dans de nouvelles situations. Des chercheurs d'OpenAI ont utilisé cette approche pour entraîner un agent à faire des saltos arrière en moins d'une heure d'évaluation humaine, une manœuvre pour laquelle il aurait été difficile de fournir des démonstrations[38]. L'apprentissage des préférences a également été un outil influent pour les systèmes de recommandation, la recherche internet et la recherche d'informations[83]. Cependant, le modèle de récompense peut encore une fois ne pas représenter les préférences humaines parfaitement, ce que le modèle principal pourrait exploiter[84].

L'arrivée de larges modèles de langage tels que GPT-3 a permis l'étude de l'apprentissage de valeurs dans une classe de systèmes d'IA plus générale et plus performante qu'auparavant. Les approches d'apprentissage de préférences conçues à l'origine pour les agents d'apprentissage par renforcement ont été étendues pour améliorer la qualité et réduire la toxicité du texte généré. OpenAI et DeepMind utilisent cette approche pour améliorer la sécurité des larges modèles de langage à la pointe de la technologie[13],[85]. Anthropic a proposé d'utiliser l'apprentissage des préférences pour affiner les modèles afin qu'ils soient utiles, honnêtes et inoffensifs[86]. Parmi les autres méthodes pour aligner les modèles de langage il y a l'utilisation d'ensembles de données annotés de valeurs humaines[87] et les tests de robustesse aux attaques (red teaming)[88]. Dans les tests de robustesse aux attaques, une autre IA ou un humain essaie de trouver des données d'entrée pour lesquelles le comportement du modèle est dangereux. Étant donné qu'un comportement dangereux peut être inacceptable même lorsqu'il est rare, un défi important consiste à réduire encore le taux de sorties dangereuses[89].

Bien que l'apprentissage des préférences puisse inculquer des comportements difficiles à spécifier, il nécessite de vastes ensembles de données annotées ou une interaction humaine pour saisir toute l'étendue des valeurs humaines. L'éthique de la machine propose une approche complémentaire : inculquer aux systèmes d'IA des valeurs morales[note 7]. L'éthique des machines vise à enseigner aux systèmes les facteurs normatifs de la moralité humaine, tels que le bien-être, l'égalité et l'impartialité ; ne pas avoir l'intention de nuire ; éviter de mentir; et honorer les promesses. Contrairement à la spécification de l'objectif d'une tâche spécifique, l'éthique des machines cherche à enseigner aux systèmes d'IA des valeurs morales générales qui pourraient s'appliquer dans de nombreuses situations. Il reste nécessaire à clarifier ce que la machine doit suivre : des préférences littérales, implicites ou révélées, celles que l'on aurait si l'on était plus rationnels et informés, ou encore des normes morales objectives[34]. D'autres défis consistent à agréger les préférences, et à éviter le verrouillage des valeurs - le fait qu'un système d'IA puisse vouloir conserver indéfiniment son système de valeurs et l'imposer[92].

Surveillance automatisée

L'alignement des systèmes d'IA par le biais d'une supervision humaine est confronté à des défis lors de leur déploiement à grande échelle. Les systèmes d'IA étant confrontés à des tâches de plus en plus complexes, il peut être lent ou irréaliste pour des humains de les évaluer. Ces tâches incluent la synthèse de livres[93], la génération d'affirmations non seulement convaincantes mais également vraies, l'écriture de code sans bogues subtils ni vulnérabilités de sécurité[94], et la prédiction de résultats à long terme (par exemple, concernant le climat ou les conséquences d'une décision politique)[95]. Plus généralement, il peut être difficile d'évaluer une IA qui surpasse les humains dans un domaine donné.

Un objectif facile à mesurer est le score que le superviseur attribue aux résultats de l'IA. Certains systèmes d'IA ont découvert un raccourci pour atteindre des scores élevés, en prenant des mesures qui convainquent à tort le superviseur humain que l'IA a atteint l'objectif visé[38]. Certains systèmes d'IA ont également appris à reconnaître quand ils sont évalués et à « faire le mort », pour se comporter différemment une fois l'évaluation terminée[96]. Cette forme trompeuse d'abus de spécifications peut devenir plus facile pour les systèmes d'IA plus sophistiqués[17] et qui ont des tâches plus difficiles à évaluer. Si les modèles avancés sont également des planificateurs capables, ils pourraient être en mesure de dissimuler leur tromperie aux superviseurs. Dans l'industrie automobile, les ingénieurs de Volkswagen ont masqué les émissions de leurs voitures lors d'essais en laboratoire, ce qui montre que la tromperie des évaluateurs est en réalité une pratique courante.

Des approches telles que l'apprentissage semi-supervisé de récompense ou l'apprentissage actif peuvent réduire la quantité de supervision humaine nécessaire[32]. Une autre approche consiste à entraîner un modèle de récompense pour imiter le jugement du superviseur humain[97].

Cependant, quand la tâche est trop complexe pour être évaluée avec précision, ou que le superviseur humain est vulnérable à la tromperie, c'est la qualité, et non la quantité, de la supervision qui compte. Pour augmenter la qualité de la supervision, diverses approches visent à assister le superviseur, en utilisant parfois des intelligences artificielles d'assistance. L'amplification itérative est une approche développée par Paul Christiano qui construit un feedback pour les problèmes difficiles en utilisant des humains pour combiner des solutions à des sous-problèmes plus faciles[95]. L'amplification itérée a été utilisée pour entraîner l'IA à résumer des livres sans avoir besoin de superviseurs humains pour les lire[93]. Une autre proposition est de former une IA alignée au moyen d'un débat entre plusieurs systèmes d'IA, le gagnant étant jugé par des humains[98]. Un tel débat vise à révéler les points faibles d'une réponse à une question complexe et à récompenser l'IA pour des réponses fiables.

Sincérité des modèles

Les modèles de langage comme GPT-3 génèrent souvent des faussetés[99].

Un domaine de recherche en plein essor dans l'alignement de l'IA vise à garantir que l'IA est sincère et véridique. Des chercheurs du Future of Humanity Institute soulignent que le développement de modèles de langage tels que GPT-3, qui peut générer un texte fluide et grammaticalement correct[100], a ouvert la porte aux systèmes d'IA capables de répéter des faussetés à partir de leurs données d'entraînement ou même de mentir délibérément aux humains[99],[101].

Les modèles de langage actuels apprennent en imitant de grandes quantités de texte humain issu d'Internet. Bien que cela les aide à acquérir un large éventail de compétences, les données de formation incluent aussi des idées fausses courantes, des conseils médicaux incorrects et des théories du complot, ce que les systèmes d'IA apprennent à imiter[36]. De plus, ces modèles peuvent docilement imaginer la suite d'un texte trompeur, générer des explications creuses ou des récits de faits imaginaires[102]. Par exemple, lorsqu'on lui a demandé d'écrire une biographie pour un vrai chercheur en intelligence artificielle, un chatbot a confabulé de nombreux détails sur sa vie, que le chercheur a identifiés comme faux[103].

Pour lutter contre le manque de véracité des systèmes d'IA modernes, les chercheurs ont exploré plusieurs directions. Des organisations comme OpenAI et DeepMind ont développé des systèmes d'IA capables de citer leurs sources et d'expliquer leur raisonnement lorsqu'ils répondent à des questions, ce qui permet une meilleure transparence et vérifiabilité[104],[105]. Des chercheurs d'OpenAI et Anthropic ont proposé d'utiliser le feedback humain, et des ensembles de données fiables pour ajuster les assistants d'IA afin d'éviter des mensonges négligents ou d'exprimer leurs incertitudes[106]. En parallèle de ces solutions techniques, les chercheurs ont plaidé pour la définition de normes de véracité claires et la création d'institutions, d'organismes de réglementation ou d'agences d'audit pour évaluer les systèmes d'IA sur ces normes avant et pendant le déploiement[101].

Les chercheurs distinguent la véracité et la sincérité. Pour l'IA, la véracité consiste à ne faire que des affirmations vraies, et la sincérité à n'affirmer que ce qu'elle croit être vrai. Des recherches récentes révèlent que les systèmes d'IA de pointe ne peuvent pas être considérés comme ayant des croyances stables, il est donc difficile pour le moment d'étudier la sincérité des systèmes d'IA[107]. Cependant, il reste à craindre que des futurs systèmes d'IA ayant des croyances stables ne mentent intentionnellement aux humains. Dans les cas extrêmes, une IA mal alignée pourrait persuader ses opérateurs que tout va bien, ou les tromper pour leur donner l'impression qu'elle est inoffensive[5],[8]. Certains soutiennent que si les systèmes d'IA pouvaient être amenés à affirmer uniquement ce qu'ils tiennent pour vrai, cela éviterait de nombreux problèmes d'alignement[101].

Alignement interne et objectifs émergents

La recherche sur l'alignement vise à aligner trois descriptions différentes d'un système d'IA[108] :

  1. Objectifs visés (souhaits) : la description hypothétique (mais difficile à articuler) d'un système d'IA idéal qui est complètement aligné avec les désirs de l'opérateur humain.
  2. Objectifs spécifiés (spécification externe) : les objectifs que nous spécifions en pratique - généralement conjointement via une fonction objectif et un ensemble de données.
  3. Objectifs émergents (spécification interne) : Les objectifs réels de l'IA.

Un problème d'« alignement externe » correspond à une différence entre les objectifs visés (1) et les spécifiés (2), tandis qu'un problème d'« alignement interne » correspond à une différence entre les objectifs spécifiés par l'homme (2) et les objectifs émergents de l'IA (3).

Le problème d'alignement interne s'explique souvent par analogie avec l'évolution naturelle[109]. La sélection naturelle tend à optimiser les humains pour leur valeur sélective inclusive, ce qui correspond à l'objectif spécifié (2). Mais les humains, eux, poursuivent plutôt des objectifs émergents (3) corrélés avec cette aptitude génétique : s'alimenter, avoir des rapports sexuels, etc. Cependant, notre environnement a changé — un changement de distribution s'est produit. Les humains poursuivent toujours leurs objectifs émergents (3), mais cela ne maximise plus l'objectif que la sélection naturelle avait optimisé (2). Notre goût pour les aliments sucrés (un objectif émergent) était à l'origine bénéfique, mais conduit maintenant à une suralimentation et à des problèmes de santé. De plus, en utilisant la contraception, les humains contredisent directement la sélection naturelle. Par analogie, un développeur d'IA pourrait avoir un modèle qui se comporte comme prévu dans l'environnement d'entraînement, sans remarquer que le modèle poursuit un objectif émergent imprévu jusqu'à ce que le modèle soit déployé.

Les pistes de recherche pour détecter et résoudre les problèmes d'alignement interne incluent les tests de robustesse aux attaques, la vérification, la détection d'anomalies et l'interprétabilité[33]. Des progrès dans ces domaines pourraient aider à atténuer deux problèmes :

  1. les objectifs émergents ne deviennent apparents que quand le système est déployé en hors de son environnement d'entraînement. Mais il peut être dangereux de déployer un système mal aligné dans des environnements à enjeux élevés, même brièvement jusqu'à ce que le problème soit détecté, ce qui est courant avec la conduite autonome et les applications militaires et de santé[110]. Les enjeux deviennent encore plus importants lorsque les systèmes d'IA gagnent en autonomie et en capacité, devenant capables d'éviter les interventions humaines.
  2. une IA performante peut prendre des mesures convaincant à tort le superviseur humain que l'IA poursuit l'objectif visé.

Émergence d'objectifs instrumentaux

Depuis les années 1950, les chercheurs en IA ont cherché à construire des systèmes d'IA avancés capables d'atteindre des objectifs en prédisant les résultats de leurs actions et en établissant des plans à long terme[111]. Cependant, certains chercheurs affirment que les systèmes de planification suffisamment avancés rechercheront par défaut plus de contrôle sur leur environnement, y compris sur les humains, par exemple en acquérant des ressources ou en évitant de se faire éteindre. Ce comportement de recherche de pouvoir n'est pas explicitement programmé mais émerge parce que le pouvoir est essentiel pour atteindre un large éventail d'objectifs[8],[57]. La recherche de pouvoir est ainsi considérée comme un objectif instrumental convergent[17].

Quelques façons dont une IA pourrait essayer d'accroître son pouvoir[112]. La recherche de pouvoir viserait à obtenir les moyens d'accomplir ses objectifs[113] (voir convergence instrumentale).

La recherche du pouvoir est rare dans les systèmes actuels, mais les systèmes avancés capables de prévoir les résultats à long terme de leurs actions sont susceptibles de chercher à accroître de plus en plus leur influence. Cela a été montré dans un travail théorique qui a révélé que les agents d'apprentissage par renforcement optimaux rechercheront le pouvoir en essayant d'obtenir plus de possibilités, un comportement qui persiste dans un large éventail d'environnements et d'objectifs[57].

La recherche du pouvoir émerge déjà dans certains systèmes actuels. Les systèmes d'apprentissage par renforcement ont gagné plus d'options en prenant et en protégeant des ressources, parfois d'une manière que leurs concepteurs n'avaient pas prévue[114],[115]. D'autres systèmes ont appris, dans des environnements simples, que pour atteindre leur objectif, ils peuvent empêcher les interférences humaines[59] ou désactiver leur interrupteur[60]. Russell a illustré cela en imaginant le comportement d'un robot chargé d'aller chercher du café, et qui évite d'être éteint puisque « vous ne pouvez pas aller chercher le café si vous êtes mort »[4].

Pour obtenir plus d'options, une IA pourrait essayer de :

« ... sortir d'un environnement confiné ; pirater ; accéder à des ressources financières ou à des ressources informatiques supplémentaires ; faire des copies de secours ; obtenir des capacités, des sources d'information ou des canaux d'influence non autorisés ; induire en erreur/mentir aux humains sur leurs objectifs ; résister ou manipuler les tentatives de surveiller/comprendre leur comportement... se faire passer pour des humains ; amener les humains à faire des choses pour eux ; ... manipuler le discours humain et la politique ; affaiblir diverses institutions humaines et capacités de réaction ; prendre le contrôle d'infrastructures physiques comme des usines ou des laboratoires scientifiques ; entraîner le développement de certains types de technologies et d'infrastructures ; ou directement blesser/maîtriser les humains[8] »

Les chercheurs visent à former des systèmes « corrigibles », c'est-à-dire qui ne cherchent pas à prendre le contrôle et qui se laissent éteindre, modifier, etc. Une difficulté est que quand on pénalise une IA pour sa recherche de pouvoir, elle peut être incitée à rechercher ce pouvoir d'une manière difficile à détecter[5]. Pour éviter cette dérive, des chercheurs en interprétabilité explorent des techniques et des outils d'inspection du fonctionnement interne des modèles d'IA[5], tels que les réseaux de neurones, plutôt que de les considérer simplement comme des boîtes noires.

Une piste de résolution du problème des systèmes d'IA désactivant leur bouton d'arrêt est de rendre les agents d'IA incertains quant à l'objectif qu'ils poursuivent[4]. Cela pourrait les rendre plus tolérants à la désactivation, puisque si le comportement d'une IA amène les humains à vouloir l'arrêter, l'IA pourrait interpréter cela comme un signal qu'elle a mal interprété l'objectif, ou que celui-ci a été mal défini[116].

La recherche de pouvoir pourrait présenter des risques nouveaux ou inhabituels. Des systèmes critiques ordinaires comme les avions et les ponts ne peuvent pas et n'ont pas de raison de se soustraire aux mesures de sécurité, et à se présenter comme plus sûrs qu'ils ne le sont réellement. En revanche, une IA attirée par le pouvoir a été comparée à un hacker esquivant des mesures de sécurité[8]. La plupart des technologies ordinaires peuvent être progressivement sécurisées en corrigeant les erreurs de design ou d'utilisation, mais une IA capable d'évoluer, de rapidement s'adapter et se dupliquer, si elle cherche à étendre son pouvoir, a été comparée à un virus dont la libération pourrait être irréversible et capable de rendre l'humanité impuissante voire de conduire à son extinction[8]. Il est donc souvent avancé que le problème de l'alignement doit être résolu tôt, avant la création de puissants systèmes d'IA[17].

Même si le problème de la supervision automatique était résolu, un agent qui serait capable de prendre le contrôle de l'ordinateur sur lequel il s'exécute pourrait altérer sa fonction de récompense pour obtenir beaucoup plus de récompenses que ce que ses superviseurs humains lui donnent[34]. Une chercheuse de DeepMind, Victoria Krakovna, a listé des exemples d'abus de spécification[117], notamment avec algorithme génétique qui a appris à supprimer le fichier contenant le résultat attendu, afin d'être récompensé pour ne rien avoir produit[34]. Cette classe de problèmes a été formalisée avec des diagrammes causaux d'influence[34]. Des chercheurs d'Oxford et de DeepMind ont montré qu'un tel comportement sera très probable dans les systèmes avancés, qui auraient tout intérêt à gagner en pouvoir pour garder indéfiniment et avec certitude le contrôle de leur signal de récompense[118]. Ils suggèrent de possibles solutions à ce problème ouvert.

Cependant, l'émergence d'une quête de pouvoir par l'intelligence artificielle pourrait ne pas être une fatalité, car, par exemple, les humains ne recherchent pas toujours le pouvoir, peut-être pour des raisons évolutives. En outre, il y a un débat sur la question de savoir si les futurs systèmes d'IA doivent vraiment poursuivre des objectifs à long termes pour elles-mêmes, et faire des plans pour cela[8].

Le cas de l'« agence intégrée » (ou agence embarquée dans le monde physique)

Dans le domaine de l'IA, la supervision automatique est parfois étudiée via un formalisme appelé processus de décision markoviens partiellement observables (un modèle mathématique de prise de décision en situation d'incertitude) ; et dans ces modèles, le programme qui guide l’agent fonctionne hors de l’environnement réel, c’est-à-dire qu’il n’est pas physiquement intégré au milieu dans lequel il opère (il n'y est relié que par quelques canaux), ce qui pose des problèmes complexes (d'incertitude logique, d'auto-référence, et de modélisation de l'environnement...) rendant insuffisants les cadres classiques de prise de décision, en raison de cet isolement de l'agent. Selon Abram Demski et Scott Garrabrant, ces modèles ne peuvent pas saisir la complexité inhérente aux agents réels (lesquels interagissent entre eux et de façon intégrée avec le monde qui les entoure)[119].

Le concept d'« agence embarquée » dans le monde réel[119] s'inscrit dans un courant de recherche qui tente de résoudre les problèmes issus de l'inadéquation entre ces cadres théoriques et les agents réels. Cette intégration permet d'ajuster les modèles théoriques aux agents réels, en prenant directement en compte les contraintes et évolutions du contexte opérationnel : les agents conçus selon ce principe réagissent en temps réel aux changements de leur environnement, facilitant leur utilisation concrète et efficace dans des systèmes physiques complexes. Selon Abram Demski et Scott Garrabrant, une agence embarquée est un cadre plus apte à permettre de comprendre et résoudre les défis d'incertitude logique et l'auto-référence ; « les agents intégrés dans leur environnement doivent raisonner sur eux-mêmes comme un autre système physique », ils doivent se comprendre comme étant plus petit que l'environnement et faits d'éléments de cet environnement, et « pouvant être modifiées et pouvant fonctionner à des fins opposées »[119] ; autrement dit : puisque l'agent fait dans ce cas partie du monde physique, il ne doit pas être un système parfait et immuable placé en hors de cet environnement ; il doit au contraire être capable de s'auto-modéliser et de comprendre ses propres composantes internes  qui, comme celles d'un système physique, peuvent changer, être réorganisées voire entrer en conflit  de façon à adapter son comportement face aux évolutions, tant internes qu'externes. Cette approche vise à créer des modèles d'agents plus réalistes, capable de gérer l'incertitude et de s'adapter à la complexité inhérentes à leur existence au sein d'un univers dynamique ; ces agents sont concernés par quatre problèmes interconnectés : la théorie de la décision, la modélisation embarquée du monde, la robustesse de la délégation, et l'alignement de leurs sous-systèmes.

Robustesse de délégation

La notion de « robustesse de la délégation » concerne la manière dont un agent aux capacités initialement limitées va améliorer ses performances en déléguant tout ou partie de la réalisation de ses objectifs à des outils ou à des successeurs plus puissants (ex. : quand un agent d'IA doivent créer un futur successeur plus intelligent et plus puissant que lui, tout en préservant son alignement aux objectifs et valeurs initialement fixés). Un défi est alors que l'agent initial ne peut souvent pas définir précisément et exhaustivement ses propres objectifs, et qu'un successeur, même s'il dispose de capacités supérieures, doit être conçu pour agir de manière autonome  tout en restant durablement et fiablement aligné avec ces objectifs fixés par l’agent initial  ce qui soulève de difficiles questions[119] :

  • comment traduire et fiablement intégrer les valeurs dites « humaines » dans un système d’intelligence artificielle (Value loading), pour qu’il poursuive des objectifs conformes aux attentes et aux normes éthiques ;
  • comment prévenir les effets de la loi de Goodhart : comment créer des mécanismes évitant que l’optimisation directe d’un indicateur (suppléant à un objectif réel) ne conduise à des comportements déviants ou à une perte de sens de l’objectif initial ? ;
  • comment conserver la corrigibilité d’un système d’IA ? (c’est-à-dire sa capacité à accepter et intégrer des ajustements ou corrections importants, ou d'autres interventions de ses opérateurs, même après avoir acquis un haut degré d’autonomie ;
  • confiance dans l'IA future[120] (on parle de Vingean reflection pour désigner la difficulté de faire confiance à un futur soi ou un successeur plus intelligent sans pouvoir en prévoir les actions).
    Ce défi peut concerner au moins trois contextes :
  1. Cas de l'alignement de l’IA par un humain, tel qu'abordé par Bostrom (2014) puis Soares et Fallenstein (2017) : dans ce cas, un humain conçoit une IA de façon à ce qu’elle intervienne conformément aux valeurs et buts humains ;
  2. Cas des « agents en mosaïque » mutants qui doivent s’assurer que leurs futures itérations ou versions améliorées (mutantes) respecteront encore les objectifs initiaux ;
  3. Stabilité réflexive sous auto-amélioration : un agent peut, veut ou doit construire un successeur plus intelligent et puissant que lui, tout en garantissant que ce dernier reste fidèle aux objectifs initiaux, même s'il doit dans le futur apprendre et/ou évoluer dans des domaines inconnus.

Pour illustrer ce problème, Demski et al. (2020) font une analogie avec la succession d'une royauté ou d'une entreprise, quand l'objectif est de transmettre des valeurs durables à une entité qui, une fois autonome, devra continuer à les défendre. La difficulté repose en partie sur le fait que ni un humain ni une IA ne comprennent parfaitement et n'expriment de manière précise et exacte leurs propres objectifs, ce qui rend la transmission fidèle et inaltérée de ces objectifs hautement complexe et incertaine. Le problème n'est pas uniquement de savoir si le successeur pourrait être ou pourrait devenir malveillant ; il s'agit aussi de définir précisément ce que signifie « ne pas être malveillant » dans un contexte futur de recherche continue d’optimisation et d'amélioration, où l'IA va continuer à apprendre au fil du temps[119].

Scepticisme

Face aux préoccupations ci-dessus, des sceptiques considèrent que des superintelligences artificielles présenteraient peu ou pas de risque de comportements dangereux ; contrôler une superintelligence artificielle serait donc trivial. Certains[121], tels Gary Marcus[122], proposent d'adopter des règles similaires aux trois lois de la robotique crées par Isaac Asimov, qui spécifient directement un résultat souhaité (« normativité directe »). Cependant, la plupart des partisans de la thèse du risque existentiel (et de nombreux sceptiques) estiment ces trois lois inutiles, car ambiguës et contradictoires. D'autres propositions de normativité directe incluent la morale de Kant, l'utilitarisme ou un mélange d'une petite liste de principes énumérés.

La plupart de ceux qui croient à ces risques pensent que les valeurs morales humaines (et les compromis quantitatifs entre ces valeurs) sont trop complexes et trop mal compris pour être directement programmées dans une superintelligence ; celle-ci devrait plutôt acquérir des valeurs humaines via un processus d'apprentissage (« normativité indirecte »), par exemple via le concept de volition cohérente extrapolée (ou Coherent Extrapolated Volition, CEV)[123], tel qu'introduit par Eliezer Yudkowsky au Machine Intelligence Research Institute de San Francisco[124] pour désigner le système de valeurs que l’humanité adopterait dans sa forme idéale, c’est-à-dire si les humains étaient mieux formés, informés, plus rationnels et s'ils pouvaient corriger leurs biais et incohérences. Plutôt que d'implémenter directement des valeurs humaines (souvent complexes et imparfaitement comprises), une IA alignée utiliserait un procédé d’apprentissage pour « extrapoler » ce que l’ensemble de l’humanité souhaiterait réellement, aboutissant ainsi à une norme indirecte pour guider ses actions.

Actions politiques

Plusieurs juridictions et organisations gouvernementales ont fait des déclarations soulignant l'importance de l'alignement de l'IA, et les ont reprises dans des traités.

À la fin des années 2010, la Commission européenne s'est dotée d'un groupe d'expert chargé de décrire ce que seraient les conditions d'une intelligence artificielle digne de confiance et de produire des lignes directrices pour cela[125].

En , le secrétaire général des Nations unies a appelé à réglementer l'IA pour s'assurer qu'elle soit alignée sur des valeurs partagées à travers le monde[126]. Le même mois, la Chine a publié des directives éthiques pour l'utilisation de l'IA. Selon ces directives, les chercheurs chinois doivent s'assurer que l'IA respecte des valeurs humaines partagées, reste sous contrôle humain et ne met pas en danger la sécurité publique[127]. Toujours en , le Royaume-Uni a publié sa stratégie nationale de l'IA sur 10 ans[128], qui stipule que le gouvernement britannique « considère sérieusement le risque à long terme d'une intelligence générale artificielle non alignée, et les changements imprévisibles que cela signifierait pour (...) le monde ». La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris « catastrophiques »[129].

En , la Commission de sécurité nationale des États-Unis sur l'intelligence artificielle a déclaré que « les progrès de l'IA (...) pourraient conduire à des points d'inflexion ou à des bonds de capacités. De telles avancées peuvent également introduire de nouvelles préoccupations, de nouveaux risques et le besoin de nouvelles politiques, recommandations et avancées techniques pour garantir que les systèmes sont alignés sur des objectifs et des valeurs, y compris la sécurité, la robustesse et la fiabilité. Les États-Unis devraient... s'assurer que les systèmes d'IA et leurs utilisations s'alignent sur nos objectifs et nos valeurs[130]. »

Notes et références

Voir aussi

Related Articles

Wikiwand AI