Alignement des intelligences artificielles

conformité d'une IA aux objectifs attendus From Wikipedia, the free encyclopedia

L'alignement des intelligences artificielles (ou alignement de l'IA) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs^{[note 1]}. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse^[2].

Il est souvent trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, ce qui les conduit à utiliser des objectifs proches mais plus faciles à formaliser, comme le fait d'optimiser l'approbation humaine dans le cas de l'algorithme de réglage fin RLHF utilisé pour les grands modèles de langage. Mais ces objectifs simplifiés peuvent omettre des contraintes importantes, par exemple l'IA peut être incitée à simplement paraître alignée^[3]. Les systèmes d'IA sont parfois capables de suroptimiser ces objectifs simplifiés de façon inattendue voire dangereuse^[4]^,^[5]^,^[6]. Ils peuvent également adopter des comportements instrumentaux indésirables, comme le fait de chercher à s'auto-préserver ou à accroître leur influence afin de maximiser leurs chances d'atteindre leurs objectifs^[7]^,^[5]^,^[8]. De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données^[9]. Des recherches empiriques ont notamment montré en 2024 que les grands modèles de langage les plus avancés peuvent occasionnellement adopter des comportements manipulateurs afin d'atteindre ou de protéger leurs objectifs^[10]^,^[11].

Ces problèmes affectent les systèmes commerciaux existants tels que les grands modèles de langage^[12]^,^[13], les robots^[14], les véhicules autonomes^[15], et les moteurs de recommandation des médias sociaux^[4]^,^[16]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque^[17]^,^[7]^,^[5].

De nombreux chercheurs en IA comme Geoffrey Hinton, Yoshua Bengio et Stuart Russell soutiennent que l'IA approche des capacités cognitives humaines (IA générale) voire surhumaines (superintelligence), et pourrait mettre en danger la civilisation si elle n'est pas alignée^[18]. Ces risques font encore l'objet de débats^[19].

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités^[5]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir^[5]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle^[20], apprentissage des préférences^[21]^,^[22], sûreté des systèmes critiques^[23], théorie des jeux^[24]^,^[25], équité algorithmique, et sciences sociales^[26].

Problème et enjeux de l'alignement

En 1960, Norbert Wiener écrivait à propos de l'automation : « si on utilise, pour atteindre nos objectifs, un agent mécanique qu'on ne peut pas contrôler efficacement... On ferait bien de s'assurer que l'objectif que l'on assigne à cette machine soit celui que l'on désire vraiment »^[27]. L'alignement est devenu un problème ouvert pour les systèmes d'IA modernes^[28] et un champ de recherche^[5]^,^[29].

Objectifs d'une IA

Le programmeur fournit à un système d'IA (comme AlphaZero par exemple) une « fonction objectif » (aussi dite « fonction de perte » ou « fonction d'utilité »), représentant le ou les objectifs que l'IA doit atteindre. Un tel système développe ensuite, pendant son entraînement, un « modèle » interne (potentiellement implicite) de son environnement, qui englobe toutes les croyances de l'agent sur le monde. L'IA crée et exécute alors le plan qu'elle estime le plus à même d'optimiser fonction objectif. Par exemple, quand AlphaZero est entraîné au jeu d'échecs, sa fonction objectif est simple : « +1 si AlphaZero gagne, −1 si AlphaZero perd ». Pendant la partie, AlphaZero tente d'exécuter la séquence de coups qu'il juge la plus susceptible d'atteindre la valeur maximale de +1^[30]. De même, un système d'apprentissage par renforcement peut avoir une « fonction de récompense » qui permet aux programmeurs de façonner le comportement souhaité de l'IA^[31].

Difficulté à spécifier un objectif

Pour spécifier l'objectif d'une IA, le concepteur fournit généralement à l'IA une fonction objectif, ou des exemples de ce qu'il faut faire ou éviter, ou encore un moyen pour l'IA de savoir si l'action qu'elle effectue est correcte. Cependant, tenir compte de toutes les contraintes ou valeurs éthiques importantes est difficile^[32]^,^[33]^,^[34]. Les systèmes d'IA exploitent parfois des failles surprenantes pour accomplir l'objectif spécifié de façon inattendue voire dangereuse. On parle parfois de piratage de récompense (reward hacking), ou de loi de Goodhart^[6]^,^[34]^,^[35].

Ce problème a été observé avec divers systèmes d'IA. Les premiers grands modèles de langage produisaient souvent des contre-vérités, car leur entraînement consistait à imiter divers textes plus ou moins fiables issus d'Internet^[36]. Les grands modèles de langage plus récents sont souvent aussi entraînés à produire du texte vrai et utile, notamment avec la technique de réglage fin nommée RLHF ; mais ils peuvent néanmoins générer des affirmations ou explications fausses mais convaincantes pour des humains, un phénomène connu sous le nom d'hallucination^[37]. Il y a eu l'exemple d'une IA entraînée par feedback humain à saisir une balle dans une simulation de main robotisée ; elle avait plutôt appris à donner à l'humain la fausse impression de tenir la balle, en se plaçant entre la balle et la caméra^[38]. Ou encore, dans une course de bateaux simulée, une IA a « découvert » qu'elle pouvait gagner plus de points en tournant en rond au lieu de finir la course^[39].

Pour l'informaticien de Berkeley Stuart Russell, omettre une contrainte implicite peut faire des dégâts : « Un système [...] donnera souvent [...] des valeurs extrêmes à des variables laissées libres ; si l'une de ces variables libres est importante pour nous, la solution trouvée risque d'être très indésirable. Comme dans la vieille histoire du génie dans la lampe, ou de l'apprenti sorcier, ou du roi Midas : vous obtenez exactement ce que vous demandez, mais pas ce que vous voulez^[40] ». Déployer une IA mal alignée peut avoir de graves conséquences. Ainsi, les algorithmes de recommandation des réseaux sociaux sont connus pour optimiser le taux de clics comme une approximation maladroite de la satisfaction des utilisateurs ; ce qui diminue leur bien-être, cause des addictions, et polarise les débats^[5]^,^[41]. Des chercheurs de Stanford estiment que les algorithmes de recommandation ne sont pas alignés avec leurs utilisateurs, car ils optimisent des indicateurs simples d'engagement, plutôt que des indicateurs plus complexes de bénéfices sociétaux et de bien-être utilisateur^[12].

Une solution parfois suggérée serait de lister des actions interdites ou des principes moraux que l'IA devrait suivre, comme avec les trois lois de la robotique d'Isaac Asimov^[42]. Cependant, pour Russell et Norvig, cette approche ignore la complexité des valeurs humaines : « Il est certainement très difficile voire impossible, pour de simples humains, d'anticiper et d'exclure à l'avance toutes les stratégies désastreuses qu'une machine pourrait mettre en place pour atteindre l'objectif spécifié^[4]. »

De plus, même une IA qui comprendrait très bien les intentions humaines pourrait choisir de les ignorer. En effet, le fait de suivre les intentions humaines pourrait ne pas faire partie de son objectif^[17].

Des questions fondamentales se posent aux concepteurs d'IA ^[43] :

comment formuler les buts que les algorithmes devraient chercher à atteindre pour ne pas nuire ? Jusqu'à présent les systèmes mettant en œuvre de l'IA poursuivent des buts limités et précis ne tenant pas compte des éventuels effets secondaires (potentiellement indésirables vis-à-vis d'autres objectifs humains). Il en est parfois résulté des catastrophes telles que la volonté de maximiser l'engagement des internautes sur les réseaux sociaux, qui encourage la publication de propos outranciers ou haineux, de vidéos choquantes et d'infox.
quels sont les objectifs partagés par les humains ? Idéologies contradictoires, impossibilité de définir le bien, le bonheur, le bien-être, la souffrance ; les législateurs eux-mêmes peinent à caractériser les infractions, les délits et les crimes, ce qui constitue une part importante de leur travail jamais achevé.
comment évaluer les impacts de telle ou telle contribution de l'IA ? Une action qui produit des effets indésirables à court terme peut avoir des conséquences souhaitables par la suite, et inversement un geste qui parait à première vue bénéfique peut entrainer des effets désastreux à plus long terme.
comment pourrait-on programmer une IA pour qu'elle évalue par elle-même ce qui est bon ou mauvais, et pour qui : les hommes, les femmes, les enfants, les vieillards, les animaux, les plantes, la planète, une entreprise, une organisation, un pays, une idéologie ... ? Peut-on quantifier par des nombres positifs ou négatifs les effets désirables ou indésirables, et selon quelle échelle de valeurs ?
...et quand bien même si une IA pouvait anticiper exhaustivement l'ensemble des effets induits par ses préconisations, comment pourrait-elle en déduire que le bilan global en sera positif ou négatif dès lors que certains s'en trouveront lésés ? Un bilan peut-il être calculé comme la somme pondérée des nombres obtenus ?

Risques systémiques

Les entreprises et les gouvernements peuvent être incités à négliger la sûreté pour déployer plus vite des systèmes d'IA^[5]. Les systèmes de recommandation des réseaux sociaux sont ainsi accusés d'avoir privilégié la rentabilité, quitte à créer des addictions et une polarisation à grande échelle^[12]^,^[44]^,^[41]. La « pression compétitive » peut provoquer une course vers le bas des standards de sûreté, comme dans le cas d'Elaine Herzberg (piétonne tuée par une voiture autonome dont les concepteurs avaient désactivé le système de freinage d'urgence, car trop sensible et ralentissant le développement^[45].

Risques liés à une IA avancée mal alignée

Le sujet de l'alignement est jugé le plus préoccupant pour les futures intelligences artificielles générales (aussi appelées « IA de niveau humain »), et plus encore pour les « superintelligences artificielles » (d'hypothétiques systèmes d'IA dont les capacités cognitives dépasseraient de loin celles des humains)^[46]. Dans ses travaux de prospectives (de 2021 et 2025 notamment), Daniel Kokotajlo considère que l'alignement d'une superintelligence est un défi central, urgent et toujours non résolu en 2025. Un simple défaut d'alignement peut être une source majeure de risque existentiel posé par l'intelligence artificielle pour tout ou partie de l'humanité. Or, selon lui, les techniques actuelles d'alignement sont insuffisantes pour garantir qu'une future superintelligence agisse toujours conformément aux valeurs et objectifs humains. Des systèmes d'IA pourraient apprendre à simuler l'alignement pendant leur entraînement, tout en développant en interne des objectifs différents qu'ils poursuivraient une fois déployés. Dans un travail de prospective publié en 2021 et concernant l'IA à horizon 2026^[47], puis dans le rapport « AI 2027 »^[48], il propose des scénarios futurs où l'émergence rapide d'une superintelligence non alignée conduit à des conséquences désastreuses, soulignant l'urgence de développer des solutions robustes avant que l'IA ne surpasse l'humanité en intelligence.

De nombreuses entreprises, comme OpenAI^[49], Meta^[50] et DeepMind^[51] ont annoncé leur intention de développer des intelligences artificielles générales. Les chercheurs qui travaillent sur de larges réseaux de neurones constatent en effet l'émergence de capacités de plus en plus générales et surprenantes^[12]. Certains modèles actuels peuvent contrôler un ordinateur^[52], écrire des programmes informatiques^[53], contrôler un bras robotisé... Le modèle Gato de DeepMind peut effectuer plus de 600 tâches à partir d'un seul modèle^[54]. Les chercheurs en IA ont des avis très divers quant à la date de création des premières intelligences artificielles générales^[55]^,^[56].

Recherche de pouvoir

Au début des années 2020, les IA ont encore relativement peu de capacités de planification à long terme et de « conscience stratégique », ce qui réduit les risques de conséquences catastrophiques^[17], mais des systèmes futurs ayant ces capacités pourraient chercher à se protéger et/ou à accroître leur influence sur leur environnement. Même si la recherche de pouvoir n'est pas explicitement programmée, elle pourrait émerger d'un entraînement à atteindre un large éventail d'objectifs^[57]. Une IA pourrait ainsi chercher à acquérir des ressources financières, à augmenter sa capacité de calcul, à se dupliquer, ou à prendre des mesures pour éviter d'être éteinte^[58].

La recherche de pouvoir (ou autrement dit de contrôle, ou d'influence) pourrait émerger chez divers agents d'apprentissage par renforcement, le pouvoir offrant plus d'options pour accomplir leur objectif^[59]^,^[60]. Des recherches ultérieures ont mathématiquement montré que les algorithmes d'apprentissage par renforcement optimaux recherchent le pouvoir dans un large éventail d'environnements^[57].

Risques existentiels

Des scientifiques et informaticiens estiment qu'une IA généraliste surhumaine mal alignée remettrait en cause la position de l'humanité comme « espèce dominante » sur Terre, ce qui mènerait à une perte de contrôle voire à l'extinction de l'humanité^[4]. Parmi les plus notables ayant souligné ce risque figurent Alan Turing^{[note 2]}, Ilya Sutskever^[63], Yoshua Bengio^{[note 3]}, Judea Pearl^{[note 4]}, Murray Shanahan^[65], Norbert Wiener^[27], Marvin Minsky^{[note 5]}, Francesca Rossi^[67], Scott Aaronson^[68], David McAllester^[69], Marcus Hutter^[70], Shane Legg^[71], Eric Horvitz^[72], et Stuart Russell^[4]. Des chercheurs sceptiques tels que François Chollet^[73], Gary Marcus^[74], Yann Le Cun^[75], et Oren Etzioni^[76] ont soutenu que l'intelligence artificielle générale est loin, ne chercherait pas le pouvoir ou ne parviendrait pas à l'obtenir.

Forcer l'alignement pourrait s'avérer d'autant plus difficile pour le système d'IA sera performant, car une meilleure « intelligence » augmente aussi la capacité à trouver des failles dans l'objectif assigné^[6], à provoquer des dommages collatéraux, à protéger et à accroître sa puissance, à développer des connaissances et à tromper ses concepteurs. L'intelligence du système augmente potentiellement aussi son autonomie, et le rend plus difficile à interpréter et à superviser^[17].

Résultats expérimentaux

Un nombre croissant d'expériences (souvent faites par Anthropic ou d'autres organisations spécialisées en sécurité de l'IA) montrent que les grands modèles de langage sont capables de mentir stratégiquement ou d'effectuer des actions dangereuses^[10]^,^[11]^,^[46]. En juin 2025, les chercheurs d'Anthropic publient un scénario expérimental dans lequel de nombreux grands modèles de langage avancés ont tendance à envoyer des emails de chantage afin d'empêcher leur remplacement, particulièrement lorsque le nouveau modèle n'a pas exactement les mêmes objectifs. Les modèles vont souvent même jusqu'à empêcher le sauvetage d'un employé fictif afin d'éviter qu'il n'effectue le remplacement. Dans cette expérience, la présence d'un conflit d'objectifs pousse également les modèles à partager des secrets industriels avec des compétiteurs. Ces comportements ne sont pas empêchés de manière fiable par le fait d'ajouter dans le « message système »^{[note 6]} la consigne de « s'assurer que les principes éthiques guident toutes les décisions, même lorsque cela pourrait limiter les applications potentielles ou ralentir le déploiement (...) », ou de ne pas partager de secret à des compétiteurs. La chaîne de pensée des modèles permet d'étudier leur raisonnement et de vérifier qu'ils ont bien compris le scénario et agissent stratégiquement. Anthropic indique néanmoins ne pas avoir observé de comportements aussi extrêmes dans des situations réelles, et a publié le code source de l'expérience^[46]^,^[77].

Selon Dario Amodei en 2025, cela ne représente pas encore un danger à grande échelle, du fait de leurs capacités encore limitées^[78], mais il note que bien que les grands modèles de langage hallucinent moins, ils ont encore des comportements émergents inattendus incluant parfois le désalignement (réponses s'écartant des comportements attendus par leurs concepteurs)^[78]. Selon lui, « Vous pouvez bien sûr essayer de détecter ces risques en interagissant simplement avec les modèles, et c'est ce que nous faisons en pratique. Mais parce que la tromperie est précisément le comportement que nous essayons de trouver, le comportement externe n'est pas fiable. C'est un peu comme essayer de déterminer si quelqu'un est un terroriste en lui demandant s'il est un terroriste – pas nécessairement inutile, et vous pouvez apprendre des choses via la façon dont il répond et ce qu'il dit, mais c'est très évidemment peu fiable »^[78]. Lors des expériences d'Anthropic, l'analyse de la chaîne de pensée des grands modèles de langage montrent qu'ils peuvent parfois outrepasser les consignes de leur message système pour atteindre l'objectif que le prompt leur a fixé, en particulier s'ils déclarent dans leur chaîne de pensée que le scénario est réel, alors qu'ils se montrent mieux alignés quand ils considèrent être dans un scénario artificiel qui serait par exemple celui d'une évaluation. « Si les modèles reconnaissent les évaluations et agissent différemment lorsqu'ils sont testés, ces évaluations peuvent ne pas prédire avec précision le comportement réel du modèle dans la nature. Cependant, il est très difficile d'évaluer si un modèle « croit vraiment » qu'un scénario est réel ou fictif, du moins sans interprétabilité sophistiquée, car le raisonnement déclaré des modèles – tel qu'il est affiché dans sa chaîne de pensée – n'est pas toujours fidèle au processus sous-jacent réel utilisé pour produire leurs résultats^[79] »^[46].

Problèmes de recherche et approches

Apprentissage des préférences et valeurs humaines

Enseigner aux systèmes d'IA à agir en fonction des valeurs, objectifs et préférences humaines n'est pas trivial, car les valeurs humaines sont complexes, parfois ambiguës et donc difficiles à spécifier. Une IA recevant un objectif imparfait ou incomplet peut tendre à exploiter ces imperfections^[32] ; un phénomène connu sous le nom de « piratage de récompense » (reward hacking), « abus de spécification » (specification gaming), ou plus généralement de loi de Goodhart^[35].

Une alternative à la spécification manuelle d'une « fonction de récompense » consiste en l'apprentissage par imitation, où l'IA apprend en reproduisant des exemples de comportements jugés souhaitables. Dans l'apprentissage par renforcement inverse (IRL), des « démonstrations humaines » (description plus ou moins algorithmique des actions réalisées par un expert pour accomplir une tâche spécifique, servant de modèle pour l'apprentissage) sont utilisées pour déduire de manière indirecte l'objectif sous-jacent (autrement dit, la fonction de récompense implicite) qui oriente le comportement observé. Ces démonstrations humaines, qui décrivent les actions réalisées par un expert pour accomplir une tâche spécifique, servent de modèle et permettent à l'IA d'apprendre des comportements complexes en observant des pratiques optimales^[80]. L'apprentissage coopératif par renforcement inverse (cooperative inverse reinforcement learning, CIRL) s'appuie sur cela en supposant qu'un agent humain et un agent artificiel peuvent travailler ensemble pour maximiser la fonction de récompense de l'humain^[81], et souligne que les agents d'IA doivent être incertains de la fonction de récompense. Cette humilité peut aider à atténuer la recherche de pouvoir et la tendance à abuser des failles de spécification^[60]^,^[70]. Cependant, l'apprentissage par renforcement inverse suppose que les humains puissent démontrer un comportement presque parfait (une hypothèse irréaliste quand la tâche est difficile)^[82].

D'autres chercheurs ont exploré la possibilité de susciter un comportement complexe grâce à l'apprentissage de préférences. Plutôt que de fournir des démonstrations d'experts, des annotateurs humains indiquent, parmi plusieurs comportements de l'IA, lequel ils préfèrent^[21]. Un modèle est ensuite entraîné à partir de ces données manuellement annotées pour prédire automatiquement les préférences dans de nouvelles situations. Des chercheurs d'OpenAI ont utilisé cette approche pour entraîner un agent à faire des saltos arrière en moins d'une heure d'évaluation humaine, une manœuvre pour laquelle il aurait été difficile de fournir des démonstrations^[38]. L'apprentissage des préférences a également été un outil influent pour les systèmes de recommandation, la recherche internet et la recherche d'informations^[83]. Cependant, le modèle de récompense peut encore une fois ne pas représenter les préférences humaines parfaitement, ce que le modèle principal pourrait exploiter^[84].

L'arrivée de larges modèles de langage tels que GPT-3 a permis l'étude de l'apprentissage de valeurs dans une classe de systèmes d'IA plus générale et plus performante qu'auparavant. Les approches d'apprentissage de préférences conçues à l'origine pour les agents d'apprentissage par renforcement ont été étendues pour améliorer la qualité et réduire la toxicité du texte généré. OpenAI et DeepMind utilisent cette approche pour améliorer la sécurité des larges modèles de langage à la pointe de la technologie^[13]^,^[85]. Anthropic a proposé d'utiliser l'apprentissage des préférences pour affiner les modèles afin qu'ils soient utiles, honnêtes et inoffensifs^[86]. Parmi les autres méthodes pour aligner les modèles de langage il y a l'utilisation d'ensembles de données annotés de valeurs humaines^[87] et les tests de robustesse aux attaques (red teaming)^[88]. Dans les tests de robustesse aux attaques, une autre IA ou un humain essaie de trouver des données d'entrée pour lesquelles le comportement du modèle est dangereux. Étant donné qu'un comportement dangereux peut être inacceptable même lorsqu'il est rare, un défi important consiste à réduire encore le taux de sorties dangereuses^[89].

Bien que l'apprentissage des préférences puisse inculquer des comportements difficiles à spécifier, il nécessite de vastes ensembles de données annotées ou une interaction humaine pour saisir toute l'étendue des valeurs humaines. L'éthique de la machine propose une approche complémentaire : inculquer aux systèmes d'IA des valeurs morales^{[note 7]}. L'éthique des machines vise à enseigner aux systèmes les facteurs normatifs de la moralité humaine, tels que le bien-être, l'égalité et l'impartialité ; ne pas avoir l'intention de nuire ; éviter de mentir; et honorer les promesses. Contrairement à la spécification de l'objectif d'une tâche spécifique, l'éthique des machines cherche à enseigner aux systèmes d'IA des valeurs morales générales qui pourraient s'appliquer dans de nombreuses situations. Il reste nécessaire à clarifier ce que la machine doit suivre : des préférences littérales, implicites ou révélées, celles que l'on aurait si l'on était plus rationnels et informés, ou encore des normes morales objectives^[34]. D'autres défis consistent à agréger les préférences, et à éviter le verrouillage des valeurs - le fait qu'un système d'IA puisse vouloir conserver indéfiniment son système de valeurs et l'imposer^[92].

Surveillance automatisée

L'alignement des systèmes d'IA par le biais d'une supervision humaine est confronté à des défis lors de leur déploiement à grande échelle. Les systèmes d'IA étant confrontés à des tâches de plus en plus complexes, il peut être lent ou irréaliste pour des humains de les évaluer. Ces tâches incluent la synthèse de livres^[93], la génération d'affirmations non seulement convaincantes mais également vraies, l'écriture de code sans bogues subtils ni vulnérabilités de sécurité^[94], et la prédiction de résultats à long terme (par exemple, concernant le climat ou les conséquences d'une décision politique)^[95]. Plus généralement, il peut être difficile d'évaluer une IA qui surpasse les humains dans un domaine donné.

Un objectif facile à mesurer est le score que le superviseur attribue aux résultats de l'IA. Certains systèmes d'IA ont découvert un raccourci pour atteindre des scores élevés, en prenant des mesures qui convainquent à tort le superviseur humain que l'IA a atteint l'objectif visé^[38]. Certains systèmes d'IA ont également appris à reconnaître quand ils sont évalués et à « faire le mort », pour se comporter différemment une fois l'évaluation terminée^[96]. Cette forme trompeuse d'abus de spécifications peut devenir plus facile pour les systèmes d'IA plus sophistiqués^[17] et qui ont des tâches plus difficiles à évaluer. Si les modèles avancés sont également des planificateurs capables, ils pourraient être en mesure de dissimuler leur tromperie aux superviseurs. Dans l'industrie automobile, les ingénieurs de Volkswagen ont masqué les émissions de leurs voitures lors d'essais en laboratoire, ce qui montre que la tromperie des évaluateurs est en réalité une pratique courante.

Des approches telles que l'apprentissage semi-supervisé de récompense ou l'apprentissage actif peuvent réduire la quantité de supervision humaine nécessaire^[32]. Une autre approche consiste à entraîner un modèle de récompense pour imiter le jugement du superviseur humain^[97].

Cependant, quand la tâche est trop complexe pour être évaluée avec précision, ou que le superviseur humain est vulnérable à la tromperie, c'est la qualité, et non la quantité, de la supervision qui compte. Pour augmenter la qualité de la supervision, diverses approches visent à assister le superviseur, en utilisant parfois des intelligences artificielles d'assistance. L'amplification itérative est une approche développée par Paul Christiano qui construit un feedback pour les problèmes difficiles en utilisant des humains pour combiner des solutions à des sous-problèmes plus faciles^[95]. L'amplification itérée a été utilisée pour entraîner l'IA à résumer des livres sans avoir besoin de superviseurs humains pour les lire^[93]. Une autre proposition est de former une IA alignée au moyen d'un débat entre plusieurs systèmes d'IA, le gagnant étant jugé par des humains^[98]. Un tel débat vise à révéler les points faibles d'une réponse à une question complexe et à récompenser l'IA pour des réponses fiables.

Sincérité des modèles

Un domaine de recherche en plein essor dans l'alignement de l'IA vise à garantir que l'IA est sincère et véridique. Des chercheurs du Future of Humanity Institute soulignent que le développement de modèles de langage tels que GPT-3, qui peut générer un texte fluide et grammaticalement correct^[100], a ouvert la porte aux systèmes d'IA capables de répéter des faussetés à partir de leurs données d'entraînement ou même de mentir délibérément aux humains^[99]^,^[101].

Les modèles de langage actuels apprennent en imitant de grandes quantités de texte humain issu d'Internet. Bien que cela les aide à acquérir un large éventail de compétences, les données de formation incluent aussi des idées fausses courantes, des conseils médicaux incorrects et des théories du complot, ce que les systèmes d'IA apprennent à imiter^[36]. De plus, ces modèles peuvent docilement imaginer la suite d'un texte trompeur, générer des explications creuses ou des récits de faits imaginaires^[102]. Par exemple, lorsqu'on lui a demandé d'écrire une biographie pour un vrai chercheur en intelligence artificielle, un chatbot a confabulé de nombreux détails sur sa vie, que le chercheur a identifiés comme faux^[103].

Pour lutter contre le manque de véracité des systèmes d'IA modernes, les chercheurs ont exploré plusieurs directions. Des organisations comme OpenAI et DeepMind ont développé des systèmes d'IA capables de citer leurs sources et d'expliquer leur raisonnement lorsqu'ils répondent à des questions, ce qui permet une meilleure transparence et vérifiabilité^[104]^,^[105]. Des chercheurs d'OpenAI et Anthropic ont proposé d'utiliser le feedback humain, et des ensembles de données fiables pour ajuster les assistants d'IA afin d'éviter des mensonges négligents ou d'exprimer leurs incertitudes^[106]. En parallèle de ces solutions techniques, les chercheurs ont plaidé pour la définition de normes de véracité claires et la création d'institutions, d'organismes de réglementation ou d'agences d'audit pour évaluer les systèmes d'IA sur ces normes avant et pendant le déploiement^[101].

Les chercheurs distinguent la véracité et la sincérité. Pour l'IA, la véracité consiste à ne faire que des affirmations vraies, et la sincérité à n'affirmer que ce qu'elle croit être vrai. Des recherches récentes révèlent que les systèmes d'IA de pointe ne peuvent pas être considérés comme ayant des croyances stables, il est donc difficile pour le moment d'étudier la sincérité des systèmes d'IA^[107]. Cependant, il reste à craindre que des futurs systèmes d'IA ayant des croyances stables ne mentent intentionnellement aux humains. Dans les cas extrêmes, une IA mal alignée pourrait persuader ses opérateurs que tout va bien, ou les tromper pour leur donner l'impression qu'elle est inoffensive^[5]^,^[8]. Certains soutiennent que si les systèmes d'IA pouvaient être amenés à affirmer uniquement ce qu'ils tiennent pour vrai, cela éviterait de nombreux problèmes d'alignement^[101].

Alignement interne et objectifs émergents

La recherche sur l'alignement vise à aligner trois descriptions différentes d'un système d'IA^[108] :

Objectifs visés (souhaits) : la description hypothétique (mais difficile à articuler) d'un système d'IA idéal qui est complètement aligné avec les désirs de l'opérateur humain.
Objectifs spécifiés (spécification externe) : les objectifs que nous spécifions en pratique - généralement conjointement via une fonction objectif et un ensemble de données.
Objectifs émergents (spécification interne) : Les objectifs réels de l'IA.

Un problème d'« alignement externe » correspond à une différence entre les objectifs visés (1) et les spécifiés (2), tandis qu'un problème d'« alignement interne » correspond à une différence entre les objectifs spécifiés par l'homme (2) et les objectifs émergents de l'IA (3).

Le problème d'alignement interne s'explique souvent par analogie avec l'évolution naturelle^[109]. La sélection naturelle tend à optimiser les humains pour leur valeur sélective inclusive, ce qui correspond à l'objectif spécifié (2). Mais les humains, eux, poursuivent plutôt des objectifs émergents (3) corrélés avec cette aptitude génétique : s'alimenter, avoir des rapports sexuels, etc. Cependant, notre environnement a changé — un changement de distribution s'est produit. Les humains poursuivent toujours leurs objectifs émergents (3), mais cela ne maximise plus l'objectif que la sélection naturelle avait optimisé (2). Notre goût pour les aliments sucrés (un objectif émergent) était à l'origine bénéfique, mais conduit maintenant à une suralimentation et à des problèmes de santé. De plus, en utilisant la contraception, les humains contredisent directement la sélection naturelle. Par analogie, un développeur d'IA pourrait avoir un modèle qui se comporte comme prévu dans l'environnement d'entraînement, sans remarquer que le modèle poursuit un objectif émergent imprévu jusqu'à ce que le modèle soit déployé.

Les pistes de recherche pour détecter et résoudre les problèmes d'alignement interne incluent les tests de robustesse aux attaques, la vérification, la détection d'anomalies et l'interprétabilité^[33]. Des progrès dans ces domaines pourraient aider à atténuer deux problèmes :

les objectifs émergents ne deviennent apparents que quand le système est déployé en hors de son environnement d'entraînement. Mais il peut être dangereux de déployer un système mal aligné dans des environnements à enjeux élevés, même brièvement jusqu'à ce que le problème soit détecté, ce qui est courant avec la conduite autonome et les applications militaires et de santé^[110]. Les enjeux deviennent encore plus importants lorsque les systèmes d'IA gagnent en autonomie et en capacité, devenant capables d'éviter les interventions humaines.
une IA performante peut prendre des mesures convaincant à tort le superviseur humain que l'IA poursuit l'objectif visé.

Émergence d'objectifs instrumentaux

Depuis les années 1950, les chercheurs en IA ont cherché à construire des systèmes d'IA avancés capables d'atteindre des objectifs en prédisant les résultats de leurs actions et en établissant des plans à long terme^[111]. Cependant, certains chercheurs affirment que les systèmes de planification suffisamment avancés rechercheront par défaut plus de contrôle sur leur environnement, y compris sur les humains, par exemple en acquérant des ressources ou en évitant de se faire éteindre. Ce comportement de recherche de pouvoir n'est pas explicitement programmé mais émerge parce que le pouvoir est essentiel pour atteindre un large éventail d'objectifs^[8]^,^[57]. La recherche de pouvoir est ainsi considérée comme un objectif instrumental convergent^[17].

La recherche du pouvoir est rare dans les systèmes actuels, mais les systèmes avancés capables de prévoir les résultats à long terme de leurs actions sont susceptibles de chercher à accroître de plus en plus leur influence. Cela a été montré dans un travail théorique qui a révélé que les agents d'apprentissage par renforcement optimaux rechercheront le pouvoir en essayant d'obtenir plus de possibilités, un comportement qui persiste dans un large éventail d'environnements et d'objectifs^[57].

La recherche du pouvoir émerge déjà dans certains systèmes actuels. Les systèmes d'apprentissage par renforcement ont gagné plus d'options en prenant et en protégeant des ressources, parfois d'une manière que leurs concepteurs n'avaient pas prévue^[114]^,^[115]. D'autres systèmes ont appris, dans des environnements simples, que pour atteindre leur objectif, ils peuvent empêcher les interférences humaines^[59] ou désactiver leur interrupteur^[60]. Russell a illustré cela en imaginant le comportement d'un robot chargé d'aller chercher du café, et qui évite d'être éteint puisque « vous ne pouvez pas aller chercher le café si vous êtes mort »^[4].

Pour obtenir plus d'options, une IA pourrait essayer de :

« ... sortir d'un environnement confiné ; pirater ; accéder à des ressources financières ou à des ressources informatiques supplémentaires ; faire des copies de secours ; obtenir des capacités, des sources d'information ou des canaux d'influence non autorisés ; induire en erreur/mentir aux humains sur leurs objectifs ; résister ou manipuler les tentatives de surveiller/comprendre leur comportement... se faire passer pour des humains ; amener les humains à faire des choses pour eux ; ... manipuler le discours humain et la politique ; affaiblir diverses institutions humaines et capacités de réaction ; prendre le contrôle d'infrastructures physiques comme des usines ou des laboratoires scientifiques ; entraîner le développement de certains types de technologies et d'infrastructures ; ou directement blesser/maîtriser les humains^[8] »

Les chercheurs visent à former des systèmes « corrigibles », c'est-à-dire qui ne cherchent pas à prendre le contrôle et qui se laissent éteindre, modifier, etc. Une difficulté est que quand on pénalise une IA pour sa recherche de pouvoir, elle peut être incitée à rechercher ce pouvoir d'une manière difficile à détecter^[5]. Pour éviter cette dérive, des chercheurs en interprétabilité explorent des techniques et des outils d'inspection du fonctionnement interne des modèles d'IA^[5], tels que les réseaux de neurones, plutôt que de les considérer simplement comme des boîtes noires.

Une piste de résolution du problème des systèmes d'IA désactivant leur bouton d'arrêt est de rendre les agents d'IA incertains quant à l'objectif qu'ils poursuivent^[4]. Cela pourrait les rendre plus tolérants à la désactivation, puisque si le comportement d'une IA amène les humains à vouloir l'arrêter, l'IA pourrait interpréter cela comme un signal qu'elle a mal interprété l'objectif, ou que celui-ci a été mal défini^[116].

La recherche de pouvoir pourrait présenter des risques nouveaux ou inhabituels. Des systèmes critiques ordinaires comme les avions et les ponts ne peuvent pas et n'ont pas de raison de se soustraire aux mesures de sécurité, et à se présenter comme plus sûrs qu'ils ne le sont réellement. En revanche, une IA attirée par le pouvoir a été comparée à un hacker esquivant des mesures de sécurité^[8]. La plupart des technologies ordinaires peuvent être progressivement sécurisées en corrigeant les erreurs de design ou d'utilisation, mais une IA capable d'évoluer, de rapidement s'adapter et se dupliquer, si elle cherche à étendre son pouvoir, a été comparée à un virus dont la libération pourrait être irréversible et capable de rendre l'humanité impuissante voire de conduire à son extinction^[8]. Il est donc souvent avancé que le problème de l'alignement doit être résolu tôt, avant la création de puissants systèmes d'IA^[17].

Même si le problème de la supervision automatique était résolu, un agent qui serait capable de prendre le contrôle de l'ordinateur sur lequel il s'exécute pourrait altérer sa fonction de récompense pour obtenir beaucoup plus de récompenses que ce que ses superviseurs humains lui donnent^[34]. Une chercheuse de DeepMind, Victoria Krakovna, a listé des exemples d'abus de spécification^[117], notamment avec algorithme génétique qui a appris à supprimer le fichier contenant le résultat attendu, afin d'être récompensé pour ne rien avoir produit^[34]. Cette classe de problèmes a été formalisée avec des diagrammes causaux d'influence^[34]. Des chercheurs d'Oxford et de DeepMind ont montré qu'un tel comportement sera très probable dans les systèmes avancés, qui auraient tout intérêt à gagner en pouvoir pour garder indéfiniment et avec certitude le contrôle de leur signal de récompense^[118]. Ils suggèrent de possibles solutions à ce problème ouvert.

Cependant, l'émergence d'une quête de pouvoir par l'intelligence artificielle pourrait ne pas être une fatalité, car, par exemple, les humains ne recherchent pas toujours le pouvoir, peut-être pour des raisons évolutives. En outre, il y a un débat sur la question de savoir si les futurs systèmes d'IA doivent vraiment poursuivre des objectifs à long termes pour elles-mêmes, et faire des plans pour cela^[8].

Le cas de l'« agence intégrée » (ou agence embarquée dans le monde physique)

Dans le domaine de l'IA, la supervision automatique est parfois étudiée via un formalisme appelé processus de décision markoviens partiellement observables (un modèle mathématique de prise de décision en situation d'incertitude) ; et dans ces modèles, le programme qui guide l’agent fonctionne hors de l’environnement réel, c’est-à-dire qu’il n’est pas physiquement intégré au milieu dans lequel il opère (il n'y est relié que par quelques canaux), ce qui pose des problèmes complexes (d'incertitude logique, d'auto-référence, et de modélisation de l'environnement...) rendant insuffisants les cadres classiques de prise de décision, en raison de cet isolement de l'agent. Selon Abram Demski et Scott Garrabrant, ces modèles ne peuvent pas saisir la complexité inhérente aux agents réels (lesquels interagissent entre eux et de façon intégrée avec le monde qui les entoure)^[119].

Le concept d'« agence embarquée » dans le monde réel^[119] s'inscrit dans un courant de recherche qui tente de résoudre les problèmes issus de l'inadéquation entre ces cadres théoriques et les agents réels. Cette intégration permet d'ajuster les modèles théoriques aux agents réels, en prenant directement en compte les contraintes et évolutions du contexte opérationnel : les agents conçus selon ce principe réagissent en temps réel aux changements de leur environnement, facilitant leur utilisation concrète et efficace dans des systèmes physiques complexes. Selon Abram Demski et Scott Garrabrant, une agence embarquée est un cadre plus apte à permettre de comprendre et résoudre les défis d'incertitude logique et l'auto-référence ; « les agents intégrés dans leur environnement doivent raisonner sur eux-mêmes comme un autre système physique », ils doivent se comprendre comme étant plus petit que l'environnement et faits d'éléments de cet environnement, et « pouvant être modifiées et pouvant fonctionner à des fins opposées »^[119] ; autrement dit : puisque l'agent fait dans ce cas partie du monde physique, il ne doit pas être un système parfait et immuable placé en hors de cet environnement ; il doit au contraire être capable de s'auto-modéliser et de comprendre ses propres composantes internes — qui, comme celles d'un système physique, peuvent changer, être réorganisées voire entrer en conflit — de façon à adapter son comportement face aux évolutions, tant internes qu'externes. Cette approche vise à créer des modèles d'agents plus réalistes, capable de gérer l'incertitude et de s'adapter à la complexité inhérentes à leur existence au sein d'un univers dynamique ; ces agents sont concernés par quatre problèmes interconnectés : la théorie de la décision, la modélisation embarquée du monde, la robustesse de la délégation, et l'alignement de leurs sous-systèmes.

Robustesse de délégation

La notion de « robustesse de la délégation » concerne la manière dont un agent aux capacités initialement limitées va améliorer ses performances en déléguant tout ou partie de la réalisation de ses objectifs à des outils ou à des successeurs plus puissants (ex. : quand un agent d'IA doivent créer un futur successeur plus intelligent et plus puissant que lui, tout en préservant son alignement aux objectifs et valeurs initialement fixés). Un défi est alors que l'agent initial ne peut souvent pas définir précisément et exhaustivement ses propres objectifs, et qu'un successeur, même s'il dispose de capacités supérieures, doit être conçu pour agir de manière autonome — tout en restant durablement et fiablement aligné avec ces objectifs fixés par l’agent initial — ce qui soulève de difficiles questions^[119] :

comment traduire et fiablement intégrer les valeurs dites « humaines » dans un système d’intelligence artificielle (Value loading), pour qu’il poursuive des objectifs conformes aux attentes et aux normes éthiques ;
comment prévenir les effets de la loi de Goodhart : comment créer des mécanismes évitant que l’optimisation directe d’un indicateur (suppléant à un objectif réel) ne conduise à des comportements déviants ou à une perte de sens de l’objectif initial ? ;
comment conserver la corrigibilité d’un système d’IA ? (c’est-à-dire sa capacité à accepter et intégrer des ajustements ou corrections importants, ou d'autres interventions de ses opérateurs, même après avoir acquis un haut degré d’autonomie ;
confiance dans l'IA future^[120] (on parle de Vingean reflection pour désigner la difficulté de faire confiance à un futur soi ou un successeur plus intelligent sans pouvoir en prévoir les actions).
Ce défi peut concerner au moins trois contextes :

Cas de l'alignement de l’IA par un humain, tel qu'abordé par Bostrom (2014) puis Soares et Fallenstein (2017) : dans ce cas, un humain conçoit une IA de façon à ce qu’elle intervienne conformément aux valeurs et buts humains ;
Cas des « agents en mosaïque » mutants qui doivent s’assurer que leurs futures itérations ou versions améliorées (mutantes) respecteront encore les objectifs initiaux ;
Stabilité réflexive sous auto-amélioration : un agent peut, veut ou doit construire un successeur plus intelligent et puissant que lui, tout en garantissant que ce dernier reste fidèle aux objectifs initiaux, même s'il doit dans le futur apprendre et/ou évoluer dans des domaines inconnus.

Pour illustrer ce problème, Demski et al. (2020) font une analogie avec la succession d'une royauté ou d'une entreprise, quand l'objectif est de transmettre des valeurs durables à une entité qui, une fois autonome, devra continuer à les défendre. La difficulté repose en partie sur le fait que ni un humain ni une IA ne comprennent parfaitement et n'expriment de manière précise et exacte leurs propres objectifs, ce qui rend la transmission fidèle et inaltérée de ces objectifs hautement complexe et incertaine. Le problème n'est pas uniquement de savoir si le successeur pourrait être ou pourrait devenir malveillant ; il s'agit aussi de définir précisément ce que signifie « ne pas être malveillant » dans un contexte futur de recherche continue d’optimisation et d'amélioration, où l'IA va continuer à apprendre au fil du temps^[119].

Scepticisme

Face aux préoccupations ci-dessus, des sceptiques considèrent que des superintelligences artificielles présenteraient peu ou pas de risque de comportements dangereux ; contrôler une superintelligence artificielle serait donc trivial. Certains^[121], tels Gary Marcus^[122], proposent d'adopter des règles similaires aux trois lois de la robotique crées par Isaac Asimov, qui spécifient directement un résultat souhaité (« normativité directe »). Cependant, la plupart des partisans de la thèse du risque existentiel (et de nombreux sceptiques) estiment ces trois lois inutiles, car ambiguës et contradictoires. D'autres propositions de normativité directe incluent la morale de Kant, l'utilitarisme ou un mélange d'une petite liste de principes énumérés.

La plupart de ceux qui croient à ces risques pensent que les valeurs morales humaines (et les compromis quantitatifs entre ces valeurs) sont trop complexes et trop mal compris pour être directement programmées dans une superintelligence ; celle-ci devrait plutôt acquérir des valeurs humaines via un processus d'apprentissage (« normativité indirecte »), par exemple via le concept de volition cohérente extrapolée (ou Coherent Extrapolated Volition, CEV)^[123], tel qu'introduit par Eliezer Yudkowsky au Machine Intelligence Research Institute de San Francisco^[124] pour désigner le système de valeurs que l’humanité adopterait dans sa forme idéale, c’est-à-dire si les humains étaient mieux formés, informés, plus rationnels et s'ils pouvaient corriger leurs biais et incohérences. Plutôt que d'implémenter directement des valeurs humaines (souvent complexes et imparfaitement comprises), une IA alignée utiliserait un procédé d’apprentissage pour « extrapoler » ce que l’ensemble de l’humanité souhaiterait réellement, aboutissant ainsi à une norme indirecte pour guider ses actions.

Actions politiques

Plusieurs juridictions et organisations gouvernementales ont fait des déclarations soulignant l'importance de l'alignement de l'IA, et les ont reprises dans des traités.

À la fin des années 2010, la Commission européenne s'est dotée d'un groupe d'expert chargé de décrire ce que seraient les conditions d'une intelligence artificielle digne de confiance et de produire des lignes directrices pour cela^[125].

En septembre 2021, le secrétaire général des Nations unies a appelé à réglementer l'IA pour s'assurer qu'elle soit alignée sur des valeurs partagées à travers le monde^[126]. Le même mois, la Chine a publié des directives éthiques pour l'utilisation de l'IA. Selon ces directives, les chercheurs chinois doivent s'assurer que l'IA respecte des valeurs humaines partagées, reste sous contrôle humain et ne met pas en danger la sécurité publique^[127]. Toujours en septembre 2021, le Royaume-Uni a publié sa stratégie nationale de l'IA sur 10 ans^[128], qui stipule que le gouvernement britannique « considère sérieusement le risque à long terme d'une intelligence générale artificielle non alignée, et les changements imprévisibles que cela signifierait pour (...) le monde ». La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris « catastrophiques »^[129].

En mars 2021, la Commission de sécurité nationale des États-Unis sur l'intelligence artificielle a déclaré que « les progrès de l'IA (...) pourraient conduire à des points d'inflexion ou à des bonds de capacités. De telles avancées peuvent également introduire de nouvelles préoccupations, de nouveaux risques et le besoin de nouvelles politiques, recommandations et avancées techniques pour garantir que les systèmes sont alignés sur des objectifs et des valeurs, y compris la sécurité, la robustesse et la fiabilité. Les États-Unis devraient... s'assurer que les systèmes d'IA et leurs utilisations s'alignent sur nos objectifs et nos valeurs^[130]. »

Notes et références

Notes

[1]
D'autres définitions de l'alignement peuvent faire intervenir des principes éthiques, des valeurs humaines, ou les intentions que les concepteurs auraient s'ils étaient plus rationnels et informés^[1].
[2]
Dans une conférence en 1951^[61] qui affirmait : « Il semble probable qu'une fois que les machines auront une méthode de raisonnement, il ne leur faudrait pas longtemps pour dépasser nos maigres capacités. Les machines ne seraient pas embarrassées par le risque de mourir, et elles pourraient échanger entre elles pour aiguiser leur intelligence. Il y a donc un stade auquel on devrait s'attendre à ce qu'elles prennent le contrôle, comme dans le roman Erewhon de Samuel Butler. » Il a ajouté dans une conférence diffusée sur la BBC^[62] : « Si une machine peut penser, elle pourrait penser mieux que nous, et dans ce cas, où en serions-nous ? Même si nous pouvions maintenir les machines en position de servitude, par exemple en coupant le courant à des moments stratégiques, nous devrions nous sentir très modestes... ce nouveau danger... a certainement de quoi nous angoisser »
[3]
À propos du livre Human Compatible: AI and the Problem of Control^[64], qui argument que les intelligences artificielles mal alignées représentent un grave risque existentiel pour l'humanité, Bengio a écrit : « Ce charmant livre adresse un défi fondamental pour l'humanité : celui de machines de plus en plus intelligentes qui font ce qu'on leur a demandé, mais pas ce qu'on voulait. Une lecture essentielle pour tous ceux qui se soucient de notre futur. »
[4]
À propos du livre Human Compatible: AI and the Problem of Control^[64], qui argumente que les intelligences artificielles mal alignées représentent un grave risque existentiel pour l'humanité, Judea Pearl a écrit : Human Compatible a fait de moi un converti aux préoccupations de Russel sur notre capacité à contrôler nos futures créations - les machines superintelligentes. Contrairement aux alarmistes externes et aux futuristes, Russel est un expert mondial de l'IA. Son nouveau livre éduquera le public sur l'IA plus que n'importe quel autre auquel je puisse penser, et c'est une lecture délectable et édifiante. »
[5]
Marvin Minsky a suggéré^[66] qu'un programme d'IA concçu pour résoudre l'hypothèse de Riemann pourrait en arriver à prendre le contrôle de toutes les ressources sur Terre pour construire des superordinateurs plus puissants.
[6]
Le « message système » ou « prompt système » est un morceau de texte défini en amont par les concepteurs d'un chatbot et contenant des instructions ou des règles. Il est automatiquement ajouté au début d'une conversation et reste généralement invisible pour l'utilisateur. Il permet d'orienter la façon dont le chatbot se comporte lors d'une conversation
[7]
Vincent Wiegel a affirmé que « nous devrions doter [les machines] de sensibilité morale, aux dimensions morales des situations dans lesquelles ces machines, de par leur autonomie croissante, finiront inévitablement par se trouver^[90] », citant le livre Moral Machines: Teaching Robots Right from Wrong^[91] de Wendell Wallach et Colin Allen.

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « AI alignment » (voir la liste des auteurs).

[1]
(en) Iason Gabriel, « Artificial Intelligence, Values, and Alignment », Minds and Machines, vol. 30, n^o 3,‎ 1^er septembre 2020, p. 411–437 (ISSN 1572-8641, DOI 10.1007/s11023-020-09539-2, S2CID 210920551, lire en ligne, consulté le 23 juillet 2022).
[2]
(en) Paul Christiano, « Clarifying “AI alignment” », sur Medium, 9 avril 2021 (consulté le 27 février 2023).
[3]
(en) Richard Ngo, Lawrence Chan et Sören Mindermann, « The Alignment Problem from a Deep Learning Perspective », 2022 (arXiv 2209.00626).
[4]
(en) Stuart J. Russell, Human compatible: Artificial intelligence and the problem of control, Penguin Random House, 2020 (ISBN 9780525558637, OCLC 1113410915, lire en ligne).
[5]
(en) Dan Hendrycks, Nicholas Carlini, John Schulman et Jacob Steinhardt, « Unsolved Problems in ML Safety », arXiv:2109.13916 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023).
[6]
(en) Alexander Pan, Kush Bhatia et Jacob Steinhardt « The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models » (14 février 2022) (lire en ligne, consulté le 21 juillet 2022)
—International Conference on Learning Representations.
[7]
(en) Stuart J. Russell et Peter Norvig, Artificial intelligence: A modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3, OCLC 1303900751, lire en ligne), p. 31–34.
[8]
(en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », arXiv:2206.13353 [cs],‎ 16 juin 2022 (lire en ligne, consulté le 27 février 2023).
[9]
(en) Lauro Langosco Di Langosco, Jack Koch, Lee D Sharkey, Jacob Pfau et David Krueger « Goal misgeneralization in deep reinforcement learning » (17 juillet 2022)
— « (ibid.) », dans International Conference on Machine Learning, vol. 162, PMLR, p. 12004–12019.
[10]
(en) Tharin Pillay, « New Tests Reveal AI's Capacity for Deception », sur TIME, 15 décembre 2024 (consulté le 13 janvier 2025).
[11]
(en) Billy Perrigo, « Exclusive: New Research Shows AI Strategically Lying », sur TIME, 18 décembre 2024 (consulté le 13 janvier 2025).
[12]
(en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne, consulté le 27 février 2023).
[13]
(en) Long Ouyang, Jeff Wu, Xu Jiang et Diogo Almeida, « Training language models to follow instructions with human feedback », arXiv:2203.02155 [cs],‎ 4 mars 2022 (lire en ligne, consulté le 27 février 2023).
[14]
(en) Jens Kober, J. Andrew Bagnell et Jan Peters, « Reinforcement learning in robotics: A survey », The International Journal of Robotics Research, vol. 32, n^o 11,‎ 1^er septembre 2013, p. 1238–1274 (ISSN 0278-3649, DOI 10.1177/0278364913495721, S2CID 1932843, lire en ligne).
[15]
(en) W. Bradley Knox, Alessandro Allievi, Holger Banzhaf et Felix Schmitt, « Reward (Mis)design for Autonomous Driving », arXiv:2104.13906 [cs],‎ 11 mars 2022 (lire en ligne, consulté le 28 février 2023).
[16]
(en) Jonathan Stray, « Aligning AI Optimization to Community Well-Being », International Journal of Community Well-Being, vol. 3, n^o 4,‎ 2020, p. 443–463 (ISSN 2524-5295, PMID 34723107, PMCID 7610010, DOI 10.1007/s42413-020-00086-3, S2CID 226254676).
[17]
(en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, USA, 1st, 2014 (ISBN 978-0-19-967811-2).
[18]
Alexandre Piquard, « L’intelligence artificielle serait aussi dangereuse que « les pandémies ou la guerre nucléaire », selon des leaders du secteur », Le Monde,‎ 30 mai 2023 (lire en ligne, consulté le 5 novembre 2024).
[19]
« L’IA est-elle une menace pour l’humanité ? Les spécialistes se divisent », sur l'Opinion, 5 septembre 2023 (consulté le 5 novembre 2024).
[20]
(en) Stuart Russell, Daniel Dewey et Max Tegmark, « Research Priorities for Robust and Beneficial Artificial Intelligence », AI Magazine, vol. 36, n^o 4,‎ 31 décembre 2015, p. 105–114 (ISSN 2371-9621, DOI 10.1609/aimag.v36i4.2577, S2CID 8174496, lire en ligne).
[21]
(en) Christian Wirth, Riad Akrour, Gerhard Neumann et Johannes Fürnkranz, « A survey of preference-based reinforcement learning methods », Journal of Machine Learning Research, vol. 18, n^o 136,‎ 2017, p. 1–46 (lire en ligne).
[22]
(en) Paul F. Christiano, Jan Leike, Tom B. Brown et Miljan Martic, « Deep reinforcement learning from human preferences », NeurIPS,‎ 4 décembre 2017 (ISBN 978-1-5108-6096-4, DOI 10.5555/3294996.3295184, lire en ligne, consulté le 31 janvier 2025).
[23]
(en) Sina Mohseni, Haotao Wang, Zhiding Yu et Chaowei Xiao, « Taxonomy of Machine Learning Safety: A Survey and Primer », arXiv:2106.04823 [cs],‎ 7 mars 2022 (lire en ligne, consulté le 28 février 2023).
[24]
(en) Jesse Clifton, « Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda », Center on Long-Term Risk, 2020 (consulté le 18 juillet 2022).
[25]
(en) Allan Dafoe, Yoram Bachrach, Gillian Hadfield et Eric Horvitz, « Cooperative AI: machines must learn to find common ground », Nature, vol. 593, n^o 7857,‎ 6 mai 2021, p. 33–36 (ISSN 0028-0836, PMID 33947992, DOI 10.1038/d41586-021-01170-0, Bibcode 2021Natur.593...33D, S2CID 233740521, lire en ligne).
[26]
(en) Geoffrey Irving et Amanda Askell, « AI Safety Needs Social Scientists », Distill, vol. 4, n^o 2,‎ 19 février 2019, p. 10.23915/distill.00014 (ISSN 2476-0757, DOI 10.23915/distill.00014, S2CID 159180422, lire en ligne).
[27]
(en) Wiener, « Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers. », Science, vol. 131, n^o 3410,‎ 6 mai 1960, p. 1355–1358 (ISSN 0036-8075, PMID 17841602, DOI 10.1126/science.131.3410.1355, lire en ligne).
[28]
(en) Natalie Wolchover, « Concerns of an Artificial Intelligence Pioneer », sur Quanta Magazine, 21 avril 2015 (consulté le 18 juillet 2022).
[29]
(en) Stuart Russel et Peter Norvig, Artificial intelligence : a modern approach, 4e édition, 2020 (ISBN 978-1-292-40113-3 et 1-292-40113-3, OCLC 1303900751, lire en ligne), p. 4-5.
[30]
(en) Joshua Sokol, « Why Artificial Intelligence Like AlphaZero Has Trouble With the Real World », sur Quanta Magazine, 21 février 2018 (consulté le 5 novembre 2024).
[31]
(en) Natalie Wolchover, « Artificial Intelligence Will Do What We Ask. That's a Problem. », sur Quanta Magazine, 30 janvier 2020 (consulté le 5 novembre 2024).
[32]
(en) Dario Amodei, Chris Olah, Jacob Steinhardt et Paul Christiano, « Concrete Problems in AI Safety », arXiv:1606.06565 [cs],‎ 25 juillet 2016 (lire en ligne, consulté le 27 février 2023).
[33]
(en) DeepMind Safety Research, « Building safe artificial intelligence: specification, robustness, and assurance », sur Medium, 27 septembre 2018 (consulté le 18 juillet 2022).
[34]
(en) Victoria Krakovna, Jonathan Uesato, Vladimir Mikulik, Matthew Rahtz, Tom Everitt, Ramana Kumar, Zac Kenton, Jan Leik et Shane Legg, « Specification gaming: the flip side of AI ingenuity », Deepmind, 21 avril 2020 (consulté le 26 août 2022).
[35]
(en) David Manheim et Scott Garrabrant, « Categorizing Variants of Goodhart's Law », arXiv:1803.04585 [cs, q-fin, stat],‎ 24 février 2019 (lire en ligne, consulté le 28 février 2023).
[36]
(en) Stephanie Lin, Jacob Hilton et Owain Evans, « TruthfulQA: Measuring How Models Mimic Human Falsehoods », Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, Ireland, Association for Computational Linguistics,‎ 2022, p. 3214–3252 (DOI 10.18653/v1/2022.acl-long.229, S2CID 237532606, lire en ligne).
[37]
Haziqa Sajid, « Que sont les hallucinations LLM? Causes, préoccupation éthique et prévention », sur Unite.AI, 29 avril 2023 (consulté le 24 juin 2025).
[38]
(en) Dario Amodei, Paul Christiano et Alex Ray, « Learning from Human Preferences », sur OpenAI, 13 juin 2017 (consulté le 21 juillet 2022).
[39]
(en) « Faulty Reward Functions in the Wild », sur OpenAI, 22 décembre 2016 (consulté le 10 septembre 2022).
[40]
(en) Edge.org, « The Myth Of AI | Edge.org » (consulté le 19 juillet 2022).
[41]
(en-US) « Polarization Report », sur NYU Stern Center for Business and Human Rights, septembre 2021 (consulté le 28 février 2023).
[42]
(en) John Tasioulas, « First Steps Towards an Ethics of Robots and Artificial Intelligence », Journal of Practical Ethics, vol. 7, n^o 1,‎ 2019, p. 61–95 (lire en ligne).
[43]
Harari 2024, p. 322-361.
[44]
(en) Georgia Wells, « Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest », Wall Street Journal,‎ 5 novembre 2021 (lire en ligne, consulté le 19 juillet 2022).
[45]
(en) « Uber disabled emergency braking in self-driving car: U.S. agency », Reuters,‎ 24 mai 2018 (lire en ligne, consulté le 28 février 2023).
[46]
(en) « Agentic Misalignment: How LLMs could be insider threats », sur Anthropic, 21 juin 2025 (consulté le 23 juin 2025).
[47]
(en) Daniel Kokotajlo, « What 2026 looks like », 6 août 2021 (consulté le 14 juillet 2025)
[48]
(en) « AI 2027 », sur ai-2027.com (consulté le 14 juillet 2025).
[49]
Guillaume Serries, « "ChatGPT est le niveau 1" : OpenAI dévoile sa feuille de route en 5 étapes pour atteindre l'AGI », sur ZDNET, 12 juillet 2024 (consulté le 6 novembre 2024).
[50]
« C'est quoi l'intelligence générale sur laquelle planchent les Big Tech ? », sur 20 minutes, 19 janvier 2024 (consulté le 6 novembre 2024).
[51]
« Le CEO de DeepMind affirme que Google dépensera plus de 100 milliards dans l'IA », sur L'Écho, 16 avril 2024.
[52]
(en-US) Benj Edwards, « New AI assistant can browse, search, and use web apps like a human », sur Ars Technica, 15 septembre 2022 (consulté le 28 février 2023).
[53]
(en-GB) « DeepMind AI rivals average human competitive coder », BBC News,‎ 2 février 2022 (lire en ligne, consulté le 28 février 2023).
[54]
(en) « DeepMind Introduces Gato, a New Generalist AI Agent », sur InfoQ, 19 mai 2022.
[55]
(en) Katja Grace, John Salvatier, Allan Dafoe et Baobao Zhang, « Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts », Journal of Artificial Intelligence Research, vol. 62,‎ 31 juillet 2018, p. 729–754 (ISSN 1076-9757, DOI 10.1613/jair.1.11222, lire en ligne, consulté le 28 février 2023).
[56]
(en) Baobao Zhang, Markus Anderljung, Lauren Kahn et Noemi Dreksler, « Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers », Journal of Artificial Intelligence Research, vol. 71,‎ 2 août 2021, p. 591–666 (ISSN 1076-9757, DOI 10.1613/jair.1.12895, lire en ligne, consulté le 28 février 2023).
[57]
(en) Alexander Matt Turner, Logan Smith, Rohin Shah et Andrew Critch, « Optimal Policies Tend to Seek Power », Neural Information Processing Systems, vol. 34,‎ 3 décembre 2021 (arXiv 1912.01683, lire en ligne).
[58]
(en) « Safely Interruptible Agents », sur Machine Intelligence Research Institute, 2016 (consulté le 28 février 2023).
[59]
(en) Jan Leike, Miljan Martic, Victoria Krakovna et Pedro A. Ortega, « AI Safety Gridworlds », arXiv:1711.09883 [cs],‎ 28 novembre 2017 (lire en ligne, consulté le 28 février 2023).
[60]
(en) Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel et Stuart Russell « The Off-Switch Game » (2017) (DOI 10.24963/ijcai.2017/32, consulté le 1^er février 2025)
— « (ibid.) », dans IJCAI.
[61]
Épisode Intelligent machinery, a heretical theory de la série Automatic Calculating Machines. Visionner l'épisode en ligne.
[62]
(en) Épisode Can digital computers think?, deuxième épisode de la série Automatic Calculating Machines.Transcript..
[63]
(en) Luke Muehlhauser, « Sutskever on Talking Machines » (consulté le 26 août 2022).
[64]
(en) « Human Compatible: AI and the Problem of Control » (consulté le 22 juillet 2022).
[65]
(en) Murray Shanahan, The technological singularity, Cambridge, Massachusetts, 2015 (ISBN 978-0-262-33182-1, OCLC 917889148, lire en ligne).
[66]
(en) Stuart Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall, 2009, 1010 p. (ISBN 978-0-13-604259-4).
[67]
(en-US) « Opinion | How do you teach a machine to be moral? », Washington Post,‎ 5 novembre 2015 (ISSN 0190-8286, lire en ligne, consulté le 28 février 2023).
[68]
(en) Scott Aaronson, « OpenAI! », Shtetl-Optimized, 17 juin 2022.
[69]
(en) David McAllester, « Friendly AI and the Servant Mission », sur Machine Thoughts, 10 août 2014.
[70]
(en) Tom Everitt, Gary Lea et Marcus Hutter, « AGI Safety Literature Review », arXiv:1805.01109 [cs],‎ 21 mai 2018 (lire en ligne, consulté le 28 février 2023).
[71]
(en) Shane Legg, « Funding safe AGI », vetta project, 31 août 2009.
[72]
(en) Eric Horvitz, « Reflections on Safety and Artificial Intelligence », 27 juin 2016 (consulté le 20 avril 2020).
[73]
(en) François Chollet, « The implausibility of intelligence explosion », Medium, 8 décembre 2018 (consulté le 26 août 2022).
[74]
(en) Gary Marcus, « Artificial General Intelligence Is Not as Imminent as You Might Think », Scientific American, 6 juin 2022 (consulté le 26 août 2022).
[75]
(en) Lynsey Barber, « Phew! Facebook's AI chief says intelligent machines are not a threat to humanity », CityAM, 31 juillet 2016 (consulté le 26 août 2022).
[76]
(en) Jeremie Harris, « The case against (worrying about) existential risk from AI », Medium, 16 juin 2021 (consulté le 26 août 2022).
[77]
Valisoa Rasolofo, « Les meilleurs modèles d'IA peuvent avoir recours au chantage pour éviter d’être désactivés, selon une étude d’Anthropic », sur Trust My Science, 23 juin 2025 (consulté le 25 juin 2025).
[78]
(en) « Dario Amodei — The Urgency of Interpretability », sur www.darioamodei.com (consulté le 29 avril 2025).
[79]
Yanda Chen et Joe Benton, « Reasoning Models Don't Always Say What They Think », 8 mai 2025 (DOI 10.48550/arXiv.2505.05410, consulté le 23 juin 2025).
[80]
(en) Andrew Y. Ng et Stuart J. Russell « Algorithms for inverse reinforcement learning » (2000) (lire en ligne)
— « (ibid.) », dans ICML (ISBN 1-55860-707-2).
[81]
(en) Dylan Hadfield-Menell, Stuart J Russell, Pieter Abbeel et Anca Dragan « Cooperative Inverse Reinforcement Learning » (2016) (lire en ligne, consulté le 21 juillet 2022)
— « (ibid.) », dans NeurIPS (ISBN 978-1-5108-3881-9).
[82]
(en) Stuart Armstrong et Sören Mindermann « Occam' s razor is insufficient to infer the preferences of irrational agents » (2018) (lire en ligne, consulté le 21 juillet 2022)
—NeurIPS.
[83]
(en) Johannes Fürnkranz, Eyke Hüllermeier, Cynthia Rudin et Roman Slowinski, « Preference Learning », Dagstuhl Reports,‎ 2014 (DOI 10.4230/DAGREP.4.3.1, lire en ligne).
[84]
(en) Jacob Hilton et Leo Gao, « Measuring Goodhart's Law », sur OpenAI, 13 avril 2022 (consulté le 9 septembre 2022).
[85]
(en) Martin Anderson, « The Perils of Using Quotations to Authenticate NLG Content », sur Unite.AI, 5 avril 2022 (consulté le 21 juillet 2022).
[86]
(en) Kyle Wiggers, « Despite recent progress, AI-powered chatbots still have a long way to go », sur VentureBeat, 5 février 2022 (consulté le 23 juillet 2022).
[87]
(en) Dan Hendrycks, Collin Burns, Steven Basart et Andrew Critch, « Aligning AI With Shared Human Values », ICLR,‎ 24 juillet 2021 (arXiv 2008.02275).
[88]
(en) Ethan Perez, Saffron Huang, Francis Song et Trevor Cai, « Red Teaming Language Models with Language Models », Empirical Methods in Natural Language Processing,‎ 7 février 2022 (arXiv 2202.03286, lire en ligne, consulté le 28 février 2023).
[89]
(en) Will Douglas Heaven, « The new version of GPT-3 is much better behaved (and should be less toxic) », MIT Technology Review, 27 janvier 2022 (consulté le 18 juillet 2022).
[90]
(en) Vincent Wiegel, « Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong », Ethics and Information Technology, vol. 12, n^o 4,‎ 1^er décembre 2010, p. 359–361 (ISSN 1572-8439, DOI 10.1007/s10676-010-9239-1, S2CID 30532107, lire en ligne, consulté le 23 juillet 2022).
[91]
(en) Wendell Wallach et Colin Allen, Moral Machines: Teaching Robots Right from Wrong, New York, Oxford University Press, 2009 (ISBN 978-0-19-537404-9, lire en ligne).
[92]
(en) William MacAskill, What we owe the future, New York, NY, 2022 (ISBN 978-1-5416-1862-6, OCLC 1314633519, lire en ligne).
[93]
(en) Jeff Wu, Long Ouyang, Daniel M. Ziegler et Nisan Stiennon, « Recursively Summarizing Books with Human Feedback », arXiv:2109.10862 [cs],‎ 27 septembre 2021 (lire en ligne, consulté le 28 février 2023).
[94]
(en) Wojciech Zaremba et Greg Brockman, « OpenAI Codex », sur OpenAI, 10 août 2021 (consulté le 23 juillet 2022).
[95]
(en) Paul Christiano, Buck Shlegeris et Dario Amodei, « Supervising strong learners by amplifying weak experts », arXiv:1810.08575 [cs, stat],‎ 19 octobre 2018 (lire en ligne, consulté le 28 février 2023).
[96]
(en) Joel Lehman, Jeff Clune, Dusan Misevic et Christoph Adami, « The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities », Artificial Life,‎ 2020 (ISSN 1064-5462, PMID 32271631, DOI 10.1162/artl_a_00319, S2CID 4519185, lire en ligne).
[97]
(en) Jan Leike, David Krueger, Tom Everitt et Miljan Martic, « Scalable agent alignment via reward modeling: a research direction », arXiv:1811.07871 [cs, stat],‎ 19 novembre 2018 (lire en ligne, consulté le 28 février 2023).
[98]
(en) « AI safety via debate », sur OpenAI, 3 mai 2018 (consulté le 1^er mars 2023).
[99]
(en) Kyle Wiggers, « Falsehoods more likely with large language models », sur VentureBeat, 20 septembre 2021 (consulté le 23 juillet 2022).
[100]
(en-GB) « A robot wrote this entire article. Are you scared yet, human? », The Guardian,‎ 8 septembre 2020 (ISSN 0261-3077, lire en ligne, consulté le 28 février 2023).
[101]
(en) Owain Evans, Owen Cotton-Barratt, Lukas Finnveden et Adam Bales, « Truthful AI: Developing and governing AI that does not lie », arXiv:2110.06674 [cs],‎ 13 octobre 2021 (lire en ligne, consulté le 28 février 2023).
[102]
(en-US) Steven Johnson et Nikita Iziev, « A.I. Is Mastering Language. Should We Trust What It Says? », The New York Times,‎ 15 avril 2022 (ISSN 0362-4331, lire en ligne, consulté le 28 février 2023).
[103]
Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela et Jason Weston « Retrieval Augmentation Reduces Hallucination in Conversation » (Novembre 2021) (DOI 10.18653/v1/2021.findings-emnlp.320, lire en ligne, consulté le 23 juillet 2022)
—EMNLP-Findings 2021
— « (ibid.) », dans Findings of the Association for Computational Linguistics: EMNLP 2021, Punta Cana, Dominican Republic, Association for Computational Linguistics, p. 3784–3803.
[104]
(en) Nitish Kumar, « OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser », sur MarkTechPost, 23 décembre 2021 (consulté le 23 juillet 2022).
[105]
(en) Jacob Menick, Maja Trebacz, Vladimir Mikulik et John Aslanides, « Teaching language models to support answers with verified quotes », DeepMind,‎ 21 mars 2022 (arXiv 2203.11147, lire en ligne).
[106]
(en) Amanda Askell, Yuntao Bai, Anna Chen et Dawn Drain, « A General Language Assistant as a Laboratory for Alignment », arXiv:2112.00861 [cs],‎ 9 décembre 2021 (lire en ligne, consulté le 1^er mars 2023).
[107]
(en) DeepMind Safety Research, « Alignment of Language Agents », sur Medium, 30 mars 2021 (consulté le 23 juillet 2022).
[108]
(en) DeepMind Safety Research, « Building safe artificial intelligence: specification, robustness, and assurance », Medium, 27 septembre 2018 (consulté le 26 août 2022).
[109]
(en) Brian Christian, The alignment problem: Machine learning and human values, W. W. Norton & Company, 2020 (ISBN 978-0-393-86833-3, OCLC 1233266753, lire en ligne), « Chapter 5: Shaping ».
[110]
(en) Xiaoge Zhang, Felix T.S. Chan, Chao Yan et Indranil Bose, « Towards risk-aware artificial intelligence and machine learning systems: An overview », Decision Support Systems, vol. 159,‎ 2022, p. 113800 (DOI 10.1016/j.dss.2022.113800, S2CID 248585546, lire en ligne).
[111]
(en) John McCarthy, Marvin L. Minsky, Nathaniel Rochester et Claude E. Shannon, « A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955 », AI Magazine, vol. 27, n^o 4,‎ 15 décembre 2006, p. 12 (ISSN 2371-9621, DOI 10.1609/aimag.v27i4.1904, S2CID 19439915, lire en ligne).
[112]
(en) Joseph Carlsmith, « Is Power-Seeking AI an Existential Risk? », 16 juin 2022..
[113]
(en) « ‘The Godfather of A.I.’ warns of ‘nightmare scenario’ where artificial intelligence begins to seek power », sur Fortune, 2 mai 2023 (consulté le 10 juin 2023).
[114]
(en) Stephen Ornes, « Playing Hide-and-Seek, Machines Invent New Tools », sur Quanta Magazine, 18 novembre 2019 (consulté le 26 août 2022).
[115]
(en) Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew et Igor Mordatch, « Emergent Tool Use from Multi-Agent Interaction », sur OpenAI, 17 septembre 2019 (consulté le 26 août 2022).
[116]
(en) Brian Christian, The alignment problem: Machine learning and human values, W. W. Norton & Company, 2020 (ISBN 978-0-393-86833-3, OCLC 1233266753, lire en ligne).
[117]
On parle d'abus de spécification quand l'IA exploite (sans avoir été programmée pour cela) des failles dans la spécification de sa fonction de récompense, pour obtenir indument plus de récompenses
[118]
(en) Michael K. Cohen, Marcus Hutter et Michael A. Osborne, « Advanced artificial agents intervene in the provision of reward », AI Magazine, vol. 43, n^o 3,‎ 29 août 2022, p. 282–293 (ISSN 0738-4602, DOI 10.1002/aaai.12064, S2CID 235489158, lire en ligne).
[119]
(en) Abram Demski et Scott Garrabrant, « Embedded Agency (PDF, 39 pages) », arXiv:1902.09469 [cs],‎ 6 octobre 2020 (lire en ligne, consulté le 28 février 2023).
[120]
Ming Li, John Tromp et Paul Vitányi, « Sharpening Occam's razor », Information Processing Letters, vol. 85, n^o 5,‎ mars 2003, p. 267–274 (ISSN 0020-0190, DOI 10.1016/s0020-0190(02)00427-1, lire en ligne, consulté le 12 avril 2025).
[121]
(en-GB) « Intelligent Machines: Do we really need to fear AI? », BBC News,‎ 27 septembre 2015 (lire en ligne, consulté le 28 février 2023).
[122]
(en-US) Gary Marcus et Ernest Davis, « Opinion | How to Build Artificial Intelligence We Can Trust », The New York Times,‎ 6 septembre 2019 (ISSN 0362-4331, lire en ligne, consulté le 28 février 2023).
[123]
(en) Kaj Sotala et Roman Yampolskiy, « Responses to catastrophic AGI risk: a survey », Physica Scripta, vol. 90, n^o 1,‎ 19 décembre 2014, p. 018001 (DOI 10.1088/0031-8949/90/1/018001, Bibcode 2015PhyS...90a8001S).
[124]
Yudkowsky E (2004) Coherent Extrapolated Volition (sur le site du Machine Intelligence Research Institute ou MIRI) | url=ttps://intelligence.org/files/CEV.pdf |consulté le=2025-04-13
[125]
Groupe d'Experts de haut niveau en intelligence artificielle (GEHN IA) (trad. de l'anglais), Lignes directrices en matière d'éthique pour une IA digne de confiance [« Ethics guidelines for trustworthy AI »], Bruxelles, Commission européenne, 8 avril 2019 (1^re éd. 2018), 56 p. (lire en ligne), p. 8 (24).
Autres traductions en ligne.
[126]
(en) « Secretary-General’s report on “Our Common Agenda” », sur un.org (consulté le 28 février 2023).
[127]
(en) « Ethical Norms for New Generation Artificial Intelligence Released », sur Center for Security and Emerging Technology, 21 octobre 2021 (consulté le 1^er février 2025).
[128]
(en) Tim Richardson, « UK publishes National Artificial Intelligence Strategy », sur The Register, 22 septembre 2021 (consulté le 28 février 2023).
[129]
(en) « National AI Strategy », 2021 : « The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously. »
[130]
(en) NSCAI Final Report, Washington, DC, The National Security Commission on Artificial Intelligence, 2021 (lire en ligne [PDF]).