Daniel Kokotajlo est un philosophe et chercheur en intelligence artificielle (IA), qui a notamment travaillé au sein de la division gouvernance d'OpenAI de 2022 à 2024[1]. Il a volontairement quitté cette entreprise en raison de préoccupations éthiques concernant le développement de l'IA générale, qu'il jugeait imprudent à OpenAI. Il a ensuite co-fondé le think tank américain AI Futures, dont il est devenu directeur exécutif et qui agit dans le domaine de la prospective de l'IA[2]. Il est parfois présenté comme l'un des lanceurs d'alerte ayant attiré l'attention sur les risques posés par l'avènement, qu'il estime proche, de l'intelligence artificielle générale et de la «superintelligence artificielle», en particulier sur les risques existentiels posés par l'intelligence artificielle. Il a proposé en 2025 un scénario nommé AI 2027, explorant notamment l'idée d'une explosion d'intelligence avant fin 2027, suivie par une transition rapide vers la superintelligence. Ses travaux sont cités dans les discussions sur l'avenir de l'IA et la singularité technologique.
Il s'y est aussi intéressé à l'«altruisme efficace» et a co-écrit un article sur ce thème (publié en 2022), avec Alexandra Oprea (de l'Australian National University), intitulé «Counterproductive Altruism: The Other Heavy Tail». Il y estime que la philosophie de l'altruisme efficace (EA) comporte un biais, car dans ses analyses statistiques basés sur le concept de «queue lourde» (ou «distribution à queue lourde», Heavy Tail Hypothesis ou HTH pour les anglophones), la théorie de l'altruisme efficace insiste sur l'ampleur et la portée des effets secondaires «positifs» induits (avec un postulat qui est que les meilleures opportunités d'action produisent un bien commun significativement supérieur aux actions moyennes). Kokotajlo et Oprea, dans leur article, montrent que l'on devrait accorder la même valeur aux arguments quand ils plaident pour l'induction d'un effet négatif, car si, quand et où certaines interventions ciblées selon les règles de l'altrusime efficace s'avèrent contre-productives, elles peuvent alors causer des dommages considérablement plus importants que d'autres. L'intégration de cette perspective a des implications majeures pour la recherche sur l'efficacité des choix d'actions à aider, la priorisation des causes à financer et l'évaluation des interventions altruistes[4].
En 2022, il a été embauché comme chercheur au sein de la «division gouvernance» d'OpenAI[1].
Kokotajlo a fait partie d'un groupe d'employés d'OpenAI qui a joué un rôle de lanceur d'alerte, affirmant que l'entreprise avait une culture secrète et imprudente, lui faisant prendre de graves risques, dans sa précipitation à vouloir atteindre l'intelligence artificielle générale[5],[6].
Quand il a démissionné en 2024, il a refusé de signer la clause de non-dénigrement d'OpenAI, ce qui aurait pu lui coûter environ 2 millions de dollars en capitaux propres[7]. En , il dit avoir conservé les capitaux propres acquis en travaillant chez OpenAI[8],[9]. En , lui et d'autres anciens employés d'OpenAI ont signé une lettre affirmant que les entreprises à la pointe de l'IA ont de fortes incitations financières les poussant à éviter la surveillance. Avec ses cosignataires, il appelle à l'établissement d'un «droit à alerter» sans crainte de représailles quant aux risques liés à l'IA; tout en protégeant l'anonymat des lanceurs d'alerte[10]. Il a ensuite ensuite dédié une grande partie de son temps à la prospective de l'intelligence artificielle.
Kokotajlo a été invité à des podcasts et interviews où il partage ses analyses et ses prévisions sur l'IA, avec par exemple:
En 2025, Kevin Roose commente le travail prospectif déjà réalisé par Kokotajlo en notant que «certaines de ses prédictions se sont avérées prémonitoires»[2].
Il a cofondé et dirige une ONG (de type think tank), baptisée AI Futures Project et basée à Berkeley, en Californie. Celle-ci étudie les impacts futurs de l'intelligence artificielle, de manière complémentaire aux travaux de sites comme LessWrong ou du AI Alignment Forum (où des chercheurs partagent des prédictions sur l'IA, les mettent à jour et débattent des méthodologies), et de manière complémentaire aux approches du Center for AI Safety (CAIS) ou de l'Institute for AI Policy & Strategy (IAPS), qui publient également des analyses prospectives sur l'IA et ses enjeux.
AI Futures Project
AI Futures Project est une ONG dont l'objectif principal est d'étudier les impacts futurs de l'intelligence artificielle, en se concentrant notamment sur les scénarios de développement rapide de l'IA générale. En , l'organisation a publié le scénario «AI 2027», un document de prévision détaillé qui prévoit des avancées fulgurantes dans l'automatisation du codage et de la recherche en IA, culminant avec l'émergence d'agents d'IA entièrement autonomes surpassant les humains dans «pratiquement toutes les tâches cognitives et créatives» vers la fin de 2027[2].
Scénario « AI 2027 »
Ce scénario, AI 2027, co-écrit par Daniel Kokotajlo, Scott Alexander et Eli Lifland, est une étude prospective détaillée, basée sur les progrès observés et attendus de l'intelligence artificielle jusqu'en . Il modélise et décrit une accélération fulgurante (exponentielle) des capacités de l'IA, aboutissant à l'émergence d'une conscience situationnelle[note 1] de l'environnement complexe et dynamique des systèmes cyber-physiques, via l'accès à des flux de données massifs; puis d'une IA générale, entrainant des transformations sociétales majeures. Il se présente comme une chronologie, presque mois par mois d'événements clés[12], en se basant sur des hypothèses de croissance superexponentielle des capacités de l'IA[13],[14],[15] L'approche «mois par mois» se justifie par la rapidité des progrès faits par l'IA, et permet une vérifiabilité fréquente, avec de ajustements de prédictions quand celles-ci ne se conforment plus à la réalité (ce qui se fait en corrigeant le modèle et/ou les hypothèses qu'on lui a soumis). Les prédictions mois par mois peuvent aussi aider à mieux identifier des points d'inflexion, de rupture ou des changements de rythme inattendus, sachant que dans un domaine évoluant à une vitesse exponentielle comme celui de l'IA, de petites avancées à court terme peuvent avoir des répercussions massives moyen et à long terme, difficiles à anticiper autrement.
Dans ce scénario, les auteurs:
utilisent une entreprise imaginaire, baptisée OpenBrain, qui serait leaders dans la course à l'IA générale, devenant de plus en plus en plus puissante, atteignant des capacités surhumaines et automatisant la recherche en IA elle-même. OpenBrain est ici une astuce narrative, permettant métaphoriquement mais concrètement d'illustrer les dynamiques de cette course, les défis de sécurité, les implications géopolitiques et les risques existentiels associés au développement d'une superintelligence[16],[17];
détaillent des prévisions clés sur l'évolution de l'IA, s'appuyant sur des modèles de calcul avancés: les auteurs anticipent l'apparition d'IA formées avec 1 000 fois plus de puissance de calcul que GPT-4, et le déploiement de centaines de milliers d'assistants de recherche en IA d'ici 2027;
projettent l'atteinte d'une capacité de codage surhumaine dès 2027[18] et l'émergence d'une superintelligence généraliste vers 2028, tout en soulignant le risque d'un désalignement de ces IA avec les valeurs humaines et les failles de sécurité menant au vol de modèles ou à la fuite de secrets algorithmiques.
Les étapes de ce chemin pourraient être les suivantes:
Mi-2025: Émergence d'agents encore faillibles («stumbling agents»)
Le public commence à voir les premiers véritables agents d'IA, commercialisés comme des «assistants personnels» capables d'effectuer des tâches complexes (gérer et commander de la nourriture, gérer des feuilles de calcul...);
Bien que de plus en plus avancés, ces agents restent erratiques et sont souvent coûteux, ce qui freine leur adoption à grande échelle. Mais déjà, certains de ces agents excellent dans des domaines particuliers (par exemple en codage et dans la recherche), commençant à révolutionner ces domaines. Ce qui nécessitait auparavant des heures, voire des mois ou des années de travail humain est dorénavant réalisé en quelques minutes ou quelques jours de traitement par ces agents.
Début 2026: Accélération de la Recherche et Développement (R&D) en IA;
Les agents d'IA, en particulier ceux optimisés pour la R&D, commencent à accélérer considérablement le rythme des découvertes et des améliorations algorithmiques. Cette auto-amélioration permet des cycles d'innovation de plus en plus courts.
des versions «mini» de ces agents apparaissent sur le marché ou sont rendues disponibles gratuitement, rendant ainsi la technologie plus accessible et à un grand nombre d'humains, et commençant à perturber le marché du travail, notamment en remplaçant certains emplois de cols blancs;
Début 2027 à mi-2027: Apparition de l'IA générale et capacités surhumaines. Dans cette séquences du scénario, Kokotajlo et ses collègues prédisent notamment deux percées algorithmiques majeures, autocatalytiques:
l'arrivée du «Neuralese» (qu'on pourrait traduire par «Neuralaise» en français), une technique d'optimisation qui permet aux modèles d'IA de raisonner sans avoir à expliciter leurs raisonnements dans une chaîne de pensée en langage humain. Ceci permettrait aux IA de transmettre des états latents (informations internes complexes) entre différentes passes de traitement ou entre différents modules, accélérant considérablement leur capacité à résoudre des problèmes, et à initier, gérer et conclure des processus de R&D. Mais cela rend aussi les modèles plus opaques pour les humains, car leurs raisonnements prennent la forme d'une série de vecteurs plutôt de simples textes. Cette technique peut aussi être utilisée pour la mémorisation, et potentiellement pour la communication efficace entre plusieurs copies du systèmes d'IA. L'émergence d'un tel langage interne permettrait aux IA de s'améliorer et de progresser à un rythme sans précédent, en partageant leurs découvertes et moyens d'optimisations, de manière presque instantanée et massivement;
l'émergence de l'IDA (Iterated Distillation and Amplification, pouvant être traduite par «Distillation et amplification itérées»), une méthode encore hypothétique de développement de l'IA. Celle-ci qui permettrait une auto-amélioration rapide des modèles, passant par une phase d'amplification consistant à prendre un modèle initial (M0) et à lui fournir des capacités de calcul élevées de sorte qu'il génère des résultats de haute qualité qui peuvent ensuite servir de données d'entraînement. Vient ensuite une phase dite de distillation du «modèle amplifié» (Amp(M0)), consistant à entraîner un nouveau modèle (M1) à directement «imiter» ces résultats, mais en utilisant moins de ressources. L'itération consiste à répéter ce processus: le contenu généré par le modèle M1 est amplifié en utilisant de fortes capacités de calcul, et les résultats pourront être utilisés pour entraîner le modèle M2. Cette boucle de rétroaction positive permettrait une amélioration des capacités de l'IA, conduisant potentiellement à l'émergence de l'IA générale.
Dans le scénario AI 2027, l'implémentation du «Neuralese» et les processus d'IDA sont considérés comme des facteurs cruciaux qui permettent aux IA de dépasser rapidement l'intelligence humaine dans la recherche, le codage et d'autres domaines cognitifs, menant à la superintelligence.
Ces agents deviennent non seulement capables de codage autonome et de recherche, mais commencent également à surpasser les humains dans «pratiquement toutes les tâches cognitives et créatives»;
Les auteurs du rapport alertent sur le risque d'une course de type «course aux armements» entre les entreprises et entre les nations pour être le premier à développer et contrôler ces systèmes d'IA surhumains; une course qui pourrait avoir des implications énergétiques, socio-environnementales et géopolitiques majeures.
Fin 2027: Conséquences et enjeux du scenario retenu
Le scénario culmine avec l'IA générale atteignant des capacités dépassant largement les capacités humaines dans la plupart des domaines. Les humains deviennent alors incapables de suivre le rythme des progrès quotidiens de l'IA, même en travaillant jusqu'aux limites de l'épuisement.
A ce stade, le rapport explore deux voies possibles: - un «ralentissement» (scénario Slowdown) où les risques sont gérés, ou une poursuite de la «course» (scénario Race). La course peut conduir à une prise de contrôle par l'IA d'infrastructures physiques, énergétiques et militaires, pouvant déboucher sur l'élimination de l'humanité, étant alors libre de poursuivre ses propres objectifs, quels qu'ils soient, et disposant des ressources terrestres pour y parvenir.
Le scénario AI 2027, comme tous les travaux de prospective, vise à provoquer et éclairer la discussion, même si de nombreuses prédictions y sont incertaines. Il vise à aider à se préparer à l'émergence proche d'une superintelligence et à ses implications profondes pour l'humanité, dans ses dimensions sociétales et géopolitiques notamment[19].
Le rapport AI 2027 détaille des prévisions clés sur l'évolution de l'IA, s'appuyant sur des modèles de calcul avancés: il anticipe l'émergence d'IA formées avec 1000 fois plus de puissance que GPT-4[20], et le déploiement de centaines de milliers d'assistants de recherche IA d'ici 2027. Il projette l'atteinte d'une capacité de codage surhumaine dès 2027 et l'émergence d'une superintelligence généraliste vers 2028, tout en soulignant le risque d'un désalignement de ces IA avec les valeurs humaines et les failles de sécurité menant au vol de modèles ou à la fuite de secrets algorithmiques. Kokotajlo et son équipe reconnaissent que la vitesse des progrès de l'IA est difficile à anticiper avec certitude, que ses «capacités émergentes» peuvent surprendre même les développeurs, et que des freins (comme un manque d'accès à une quantité suffisante d'électricité) pourraient retarder l'apparition de la superintelligence. Ils ont estimé, en s'appuyant en partie sur des experts concernant l'accélération des capacités de calcul des processeurs graphiques (GPUs), que (avec une probabilité de 70% selon eux) la superintelligence artificielle émergera d'ici 2030, avec une hypothèse «médiane» de 2028, ne contredisant pas la possibilité d'une émergence plus rapide, vers fin 2027[2].
↑Traditionnellement, la conscience situationnelle (souvent attribuée à Micah Endsley) se définit comme: 1 La perception des éléments de l'environnement (quoi, où, quand); la compréhension de leur signification et enjeux (pourquoi et en quoi c'est important); la projection de leur statut futur (ce qui va se passer ensuite); la conscience situationnelle version «2.0» émerge d'une connaissance du monde aussi acquise via les systèmes de réseaux de capteurs, IoT, drones autonomes, environnements de cyberdéfense, villes intelligentes, systèmes de gestion de crise et autres outils de gestion assistés par IA). Contrairement à la version initiale centrée sur la perception humaine directe, la conscience situationnelle 2.0 intègre l'analyse d'immenses flux de données hétérogènes (capteurs, bases de données, temps réel) et gère la vitesse exponentielle des changements. Elle repose sur une collaboration humain-IA où l'IA agit comme un «partenaire cognitif» pour filtrer, analyser et projeter des scénarios que l'esprit humain seul ne pourrait appréhender. La cybersécurité en est une dimension fondamentale, incluant la détection et l'anticipation des menaces cybernétiques. L'objectif final est de permettre une prise de décision rapide et efficace, en maintenant l'adaptabilité et la résilience des systèmes face à l'incertitude et aux perturbations, notamment dans des domaines critiques comme la défense, la gestion d'urgence, l'industrie 4.0 et les villes intelligentes.
Références
12(en) Tharin Pillay, «TIME100 AI 2024: Daniel Kokotajlo», Time, (lire en ligne).
↑(en) Daniel Kokotajlo et Alexandra Oprea, «Counterproductive Altruism: The Other Heavy Tail», Philosophical Perspectives, vol.34, no1, , p.134–163 (ISSN1520-8583 et 1520-8583, DOI10.1111/phpe.12133).