Daniel Kokotajlo (chercheur)

From Wikipedia, the free encyclopedia

Daniel Kokotajlo est un philosophe et chercheur en intelligence artificielle (IA), qui a notamment travaillé au sein de la division gouvernance d'OpenAI de 2022 à 2024[1]. Il a volontairement quitté cette entreprise en raison de préoccupations éthiques concernant le développement de l'IA générale, qu'il jugeait imprudent à OpenAI. Il a ensuite co-fondé le think tank américain AI Futures, dont il est devenu directeur exécutif et qui agit dans le domaine de la prospective de l'IA[2]. Il est parfois présenté comme l'un des lanceurs d'alerte ayant attiré l'attention sur les risques posés par l'avènement, qu'il estime proche, de l'intelligence artificielle générale et de la « superintelligence artificielle », en particulier sur les risques existentiels posés par l'intelligence artificielle. Il a proposé en 2025 un scénario nommé AI 2027, explorant notamment l'idée d'une explosion d'intelligence avant fin 2027, suivie par une transition rapide vers la superintelligence. Ses travaux sont cités dans les discussions sur l'avenir de l'IA et la singularité technologique.

Daniel Kokotajlo s'est inscrit en doctorat en philosophie à l'université de Caroline du Nord à Chapel Hill, où il a reçu la bourse Maynard Adams 2018-2019 pour les sciences humaines[3]. Selon sa page PhilPeople, quand il était étudiant, il s'est notamment intéressé à la philosophie de l'esprit, à l'éthique appliquée, à l'éthique normative, à la philosophie de l'informatique et de l'information, à la philosophie des probabilités ainsi qu'à la philosophie des sciences.

Il s'y est aussi intéressé à l'« altruisme efficace » et a co-écrit un article sur ce thème (publié en 2022), avec Alexandra Oprea (de l'Australian National University), intitulé « Counterproductive Altruism : The Other Heavy Tail ». Il y estime que la philosophie de l'altruisme efficace (EA) comporte un biais, car dans ses analyses statistiques basés sur le concept de « queue lourde » (ou « distribution à queue lourde », Heavy Tail Hypothesis ou HTH pour les anglophones), la théorie de l'altruisme efficace insiste sur l'ampleur et la portée des effets secondaires « positifs » induits (avec un postulat qui est que les meilleures opportunités d'action produisent un bien commun significativement supérieur aux actions moyennes). Kokotajlo et Oprea, dans leur article, montrent que l'on devrait accorder la même valeur aux arguments quand ils plaident pour l'induction d'un effet négatif, car si, quand et où certaines interventions ciblées selon les règles de l'altrusime efficace s'avèrent contre-productives, elles peuvent alors causer des dommages considérablement plus importants que d'autres. L'intégration de cette perspective a des implications majeures pour la recherche sur l'efficacité des choix d'actions à aider, la priorisation des causes à financer et l'évaluation des interventions altruistes[4].

À partir de 2020, son parcours l'a progressivement orienté de la philosophie à la recherche sur les impacts globaux de l'IA (et sur la sécurité de l'IA), notamment à AI Impacts, au Center on Long-Term Risk, puis chez OpenAI, vers les implications éthiques et sociétales de l'intelligence artificielle.

En 2022, il a été embauché comme chercheur au sein de la « division gouvernance » d'OpenAI[1].

Kokotajlo a fait partie d'un groupe d'employés d'OpenAI qui a joué un rôle de lanceur d'alerte, affirmant que l'entreprise avait une culture secrète et imprudente, lui faisant prendre de graves risques, dans sa précipitation à vouloir atteindre l'intelligence artificielle générale[5],[6].

Quand il a démissionné en 2024, il a refusé de signer la clause de non-dénigrement d'OpenAI, ce qui aurait pu lui coûter environ 2 millions de dollars en capitaux propres[7]. En , il dit avoir conservé les capitaux propres acquis en travaillant chez OpenAI[8],[9]. En , lui et d'autres anciens employés d'OpenAI ont signé une lettre affirmant que les entreprises à la pointe de l'IA ont de fortes incitations financières les poussant à éviter la surveillance. Avec ses cosignataires, il appelle à l'établissement d'un « droit à alerter » sans crainte de représailles quant aux risques liés à l'IA ; tout en protégeant l'anonymat des lanceurs d'alerte[10]. Il a ensuite ensuite dédié une grande partie de son temps à la prospective de l'intelligence artificielle.

Kokotajlo a été invité à des podcasts et interviews où il partage ses analyses et ses prévisions sur l'IA, avec par exemple :

  • les podcasts « Why the AI Race Ends in Disaster » avec le Future of Life Institute ;
  • des interviews sur des sujets comme « OpenAI whistleblower Daniel Kokotajlo on superintelligence and existential risk of AI » avec GZERO Media.

Prospective

Notes et références

Voir aussi

Related Articles

Wikiwand AI