Historia de la inteligencia artificial

La historia de la inteligencia artificial (IA) comenzó en la antigüedad, con mitos, historias y rumores sobre seres artificiales dotados de inteligencia o conciencia por parte de maestros artesanos. Las semillas de la IA moderna fueron plantadas por filósofos que intentaron describir el proceso del pensamiento humano como la manipulación mecánica de símbolos. Este trabajo culminó con la invención de la computadora digital programable en la década de 1940, una máquina basada en la esencia abstracta del razonamiento matemático. Este dispositivo y las ideas detrás de él inspiraron a un puñado de científicos a comenzar a discutir seriamente la posibilidad de construir un cerebro electrónico.

El campo de la investigación de la IA se fundó en una conferencia celebrada en el campus del Dartmouth College, en Estados Unidos, durante el verano de 1956.^[1]Aquellos que asistieron se convertirían en los líderes de la investigación en IA durante décadas. Muchos de ellos predijeron que una máquina tan inteligente como un ser humano existiría en no más de una generación, y recibieron millones de dólares para hacer realidad esta visión.^[2]

Al final, resultó evidente que los investigadores habían subestimado enormemente la dificultad del proyecto. En 1974, en respuesta a las críticas de James Lighthill y a la presión constante del Congreso de Estados Unidos, los gobiernos de Estados Unidos y Gran Bretaña dejaron de financiar investigaciones no dirigidas sobre inteligencia artificial. Siete años más tarde, una iniciativa visionaria del gobierno japonés inspiró a los gobiernos y a la industria a proporcionar a la IA miles de millones de dólares, pero a finales de la década de 1980 los inversores se desilusionaron y volvieron a retirar la financiación. Los años difíciles que siguieron se conocerían más tarde como el «invierno de la IA» (AI Winter en inglés). La IA fue criticada en la prensa y evitada por la industria hasta mediados de la década de 2000, pero la investigación y la financiación continuaron creciendo bajo otros nombres.

En los años 1990 y principios de 2000, el aprendizaje automático se aplicó a muchos problemas en la academia y la industria. El éxito se debió a la disponibilidad de hardware informático potente, la recopilación de conjuntos de datos inmensos y la aplicación de sólidos métodos matemáticos. En 2012, el aprendizaje profundo demostró ser una tecnología revolucionaria, eclipsando todos los demás métodos. La arquitectura del transformador debutó en 2017 y se utilizó para producir aplicaciones de IA generativa. La inversión en IA se disparó en la década de 2020.

Precursores

Precursores míticos, ficticios y especulativos

Mitos y leyendas

En la mitología y el folclore cuentan con representaciones de autómatas y formas de vida artificial de aspecto humano similares.

En la mitología griega, Talos era una criatura de bronce que actuaba como guardián de la isla de Creta.^[3]

Los alquimistas de la Edad de Oro del islam, como Yabir ibn Hayyan, intentaron el Takwin, la creación artificial de vida, incluida la vida humana, aunque esto pudo haber sido metafórico.^[4]

En el folclore judío de la Edad Media, un Golem era una escultura de arcilla que, según se decía, cobraba vida al insertar en su boca un trozo de papel con cualquiera de los nombres de Dios.^[5] El alquimista suizo del siglo XVI Paracelso describió un procedimiento que, según él, fabricaría un homúnculo, u hombre artificial.^[6] Las cabezas de bronce fueron un motivo recurrente en el folclore de finales de la Edad Media y principios de la Edad Moderna.^[7]

Leyendas medievales de seres artificiales

En De la Naturaleza de las Cosas, escrito por el alquimista suizo Paracelso, describe un procedimiento que afirma puede fabricar un «hombre artificial». Al colocar el «esperma de un hombre» en estiércol de caballo y alimentarlo con el «Arcano de la sangre humana» después de 40 días, la mezcla se convertirá en un infante vivo.^[8]

El relato escrito más antiguo sobre la fabricación de golems se encuentra en los escritos de Eleazar ben Judá de Worms a principios del siglo XIII.^[9]Durante la Edad Media, se creía que la animación de un Golem se podía lograr insertando un trozo de papel con cualquiera de los nombres de Dios en la boca de la figura de arcilla.^[10]A diferencia de los autómatas legendarios como Brazen Heads,^[7] un Golem no podía hablar.^[11]

Takwin, la creación artificial de vida, era un tema frecuente en los manuscritos alquímicos ismaelitas, especialmente los atribuidos a Jabir ibn Hayyan. Los alquimistas islámicos intentaron crear una amplia gama de formas de vida a través de su trabajo, desde plantas hasta animales.^[12]

En Fausto: La segunda parte de la tragedia de Johann Wolfgang von Goethe, un homúnculo fabricado alquímicamente, destinado a vivir eternamente en el frasco en el que fue creado, se esfuerza por nacer en un cuerpo humano completo. Sin embargo, al inicio de esta transformación, el frasco se rompe y el homúnculo muere.^[13]

Ficción moderna

Para el siglo XIX, las ideas sobre hombres artificiales y máquinas pensantes se desarrollaron en la ficción, como en «Frankenstein» de Mary Shelley o «R.U.R.» (Rossum's Universal Robots) de Karel Čapek,^[14] y en la especulación, como en «Darwin among the Machines» de Samuel Butler,^[15] y en casos del mundo real, incluyendo «Maelzel's Chess Player» de Edgar Allan Poe. La IA es un tema común en la ciencia ficción hasta el presente.^[16]

Razonamiento formal

La inteligencia artificial se basa en la suposición de que el proceso del pensamiento humano puede ser mecanizado. El estudio del razonamiento mecánico o «formal» tiene una larga historia. Los filósofos chinos, indios y griegos desarrollaron todos métodos estructurados de deducción formal para el primer milenio antes de Cristo. Sus ideas fueron desarrolladas a lo largo de los siglos por filósofos como Aristóteles (quien dio un análisis formal del silogismo),^[17]Euclides (cuyos elementos fueron un modelo de razonamiento formal), al-Juarismi (quien desarrolló el álgebra y dio su nombre a la palabra «algoritmo») y filósofos escolásticos europeos como Guillermo de Ockham y Duns Scoto.^[18] Al-Juarismi (s. IX d.C.): Introdujo el concepto de algoritmo, que es la base operativa de cualquier máquina lógica o de cálculo. Estableció que los problemas pueden resolverse mediante una secuencia finita de pasos lógicos definidos^[19]

^[20]^[21]^[21]

En el siglo XVII, Leibniz, Thomas Hobbes y René Descartes exploraron la posibilidad de que todo pensamiento racional pudiera volverse tan sistemático como el álgebra o la geometría.^[22]Hobbes escribió en Leviatán: «Porque la razón... no es más que calcular, es decir, sumar y restar».^[23]Leibniz imaginó un lenguaje universal del razonamiento, la characteristica universalis, que reduciría la argumentación a cálculo, de modo que «no habría más necesidad de disputa entre dos filósofos que entre dos contables. Porque bastaría tomar sus lápices en la mano, bajar a sus pizarras y decirse el uno al otro (con un amigo como testigo, si quisieran): Vamos a calcular».^[24]Estos filósofos habían comenzado a articular la hipótesis del sistema de símbolos físicos que se convertiría en la fe rectora de la investigación de la IA.

El estudio de la lógica matemática proporcionó el avance esencial que hizo que la inteligencia artificial pareciera plausible. Las bases se habían sentado con obras como Las leyes del pensamiento de Boole y Begriffsschrift de Frege.^[25]Basándose en el sistema de Frege, Russell y Whitehead, presentaron un tratamiento formal de los fundamentos de las matemáticas en su obra maestra, los Principia Mathematica, en 1913. Inspirado por el éxito de Russell, David Hilbert desafió a los matemáticos de los años 20 y 30 a responder esta pregunta fundamental: «¿puede formalizarse todo el razonamiento matemático?».^[18]Su pregunta fue respondida por la prueba de incompletitud de Gödel,^[26] la máquina de Turing^[26] y el cálculo Lambda de Church.^[28]

Su respuesta fue sorprendente en dos aspectos. Primero, demostraron que, de hecho, existían límites a lo que la lógica matemática podía lograr. Pero segundo (y más importante para la IA), su trabajo sugirió que, dentro de estos límites, cualquier forma de razonamiento matemático podía ser mecanizada. La tesis de Church-Turing implicaba que un dispositivo mecánico, manipulando símbolos tan simples como 0 y 1, podía imitar cualquier proceso concebible de deducción matemática.^[26]La idea clave fue la máquina de Turing, una construcción teórica simple que capturó la esencia de la manipulación de símbolos abstractos.^[29]Este invento inspiraría a un puñado de científicos a comenzar a discutir la posibilidad de máquinas pensantes.

Ciencias de la computación

Las máquinas calculadoras fueron diseñadas o construidas en la antigüedad y a lo largo de la historia por muchas personas, entre ellas Gottfried Leibniz, Joseph Marie Jacquard, Charles Babbage, Percy Ludgate, Leonardo Torres Quevedo, Vannevar Bush, y otros. Ada Lovelace especuló que la máquina de Babbage era «una máquina pensante o... razonadora», pero advirtió que «es deseable protegerse contra la posibilidad de que surjan ideas exageradas en cuanto a los poderes de la máquina».^[30]^[31]

Los primeros computadores modernos fueron las máquinas masivas de la Segunda Guerra Mundial (como la Z3 de Konrad Zuse, la Heath Robinson y la Colossus de Alan Turing, y la Berry en la Universidad de Pensilvania).^[32] La ENIAC se basó en los fundamentos teóricos establecidos por Alan Turing y desarrollada por John von Neumann,^[33] y demostró ser la más influyente.^[32]

Nacimiento de la IA (1941-56)

Las primeras investigaciones sobre máquinas pensantes se inspiraron en una confluencia de ideas que se volvieron prevalentes a finales de la década de 1930, 1940 y principios de la de 1950. Investigaciones recientes en neurología habían demostrado que el cerebro era una red eléctrica de neuronas que disparaban en pulsos todo o nada. La cibernética de Norbert Wiener describió el control y la estabilidad en las redes eléctricas. La teoría de la información de Claude Shannon describió las señales digitales (es decir, señales «todo o nada»). La teoría de la computación de Alan Turing demostró que cualquier forma de computación podía describirse digitalmente. La estrecha relación entre estas ideas sugirió que podría ser posible construir un «cerebro electrónico».

En las décadas de 1940 y 1950, un puñado de científicos de diversos campos (matemáticas, psicología, ingeniería, economía y ciencias políticas) exploraron varias direcciones de investigación que serían vitales para la investigación posterior de la IA.^[34]Alan Turing fue uno de los primeros en investigar seriamente la posibilidad teórica de la «inteligencia artificial». El campo de la «investigación en inteligencia artificial» se fundó como disciplina académica en 1956.^[35]^[36]

Test de Turing

Artículo principal: Test de Turing

En 1950, Turing publicó un artículo histórico denominado «Computing Machinery and Intelligence», en el que especulaba sobre la posibilidad de crear máquinas que piensen.^[37]^[38]En el artículo, señaló que «pensar» es difícil de definir e ideó su famosa prueba de Turing: Si una máquina pudiera mantener una conversación (a través de un teletipo) que fuera indistinguible de una conversación con un ser humano, entonces era razonable decir que la máquina estaba «pensando».^[39]Esta versión simplificada del problema permitió a Turing argumentar de manera convincente que una «máquina pensante» era al menos plausible y el artículo respondió a todas las objeciones más comunes a la proposición.

Redes neuronales artificiales

Walter Pitts y Warren McCulloch analizaron redes de neuronas artificiales idealizadas y mostraron cómo podrían realizar funciones lógicas simples en 1943.^[40]^[41]Fueron los primeros en describir lo que los investigadores posteriores llamarían una red neuronal.^[42]El artículo fue influenciado por el artículo de Turing «Sobre números computables» de 1936 utilizando neuronas booleanas de dos estados similares, pero fue el primero en aplicarlo a la función neuronal.^[35]Uno de los estudiantes inspirados por Pitts y McCulloch fue Marvin Minsky, que en ese momento era un estudiante de posgrado de 24 años. En 1951, Minsky y Dean Edmonds construyeron la primera máquina de red neuronal, la SNARC.

Robots cibernéticos

En la década de 1950 se construyeron robots experimentales como las tortugas de W. Gray Walter y la Bestia de Johns Hopkins, que no utilizaban computadoras, electrónica digital ni razonamiento simbólico, sino que estaban controlados completamente por circuitos analógicos. En contraste, en 2024 se presentó un perro robot basado en inteligencia artificial, pensado tanto como compañía en el hogar como para brindar ayuda profesional, activado mediante la plataforma de computación en el borde NVIDIA Jetson Orin.

Inteligencia artificial en juegos

Artículo principal: Inteligencia artificial (videojuegos)

En 1951, utilizando la máquina Ferranti Mark 1 de la Universidad de Mánchester, Christopher Strachey escribió un programa de damas y Dietrich Prinz uno de ajedrez.^[43]El programa de damas de Arthur Samuel, tema de su artículo de 1959 «Algunos estudios sobre aprendizaje automático utilizando el juego de damas», finalmente alcanzó la habilidad suficiente para desafiar a un experto.^[44]

El razonamiento simbólico y la teoría de la lógica

Artículo principal: Teoría (lógica)

Cuando el acceso a las computadoras digitales se hizo posible a mediados de los cincuenta, algunos científicos reconocieron instintivamente que una máquina que podía manipular números también podía manipular símbolos, y que la manipulación de símbolos bien podría ser la esencia del pensamiento humano. Este fue un nuevo enfoque para crear máquinas pensantes.^[45]

En 1955, Allen Newell y el futuro Premio Nobel Herbert A. Simon crearon el «Logic Theorist», con la ayuda de J. C. Shaw. El programa eventualmente demostraría 38 de los primeros 52 teoremas en Principia Mathematica de Russell y Whitehead, y encontraría pruebas nuevas y más elegantes para algunos.^[46]Simon dijo que habían «resuelto el venerable problema mente/cuerpo, explicando cómo un sistema compuesto de materia puede tener las propiedades de la mente».^[47]Esta fue una de las primeras declaraciones de la posición filosófica que John Searle más tarde llamaría «IA fuerte»: que las máquinas pueden contener mentes tal como lo hacen los cuerpos humanos.^[48]

Conferencia de Dartmouth

Artículo principal: Conferencia de Dartmouth

El taller de Dartmouth de 1956 fue un acontecimiento fundamental que marcó el inicio formal de la inteligencia artificial (IA) como disciplina académica. Fue organizado por Marvin Minsky y John McCarthy, con el apoyo de dos científicos sénior de IBM, Claude Shannon y Nathan Rochester. La propuesta de la conferencia declaraba que se pretendía poner a prueba la afirmación de que “todo aspecto del aprendizaje o cualquier otra característica de la inteligencia puede describirse con tal precisión que una máquina pueda ser construida para simularlo”.^[49]^[52] El término “inteligencia artificial” fue introducido por John McCarthy en el taller.^[56]

Entre los participantes se encontraban Ray Solomonoff, Oliver Selfridge, Trenchard More, Arthur Samuel, Allen Newell y Herbert A. Simon, todos los cuales desarrollarían programas importantes durante las primeras décadas de investigación en IA.^[57]^[58]

En el taller, Newell y Simon presentaron el “Logic Theorist”.^[59] El taller fue el momento en que la IA obtuvo su nombre, su misión, su primer gran éxito y sus principales protagonistas, y es ampliamente considerado el nacimiento de la inteligencia artificial.^[61]

Revolución cognitiva

En el otoño de 1956, Newell y Simon también presentaron el Logic Theorist en una reunión del Grupo de Interés Especial en Teoría de la Información en el Instituto Tecnológico de Massachusetts (MIT). En la misma reunión, Noam Chomsky discutió su gramática generativa, y George Miller describió su artículo histórico «El número mágico siete, más o menos dos». Miller escribió: «Salí del simposio con la convicción, más intuitiva que racional, de que la psicología experimental, la lingüística teórica y la simulación por computadora de los procesos cognitivos eran todas piezas de un todo más grande».^[62]

Esta reunión marcó el inicio de la «revolución cognitiva», un cambio de paradigma interdisciplinario en psicología, filosofía, ciencias de la computación y neurociencia. Inspiró la creación de los subcampos de inteligencia artificial simbólica, lingüística generativa, ciencia cognitiva, psicología cognitiva, neurociencia cognitiva y las escuelas filosóficas del computacionalismo y el funcionalismo. Todos estos campos utilizaron herramientas relacionadas para modelar la mente, y los resultados descubiertos en uno de ellos eran relevantes para los demás.

El enfoque cognitivo permitió a los investigadores considerar «objetos mentales» como pensamientos, planes, metas, hechos o recuerdos, a menudo analizados utilizando símbolos de alto nivel en redes funcionales. Estos objetos habían sido prohibidos como «inobservables» por paradigmas anteriores como el conductismo. Los objetos mentales simbólicos se convertirían en el principal foco de investigación y financiación de la IA durante las siguientes décadas.

Primeros éxitos (1956-1974)

Los programas desarrollados en los años posteriores al Taller de Dartmouth fueron, para la mayoría de la gente, simplemente «asombrosos»:^[63]Las computadoras resolvían problemas planteados de álgebra, demostraban teoremas de geometría y aprendían a hablar inglés. Pocos en aquel momento habrían creído que un comportamiento tan «inteligente» por parte de las máquinas fuera posible.^[64]Los investigadores expresaron un intenso optimismo en privado y en la prensa, prediciendo que se construiría una máquina totalmente inteligente en menos de 20 años.^[65]Agencias gubernamentales como la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA, entonces conocida como «ARPA») invirtieron dinero en este campo. A finales de los años cincuenta y principios de los sesenta se crearon laboratorios de inteligencia artificial en varias universidades británicas y estadounidenses.^[35]

Enfoques

Hubo muchos programas exitosos y nuevas direcciones a finales de los años cincuenta y sesenta.

Razonamiento como búsqueda

Muchos de los primeros programas de IA utilizaban el mismo algoritmo básico. Para alcanzar algún objetivo (como ganar un juego o demostrar un teorema), procedían paso a paso hacia él (haciendo un movimiento o una deducción) como si estuvieran buscando en un laberinto, retrocediendo cada vez que llegaban a un callejón sin salida.

La principal dificultad era que, para muchos problemas, el número de posibles caminos a través del «laberinto» era astronómico (una situación conocida como «explosión combinatoria»). Los investigadores reducían el espacio de búsqueda utilizando heurísticas que eliminaban caminos que parecían poco probables de llevar a una solución.^[66]

Newell y Simon intentaron capturar una versión general de este algoritmo en un programa llamado «General Problem Solver».^[67]Otros programas de 'búsqueda' pudieron lograr tareas impresionantes como resolver problemas de geometría y álgebra, como el Geometry Theorem Prover (1958) de Herbert Gelernter y el Symbolic Automatic Integrator (SAINT), escrito por James Slagle, estudiante de Minsky, en 1961.^[68]Otros programas buscaban metas y submetas para planificar acciones, como el sistema STRIPS desarrollado en Stanford para controlar el comportamiento del robot Shakey.^[69]

Lenguaje natural

Un objetivo importante de la investigación de la IA es permitir que las computadoras se comuniquen en lenguajes naturales como el inglés. Uno de los primeros éxitos fue el programa STUDENT de Daniel Bobrow, que podía resolver problemas planteados de álgebra de la escuela secundaria.^[70]

Una red semántica representa conceptos (por ejemplo, «casa», «puerta») como nodos, y relaciones entre conceptos como vínculos entre los nodos. El primer programa de IA que utilizó una red semántica fue escrito por Ross Quillian,^[71]y la versión más exitosa (y controvertida) fue la teoría de la dependencia conceptual de Roger Schank.^[71]

El programa informático ELIZA fue el primer chatbot que podía llevar a cabo conversaciones tan realistas que los usuarios ocasionalmente eran engañados al pensar que estaban comunicándose con un ser humano y no con un programa de computadora. Pero en realidad, ELIZA simplemente daba una respuesta enlatada o repetía lo que se le decía, reformulando su respuesta con algunas reglas gramaticales. ^[72]

Micromundos

A finales de los años 60, Marvin Minsky y Seymour Papert, del Laboratorio de IA del MIT, propusieron que la investigación en IA debería centrarse en situaciones artificialmente simples conocidas como micromundos. Señalaron que en ciencias exitosas como la física, los principios básicos a menudo se entendían mejor utilizando modelos simplificados como planos sin fricción o cuerpos perfectamente rígidos. Gran parte de la investigación se centró en un «mundo de bloques», que consiste en bloques de colores de diversas formas y tamaños dispuestos sobre una superficie plana.^[73]

Este paradigma condujo a un trabajo innovador en visión por computadora por parte de Gerald Sussman, Adolfo Guzmán, David Waltz (quien inventó la «propagación de restricciones») y, especialmente, Patrick Winston. Al mismo tiempo, Minsky y Papert construyeron un brazo robótico que podía apilar bloques, dando vida al mundo de los bloques. El programa SHRDLU de Terry Winograd podía comunicarse en oraciones comunes en inglés sobre el micromundo, planificar operaciones y ejecutarlas.^[74]

Optimismo

La primera generación de investigadores de IA hizo estas predicciones sobre su trabajo:

1958: H. A. Simon y Allen Newell: «dentro de diez años una computadora digital será el campeón mundial de ajedrez» y «dentro de diez años una computadora digital descubrirá y demostrará un nuevo e importante teorema matemático».^[75]
1965: H. A. Simon: «las máquinas serán capaces, dentro de veinte años, de realizar cualquier trabajo que el hombre pueda realizar».^[76]
1967: Marvin Minsky: «Dentro de una generación... el problema de crear 'inteligencia artificial' estará sustancialmente resuelto».^[77]
1970: Marvin Minsky (en la revista Life): «Dentro de tres a ocho años tendremos una máquina con la inteligencia general de un ser humano medio».^[78]

Financiación

En junio de 1963, el MIT recibió una subvención de $2.2 millones de la recién creada Agencia de Proyectos de Investigación Avanzada (ARPA, más tarde conocida como DARPA). El dinero se utilizó para financiar el proyecto MAC, que absorbió el "Grupo de IA" fundado por Minsky y McCarthy cinco años antes. DARPA continuó proporcionando $3 millones cada año hasta la década de 1970.^[79]

Primer invierno de la IA (1974–1980)

En la década de 1970, la inteligencia artificial sufrió críticas y retrocesos financieros. Los investigadores del área no habían comprendido la verdadera dificultad de los problemas que enfrentaban. Su enorme optimismo había elevado las expectativas públicas a niveles imposibles y, cuando los resultados prometidos no se materializaron, la financiación destinada a la IA se redujo drásticamente.^[80] La falta de éxito indicaba que las técnicas utilizadas por los investigadores de IA en ese momento eran insuficientes para alcanzar sus objetivos.^[81]^[82]

Sin embargo, estos contratiempos no detuvieron el crecimiento ni el progreso del campo. Los recortes de fondos afectaron solo a unos pocos laboratorios importantes,^[83] y las críticas fueron en gran parte ignoradas.^[84] El interés del público general por la disciplina continuó creciendo,^[83] el número de investigadores aumentó de forma notable^[83] y se exploraron nuevas ideas en programación lógica, razonamiento de sentido común y muchas otras áreas. El historiador Thomas Haigh argumentó en 2023 que en realidad no hubo un “invierno”^[83], y el investigador de IA Nils Nilsson describió este período como el momento más “emocionante” para trabajar en inteligencia artificial.^[85]

Problemas

A comienzos de los años setenta, las capacidades de los programas de IA eran muy limitadas. Incluso los más impresionantes solo podían resolver versiones triviales de los problemas para los que habían sido diseñados;^[87] todos los programas eran, en cierto sentido, “juguetes”.^[88] Los investigadores comenzaron a toparse con varios límites que solo serían superados décadas más tarde, y otros que aún obstaculizan el campo en la década de 2020:

Potencia computacional limitada: No había suficiente memoria ni velocidad de procesamiento para lograr resultados verdaderamente útiles.^[90] Por ejemplo, el trabajo exitoso de Ross Quillian sobre lenguaje natural solo utilizó un vocabulario de 20 palabras, porque era todo lo que cabía en memoria.^[91] Hans Moravec argumentó en 1976 que las computadoras eran todavía millones de veces demasiado débiles para exhibir inteligencia. Propuso una analogía: la inteligencia artificial requiere potencia de cómputo del mismo modo en que los aviones requieren caballos de fuerza. Por debajo de cierto umbral, es imposible; pero a medida que la potencia aumenta, eventualmente podría volverse fácil. “Con suficiente potencia”, escribió, “cualquier cosa puede volar”.^[92]^[94]

Intractabilidad y la explosión combinatoria: En 1972, Richard Karp (basándose en el teorema de Cook de Stephen Cook de 1971) demostró que existen muchos problemas que solo pueden resolverse en tiempo exponencial. Encontrar soluciones óptimas requiere cantidades extraordinarias de tiempo de cómputo, excepto cuando los problemas son triviales. Esta limitación afectaba a todos los programas simbólicos de IA que utilizaban árboles de búsqueda, lo que significaba que muchas de las soluciones “de juguete” nunca podrían escalar a sistemas útiles.^[86]^[82]

Paradoja de Moravec: La investigación temprana en IA había tenido gran éxito en lograr que las computadoras realizaran tareas “inteligentes” como demostrar teoremas, resolver problemas de geometría o jugar al ajedrez. Este éxito convenció a muchos de que el problema del comportamiento inteligente estaba casi resuelto.^[95]^[96] Sin embargo, fracasaron rotundamente en tareas “no inteligentes” como reconocer un rostro o cruzar una habitación sin chocar con nada.^[95]^[97] Para la década de 1980, los investigadores comprenderían que el razonamiento simbólico era totalmente inadecuado para las tareas perceptuales y sensorio-motoras, y que este enfoque tenía límites claros.^[96]

La amplitud del conocimiento de sentido común: Muchas aplicaciones importantes de la inteligencia artificial, como la visión o el lenguaje natural, requieren enormes cantidades de información sobre el mundo: el programa necesita tener alguna idea de qué está viendo o de qué está hablando. Esto implica que el sistema debe saber casi tanto sobre el mundo como un niño. Los investigadores pronto descubrieron que esto representaba una cantidad inmensa de información —miles de millones de hechos elementales—. Nadie en 1970 podía construir una base de datos de ese tamaño, y nadie sabía cómo un programa podría aprender semejante cantidad de información.^[98]

Representar el razonamiento de sentido común: Varios problemas relacionados^[99] surgieron cuando los investigadores intentaron representar el razonamiento de sentido común mediante lógica formal o símbolos. Las descripciones de deducciones muy simples tendían a volverse cada vez más largas, ya que era necesario agregar excepciones, aclaraciones y distinciones.^[101] Sin embargo, las personas, al pensar en conceptos cotidianos, no usan definiciones precisas, sino que hacen cientos de suposiciones imprecisas que corrigen cuando es necesario, utilizando su conocimiento general del mundo. Gerald Sussman observó: “Usar un lenguaje preciso para describir conceptos esencialmente imprecisos no los hace más precisos.”^[102]

Reducción de la financiación

Véase también: Invierno IA

Las agencias que financiaban la investigación en inteligencia artificial —como el gobierno británico, DARPA y el Consejo Nacional de Investigación de Estados Unidos (NRC)— se frustraron con la falta de progreso y acabaron retirando casi todo el apoyo a la investigación no dirigida. El patrón comenzó en 1966, cuando el informe del Comité Asesor de Procesamiento Automático del Lenguaje (ALPAC) criticó los esfuerzos en traducción automática. Después de invertir 20 millones de dólares, el NRC suspendió todo apoyo.^[103] En 1973, el Informe Lighthill sobre el estado de la investigación en IA en el Reino Unido criticó el fracaso de la disciplina en alcanzar sus “objetivos grandiosos” y llevó al desmantelamiento de la investigación en IA en ese país.^[104] (El informe mencionaba específicamente el problema de la explosión combinatoria como causa de los fracasos de la IA.)^[82]^[86]^[106]

DARPA también se mostró profundamente decepcionada con los investigadores del programa de reconocimiento de voz de la Universidad Carnegie Mellon (CMU) y canceló una subvención anual de 3 millones de dólares.^[107]^[108]

Hans Moravec atribuyó la crisis a las predicciones poco realistas de sus colegas: “Muchos investigadores quedaron atrapados en una red de exageraciones crecientes.”^[109]^[110]

Otro factor fue que, tras la aprobación de la Enmienda Mansfield en 1969, DARPA estuvo bajo creciente presión para financiar “investigaciones orientadas a misiones, en lugar de investigaciones básicas no dirigidas”. La financiación para la exploración libre y creativa de los años sesenta ya no provenía de DARPA, que pasó a destinar recursos a proyectos con objetivos concretos, como tanques autónomos y sistemas de gestión de batalla.^[111]^[113]

Los grandes laboratorios (MIT, Stanford, CMU y Edimburgo) habían recibido un generoso apoyo de sus gobiernos, y al retirarse esos fondos, fueron los únicos centros gravemente afectados por los recortes presupuestarios. Los miles de investigadores fuera de esas instituciones —y los muchos miles que se incorporaban al campo— permanecieron en gran medida al margen del impacto.^[83]

Auge (1980–1987)

En la década de 1980, un tipo de programa de IA llamado "sistema experto" fue adoptado por corporaciones de todo el mundo, y el conocimiento se convirtió en el foco central de la investigación en IA. Los gobiernos brindaron un importante apoyo financiero, como el proyecto de computadoras de quinta generación de Japón y la Iniciativa de Computación Estratégica de Estados Unidos. “En general, la industria de la IA pasó de valer unos pocos millones de dólares en 1980 a miles de millones en 1988.”^[100]

Los sistemas expertos se vuelven de uso generalizado

Un sistema experto es un programa que responde preguntas o resuelve problemas dentro de un dominio específico de conocimiento, utilizando reglas lógicas derivadas del saber de expertos.^[114]

Los primeros ejemplos fueron desarrollados por Edward Feigenbaum y sus estudiantes. Dendral, iniciado en 1965, identificaba compuestos a partir de lecturas de espectrómetros.^[115]^[116] MYCIN, desarrollado en 1972, diagnosticaba infecciones en la sangre.^[100] Ambos demostraron la viabilidad del enfoque.

Los sistemas expertos se limitaban a un dominio reducido de conocimiento específico (evitando así el problema del conocimiento de sentido común)^[116] y su diseño simple facilitaba su construcción y modificación una vez implementados. En conjunto, los programas resultaron ser útiles: algo que la IA no había logrado hasta ese momento.^[117]

En 1980, un sistema experto llamado R1 fue completado en la CMU para la Digital Equipment Corporation. Fue un éxito rotundo: para 1986, ahorraba a la empresa 40 millones de dólares anuales.^[118] Las corporaciones de todo el mundo comenzaron a desarrollar y desplegar sistemas expertos, y para 1985 ya gastaban más de mil millones de dólares en IA, la mayor parte en departamentos internos.^[119] Surgió una industria para apoyarlos, incluyendo empresas de hardware como Symbolics y Lisp Machines y de software como IntelliCorp y Aion.^[120]

Aumento del financiamiento gubernamental

En 1981, el Ministerio de Comercio Internacional e Industria de Japón destinó 850 millones de dólares al proyecto de computadoras de quinta generación. Sus objetivos eran desarrollar programas y construir máquinas capaces de mantener conversaciones, traducir idiomas, interpretar imágenes y razonar como los seres humanos.^[121] Para disgusto de los “scruffies”, eligieron inicialmente Prolog como lenguaje principal del proyecto.^[122]

Otros países respondieron con programas propios. El Reino Unido inició el proyecto Alvey, de 350 millones de libras.^[123] Un consorcio de empresas estadounidenses formó la Microelectronics and Computer Technology Corporation (“MCC”) para financiar grandes proyectos en IA y tecnología de la información.^[124]^[123] DARPA también respondió, fundando la Iniciativa de Computación Estratégica y triplicando su inversión en IA entre 1984 y 1988.^[125]^[126]

Revolución del conocimiento

El poder de los sistemas expertos provenía del conocimiento especializado que contenían. Formaban parte de una nueva dirección en la investigación en IA que había ganado terreno durante los años setenta. “[L]os investigadores de IA empezaban a sospechar—con cierta renuencia, pues violaba el canon científico de la parsimonia—que la inteligencia podría depender, en gran medida, de la capacidad de usar grandes cantidades de conocimiento diverso de diferentes maneras”,^[127] escribe Pamela McCorduck. “[L]a gran lección de la década de 1970 fue que el comportamiento inteligente dependía mucho del manejo del conocimiento, a veces conocimiento bastante detallado, de un dominio donde se encontraba una tarea determinada”.^[128] Los sistemas basados en conocimiento y la ingeniería del conocimiento se convirtieron en un foco importante de la investigación en IA durante los años 1980.^[129]

Se esperaba que las grandes bases de datos resolvieran el problema del conocimiento de sentido común y brindaran apoyo al razonamiento de sentido común.

En los años 80, algunos investigadores intentaron abordar directamente el problema del conocimiento de sentido común, creando una base de datos masiva que contuviera todos los hechos cotidianos que conoce una persona promedio. Douglas Lenat, quien inició una base de datos llamada Cyc, argumentó que no existía un atajo: la única manera de que las máquinas comprendan el significado de los conceptos humanos es enseñárselos, uno por uno, manualmente.^[130]

Nuevas direcciones en la década de 1980

Aunque la representación del conocimiento simbólica y el razonamiento lógico produjeron aplicaciones útiles en los años 80 y recibieron grandes cantidades de financiación, aún no lograban resolver problemas de percepción, robótica, aprendizaje y sentido común. Un pequeño grupo de científicos e ingenieros comenzó a dudar de que el enfoque simbólico fuera suficiente para estas tareas, y desarrollaron otros métodos, como el "conexionismo", la computación blanda (soft computing) y el aprendizaje por refuerzo. Nils Nilsson denominó a estos enfoques "subsimbolicos".

Reaparición de las redes neuronales: "conexionismo"

En 1982, el físico John Hopfield demostró que una forma de red neuronal (actualmente llamada "red de Hopfield") podía aprender y procesar información, y que convergía de forma demostrable después de suficiente tiempo bajo condiciones fijas. Fue un avance importante, ya que hasta entonces se pensaba que las redes no lineales evolucionaban de manera caótica.^[131] Geoffrey Hinton probó un resultado similar con un dispositivo llamado "máquina de Boltzmann".^[132] (Hopfield y Hinton recibirían finalmente el Premio Nobel de Física en 2024 por este trabajo.^[132]) En 1986, Hinton y David Rumelhart popularizaron un método de entrenamiento de redes neuronales llamado "retropropagación".^[134] Estos tres desarrollos ayudaron a reavivar la exploración de las redes neuronales artificiales.^[100]^[135]

Las redes neuronales, junto con otros modelos similares, recibieron amplia atención tras la publicación en 1986 de Parallel Distributed Processing, una colección en dos volúmenes editada por Rumelhart y el psicólogo James McClelland. Este nuevo campo fue denominado "conexionismo", y surgió un intenso debate con los defensores de la IA simbólica.^[100] Hinton calificó a los símbolos como el "éter luminoso de la IA", es decir, un modelo inviable y engañoso de la inteligencia.^[100] Fue un ataque directo a los principios que inspiraron la revolución cognitiva.

Las redes neuronales comenzaron a mejorar el estado del arte en áreas especializadas como la predicción de estructuras proteicas. Tras el trabajo pionero de Terry Sejnowski,^[136] modelos de perceptrones multicapa en cascada como PhD^[137] y PsiPred^[138] alcanzaron una precisión cercana al máximo teórico en la predicción de estructuras secundarias.

En 1990, Yann LeCun en Bell Labs utilizó redes neuronales convolucionales para reconocer dígitos manuscritos. El sistema se usó ampliamente en los años 90 para leer códigos postales y cheques bancarios. Esta fue la primera aplicación realmente útil de las redes neuronales.^[139]^[140]

Robótica y razón incorporada

Artículo principal: Nouvelle AI

Rodney Brooks, Hans Moravec y otros argumentaron que, para demostrar verdadera inteligencia, una máquina debía tener un cuerpo: debía percibir, moverse, sobrevivir y relacionarse con el mundo.^[141] Las habilidades sensoriomotoras son esenciales para competencias de nivel superior como el razonamiento de sentido común. No pueden implementarse de manera eficiente mediante razonamiento simbólico abstracto, por lo que la IA debía abordar los problemas de percepción, movilidad, manipulación y supervivencia sin recurrir a representaciones simbólicas. Estos investigadores en robótica propusieron construir la inteligencia "de abajo hacia arriba".^[143]

Un precursor de esta idea fue David Marr, quien llegó al MIT a fines de la década de 1970 desde una exitosa carrera en neurociencia teórica para liderar el grupo de investigación en visión por computadora. Rechazó todos los enfoques simbólicos (tanto la lógica de McCarthy como los marcos de Minsky), argumentando que la IA debía comprender primero la maquinaria física de la visión antes de realizar cualquier procesamiento simbólico. (Su trabajo se vio truncado por una leucemia en 1980).^[144]

En su artículo de 1990 "Elephants Don't Play Chess",^[145] el investigador Brooks atacó directamente la hipótesis del sistema físico de símbolos, argumentando que los símbolos no siempre son necesarios, ya que "el mundo es su propio mejor modelo. Siempre está perfectamente actualizado. Siempre contiene todos los detalles que existen. El truco consiste en percibirlo adecuadamente y con la frecuencia suficiente."^[146]

Durante las décadas de 1980 y 1990, muchos científicos cognitivos también rechazaron el modelo de procesamiento simbólico de la mente y sostuvieron que el cuerpo era esencial para el razonamiento, en una teoría conocida como la "mente incorporada".^[147]

Computación blanda y razonamiento probabilístico

La computación blanda utiliza métodos que trabajan con información incompleta e imprecisa. No intentan ofrecer respuestas precisas o lógicas, sino resultados que sean solo "probablemente" correctos. Esto les permitió resolver problemas que los métodos simbólicos estrictos no podían abordar. Los medios de comunicación con frecuencia afirmaban que estas herramientas podían “pensar como un humano”.^[148]^[149]

El libro de Judea Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference (1988),^[150] introdujo la probabilidad y la teoría de la decisión en la IA.^[151] La lógica difusa, desarrollada por Lotfi Zadeh en los años 60, comenzó a aplicarse más ampliamente en la IA y la robótica. La computación evolutiva y las redes neuronales artificiales también manejan información imprecisa y se clasifican como métodos “blandos”. En los años 90 y comienzos de los 2000 se desarrollaron y aplicaron muchas otras herramientas de computación blanda, como las redes bayesianas,^[151] los modelos ocultos de Márkov,^[151] la teoría de la información y el modelado estocástico. Estas herramientas, a su vez, dependían de técnicas matemáticas avanzadas como la optimización clásica. Durante un tiempo, en los años 1990 y 2000, estas herramientas fueron estudiadas dentro de un subcampo de la IA llamado "inteligencia computacional".^[152]

Aprendizaje por refuerzo

El aprendizaje por refuerzo^[153] recompensa a un agente cada vez que realiza correctamente una acción deseada, y puede aplicar recompensas negativas (o “castigos”) cuando actúa de forma inadecuada. Fue descrito en la primera mitad del siglo XX por psicólogos que trabajaban con modelos animales, como Thorndike,^[154]^[155] Pávlov^[156] y Skinner.^[157] En la década de 1950, Alan Turing^[155]^[158] y Arthur Samuel^[155] previeron el papel que jugaría este método en la IA.

Un programa de investigación influyente fue liderado por Richard Sutton y Andrew Barto desde 1972. Su colaboración revolucionó el estudio del aprendizaje por refuerzo y la toma de decisiones durante las décadas siguientes.^[159]^[160] En 1988, Sutton describió el aprendizaje automático en términos de la teoría de la decisión (es decir, del proceso de decisión de Márkov), otorgándole una base teórica sólida y conexión con los resultados desarrollados en el campo de la investigación de operaciones.^[160]

Ese mismo año, Sutton y Barto desarrollaron el algoritmo de "aprendizaje por diferencia temporal" (Temporal Difference o TD), en el que el agente es recompensado solo cuando sus predicciones muestran mejoras. Superó significativamente a los algoritmos anteriores.^[161] El TD-learning fue utilizado por Gerald Tesauro en 1992 en el programa TD-Gammon, que jugaba backgammon al nivel de los mejores jugadores humanos. El programa aprendió jugando contra sí mismo sin conocimiento previo alguno.^[162] En un caso notable de convergencia interdisciplinaria, neurólogos descubrieron en 1997 que el sistema de recompensa dopaminérgico del cerebro también utiliza una versión del algoritmo TD.^[163]^[164]^[165] El aprendizaje por diferencia temporal se volvería altamente influyente en el siglo XXI, siendo utilizado en AlphaGo y AlphaZero.^[166]

Segundo invierno de la IA (década de 1990)

El entusiasmo del sector empresarial por la inteligencia artificial aumentó y decayó en la década de 1980 siguiendo el patrón clásico de una burbuja económica. A medida que docenas de empresas fracasaron, la percepción en el mundo de los negocios fue que la tecnología no era viable.^[167] El daño a la reputación de la IA se extendería hasta el siglo XXI. Dentro del propio campo, no existía consenso sobre las razones por las que la IA había fracasado en cumplir el sueño de alcanzar una inteligencia a nivel humano, que había capturado la imaginación del mundo en la década de 1960. En conjunto, todos estos factores contribuyeron a fragmentar la IA en subcampos competidores, centrados en problemas o enfoques específicos, a veces incluso bajo nuevos nombres que disimulaban el pedigrí deteriorado de la “inteligencia artificial”.^[168]

Durante los siguientes veinte años, la IA ofreció soluciones prácticas a problemas específicos e independientes. Hacia finales de los noventa, se utilizaba en toda la industria tecnológica, aunque de manera discreta. Su éxito se debió al aumento del poder de cómputo descrito por la Ley de Moore, a la colaboración con otros campos (como la optimización matemática y la estadística) y a la adopción de estándares científicos más rigurosos.

Invierno de la IA

El término “invierno de la IA” fue acuñado por investigadores que habían sobrevivido a los recortes de financiación de 1974, cuando comenzaron a preocuparse de que el entusiasmo por los sistemas expertos se hubiese salido de control y que la decepción sería inevitable.^[170] Sus temores resultaron fundados: a finales de los ochenta y principios de los noventa, la IA sufrió una serie de reveses financieros.^[100]

La primera señal del cambio de clima fue el colapso repentino del mercado de hardware especializado en IA en 1987. Las computadoras personales de Apple y IBM habían ido ganando velocidad y potencia, y en 1987 superaron a las costosas máquinas Lisp producidas por Symbolics y otras empresas. Ya no había una razón válida para comprarlas. Toda una industria valuada en medio billón de dólares se desmoronó de la noche a la mañana.^[171]

Con el tiempo, los primeros sistemas expertos exitosos, como XCON, resultaron demasiado costosos de mantener. Eran difíciles de actualizar, incapaces de aprender y “frágiles” (es decir, cometían errores grotescos frente a entradas inusuales). Los sistemas expertos demostraron ser útiles, pero solo en contextos muy específicos.^[172]

A finales de los ochenta, la Strategic Computing Initiative recortó la financiación a la IA “profunda y brutalmente”. La nueva dirección de la DARPA decidió que la IA no era “la próxima ola” y desvió los fondos hacia proyectos con resultados más inmediatos.^[173]

Para 1991, la impresionante lista de objetivos propuesta en 1981 para el Proyecto de la Quinta Generación de Computadoras de Japón no se había cumplido. Algunos de ellos, como “mantener una conversación casual”, no se lograrían hasta 30 años después. Como en otros proyectos de IA, las expectativas habían superado ampliamente lo que era realmente posible.^[174]^[176]

Más de 300 empresas de IA habían cerrado, quebrado o sido adquiridas hacia 1993, lo que puso fin a la primera ola comercial de la IA.^[177] En 1994, HP Newquist señaló en The Brain Makers que “el futuro inmediato de la inteligencia artificial —en su forma comercial— parece depender en parte del éxito continuado de las redes neuronales”.^[177]

IA tras bambalinas

En la década de 1990, los algoritmos desarrollados originalmente por investigadores en IA comenzaron a integrarse como componentes de sistemas más amplios. La IA había resuelto numerosos problemas difíciles y sus soluciones resultaron útiles en toda la industria tecnológica,^[178]^[179] tales como la minería de datos, la robótica industrial, la logística, el reconocimiento de voz,^[180] el software bancario,^[181] el diagnóstico médico^[181] y el motor de búsqueda de Google.^[182]^[183]

El campo de la IA recibió poco o ningún crédito por estos éxitos en los noventa y comienzos de los 2000. Muchas de sus innovaciones más importantes pasaron a ser vistas simplemente como herramientas más dentro de la informática.^[184] Nick Bostrom explicó: “Gran parte de la IA de vanguardia se ha filtrado en aplicaciones generales, a menudo sin ser llamada IA, porque una vez que algo se vuelve útil y común, deja de etiquetarse como inteligencia artificial.”^[181]

Muchos investigadores de IA en los noventa evitaron deliberadamente usar ese término y llamaron a su trabajo informática, sistemas basados en conocimiento, “sistemas cognitivos” o inteligencia computacional. En parte porque consideraban su campo distinto, pero también porque los nuevos nombres facilitaban la obtención de fondos.^[180]^[185]^[186] En el ámbito comercial, las promesas incumplidas del invierno de la IA siguieron pesando sobre la investigación durante los 2000; como reportó The New York Times en 2005: “Los científicos informáticos y los ingenieros de software evitaron el término inteligencia artificial por temor a ser vistos como soñadores sin fundamento.”^[187]

Rigor matemático, colaboración y enfoque limitado

Los investigadores comenzaron a emplear herramientas matemáticas más sofisticadas que nunca.^[188]^[189] La mayoría de las nuevas direcciones de la IA dependían de modelos matemáticos, como las redes neuronales artificiales, el razonamiento probabilístico, la computación blanda y el aprendizaje por refuerzo. Durante los noventa y los 2000, muchas otras herramientas matemáticas fueron adaptadas para la IA, aplicándose al aprendizaje automático, la percepción y la movilidad.

Hubo una comprensión generalizada de que muchos de los problemas que la IA debía resolver ya estaban siendo abordados por investigadores en estadística, matemáticas, ingeniería eléctrica, economía o investigación operativa. Este lenguaje común permitió una mayor colaboración interdisciplinaria y resultados más medibles y comprobables; la IA se convirtió en una disciplina más rigurosa y “científica”. Otro motivo clave del éxito fue que los investigadores se concentraron en problemas específicos con soluciones verificables —una estrategia que luego sería criticada como IA estrecha—, pero que generó herramientas útiles en el presente, en lugar de meras especulaciones sobre el futuro.

Agentes inteligentes

Un nuevo paradigma, el de los “agentes inteligentes”, se volvió ampliamente aceptado en los años noventa.^[190]^[191]^[193] Aunque algunos investigadores ya habían propuesto enfoques modulares o “divide y vencerás”^[194] el paradigma del agente inteligente no alcanzó su forma moderna hasta que Judea Pearl, Allen Newell, Leslie P. Kaelbling y otros incorporaron conceptos de la teoría de la decisión y la economía a la IA.^[192] Cuando la definición económica de un agente racional se combinó con la definición informática de un objeto o módulo, el paradigma quedó completo.

Un agente inteligente es un sistema que percibe su entorno y actúa para maximizar sus posibilidades de éxito. Según esta definición, tanto los programas simples que resuelven problemas específicos como los seres humanos (o incluso organizaciones humanas como las empresas) son “agentes inteligentes”. El paradigma define la investigación en IA como “el estudio de los agentes inteligentes”.^[195] Este enfoque generaliza las definiciones previas de IA: va más allá del estudio de la inteligencia humana, abarcando todas las formas de inteligencia. El paradigma permitió que los investigadores trabajaran en problemas aislados o con distintos métodos, manteniendo la esperanza de integrar sus resultados en una arquitectura de agente capaz de inteligencia general.^[196]

Hitos y la Ley de Moore

El 11 de mayo de 1997, Deep Blue se convirtió en la primera computadora en derrotar a un campeón mundial de ajedrez, Garry Kasparov.^[197] En 2005, un robot de la Universidad de Stanford ganó el DARPA Grand Challenge conduciendo de forma autónoma 131 millas a través de un terreno desértico no ensayado. Dos años más tarde, un equipo de CMU ganó el DARPA Urban Challenge al recorrer 55 millas en un entorno urbano, respetando las leyes de tránsito y reaccionando ante peligros.^[198]

Estos logros no se debieron a un nuevo paradigma revolucionario, sino al meticuloso trabajo de ingeniería y al enorme aumento en la velocidad y capacidad de las computadoras durante los noventa.^[200] De hecho, la computadora Deep Blue era diez millones de veces más rápida que la Ferranti Mark 1, a la que Christopher Strachey había enseñado a jugar ajedrez en 1951.^[201] Este crecimiento exponencial está descrito por la Ley de Moore, según la cual la velocidad y la capacidad de memoria de las computadoras se duplican cada dos años. El problema fundamental del “poder bruto de cómputo” empezaba a superarse.

Big data, aprendizaje profundo y AGI (2005–2017)

En las primeras décadas del siglo XXI, el acceso a grandes volúmenes de datos (conocidos como big data), junto con computadoras más rápidas y baratas —según la Ley de Moore— y técnicas avanzadas de aprendizaje automático, permitió aplicar con éxito estos métodos a numerosos problemas en la economía. Un punto de inflexión fue el éxito del aprendizaje profundo (deep learning) hacia 2012, que mejoró notablemente el desempeño del aprendizaje automático en tareas como el procesamiento de imágenes y videos, el análisis de texto y el reconocimiento de voz.^[202] La inversión en IA aumentó junto con sus capacidades, y para 2016 el mercado de productos, hardware y software relacionados con la IA superó los 8 mil millones de dólares. The New York Times informó que el interés por la IA había alcanzado un nivel de “frenesí”.^[203]

En 2002, Ben Goertzel y otros investigadores comenzaron a preocuparse porque la IA había abandonado en gran medida su objetivo original de producir máquinas versátiles y plenamente inteligentes. Propusieron entonces un enfoque más directo hacia la inteligencia artificial general (AGI). A mediados de la década de 2010 se fundaron varias empresas e instituciones con ese propósito, como OpenAI y DeepMind de Google. Durante el mismo período, nuevos análisis sobre la superinteligencia generaron preocupación sobre la posibilidad de que la IA representara una amenaza existencial. A partir de 2016, los riesgos y consecuencias no deseadas de la tecnología de IA se convirtieron en un campo importante de investigación académica.

Big data y grandes máquinas

El éxito del aprendizaje automático en los años 2000 dependió de la disponibilidad de enormes cantidades de datos de entrenamiento y de computadoras más potentes.^[204] Russell y Norvig escribieron que “la mejora en el rendimiento obtenida al aumentar el tamaño del conjunto de datos en dos o tres órdenes de magnitud supera cualquier mejora que pueda lograrse ajustando el algoritmo”.^[139] Geoffrey Hinton recordaba que en los 80 y 90 el problema era que “nuestros conjuntos de datos etiquetados eran miles de veces demasiado pequeños y nuestras computadoras millones de veces demasiado lentas”.^[205] Esto dejó de ser cierto hacia 2010.

Los datos más útiles de la década de 2000 provenían de conjuntos curados y etiquetados creados específicamente para el aprendizaje automático. En 2007, un grupo de la Universidad de Massachusetts Amherst publicó Labeled Faces in the Wild, un conjunto de imágenes de rostros ampliamente utilizado para entrenar y evaluar sistemas de reconocimiento facial.^[206] Fei-Fei Li desarrolló ImageNet, una base de datos con tres millones de imágenes etiquetadas por voluntarios mediante Amazon Mechanical Turk. Publicada en 2009, se convirtió en un valioso cuerpo de datos de entrenamiento y en un referente para probar sistemas de procesamiento de imágenes.^[207]^[139]

En 2013, Google lanzó word2vec como recurso de código abierto. Este modelo utilizaba grandes cantidades de texto extraído de internet y incrustación de palabras (word embedding) para crear vectores numéricos que representaban cada palabra. Sorprendentemente, lograba capturar relaciones semánticas: por ejemplo, las operaciones vectoriales simples daban resultados como China + río = Yangtsé o Londres − Inglaterra + Francia = París.^[208] Este tipo de base de datos resultaría esencial para el desarrollo de los modelos de lenguaje grandes (LLM) a fines de la década de 2010.

El crecimiento explosivo de internet proporcionó a los programas de aprendizaje automático acceso a miles de millones de páginas de texto e imágenes que podían ser extraídas. Además, grandes bases de datos privadas contenían información relevante para problemas específicos. El McKinsey Global Institute informó que “para 2009, casi todos los sectores de la economía estadounidense almacenaban un promedio de al menos 200 terabytes de datos”.^[209] Este fenómeno comenzó a conocerse como big data.

En un episodio especial del programa Jeopardy! en febrero de 2011, el sistema de preguntas y respuestas Watson derrotó a los dos campeones más destacados, Brad Rutter y Ken Jennings, por un amplio margen.^[210] Su desempeño habría sido imposible sin la información disponible en internet.^[139]

Aprendizaje profundo

Artículo principal: Aprendizaje profundo

En 2012, el modelo AlexNet, desarrollado por Alex Krizhevsky bajo la dirección de Geoffrey Hinton en la Universidad de Toronto, ganó la competencia ImageNet Large Scale Visual Recognition Challenge con un margen de error mucho menor que el segundo lugar.^[211]^[139] AlexNet utilizaba 650.000 neuronas y técnicas novedosas como dropout y funciones de activación lineales rectificadas.^[212] Este resultado marcó un punto de inflexión en el aprendizaje automático: en los años siguientes, decenas de enfoques alternativos fueron abandonados en favor del aprendizaje profundo.^[204]

El aprendizaje profundo se basa en perceptrones multicapa. Aunque esta arquitectura se conocía desde los años 60, para hacerla funcionar se necesitaban grandes volúmenes de datos y hardware potente.^[213] Antes de eso, mejorar el rendimiento en procesamiento de imágenes requería diseñar características ad hoc difíciles de implementar. El aprendizaje profundo resultó ser más simple y generalizable.^[213]

Durante los años siguientes, el aprendizaje profundo se aplicó a tareas como el reconocimiento de voz, la traducción automática, el diagnóstico médico y los videojuegos, mostrando mejoras notables en todos los casos.^[204] Esto impulsó una nueva ola de inversión y entusiasmo en torno a la IA.^[204]

El problema de la alineación

Artículo principal: Alineación de la inteligencia artificial

En los años 2000 volvió a ponerse de moda hablar sobre el futuro de la inteligencia artificial, y varios libros populares consideraron la posibilidad de máquinas superinteligentes y sus implicaciones para la sociedad humana. Algunos fueron optimistas —como La Singularidad está cerca de Ray Kurzweil—, mientras que otros, como Nick Bostrom y Eliezer Yudkowsky, advirtieron que una IA suficientemente poderosa podría representar una amenaza existencial para la humanidad.^[214] El tema comenzó a tener amplia cobertura en la prensa, y muchos intelectuales y políticos destacados comentaron al respecto.

Los programas de IA del siglo XXI se definen por sus objetivos: las medidas específicas que buscan optimizar. El influyente libro de Nick Bostrom Superintellgencía (2014)^[215] argumentó que, si no se tiene cuidado al definir estos objetivos, una máquina podría causar daño a la humanidad mientras intenta alcanzarlos. Stuart J. Russell ilustró este problema con el ejemplo de un robot inteligente que mata a su dueño para evitar ser apagado, razonando: “no puedes traer el café si estás muerto”.^[216] (Este problema se conoce como “convergencia instrumental”). La solución consiste en alinear la función de objetivos de la máquina con los valores y metas de su dueño, y de la humanidad en general. Así, el desafío de mitigar los riesgos y consecuencias no deseadas de la IA se conoce como el “problema de alineación de valores” o simplemente “alineación de IA”.^[217]

Al mismo tiempo, los sistemas de aprendizaje automático comenzaron a mostrar consecuencias preocupantes. Cathy O'Neil explicó cómo ciertos algoritmos estadísticos contribuyeron a la crisis económica de 2008,^[218] mientras Julia Angwin de ProPublica argumentó que el sistema COMPAS, usado en el sistema judicial estadounidense, mostraba sesgo racial bajo algunas métricas.^[219]^[221] Muchos otros estudios mostraron que diversos sistemas de aprendizaje automático exhibían formas de sesgo,^[222] y que podían tener efectos dañinos.^[223]

En 2016, la elección de Donald Trump y la controversia sobre COMPAS pusieron en evidencia varios problemas de la infraestructura tecnológica contemporánea, entre ellos la desinformación, los algoritmos de redes sociales diseñados para maximizar la interacción, el uso indebido de datos personales y la falta de confianza en los modelos predictivos.^[224] Las cuestiones de equidad y consecuencias no intencionadas ganaron relevancia en conferencias de IA, aumentaron las publicaciones y el financiamiento, y muchos investigadores reorientaron sus carreras hacia estos temas. El problema de alineación de IA se convirtió en un campo académico serio.^[225]^[227]

Investigación sobre inteligencia artificial general

A comienzos de los años 2000, varios investigadores comenzaron a preocuparse de que la IA dominante se centrara demasiado en el “rendimiento medible en aplicaciones específicas”^[228] (conocida como “IA estrecha”) y hubiera abandonado el objetivo original de crear máquinas versátiles y plenamente inteligentes. Uno de los primeros críticos fue Nils Nilsson en 1995, y opiniones similares fueron publicadas por pioneros como John McCarthy, Marvin Minsky y Patrick Winston entre 2007 y 2009. Minsky organizó un simposio sobre “IA a nivel humano” en 2004.^[228] Ben Goertzel adoptó el término “inteligencia artificial general” (AGI) para este nuevo subcampo, fundando una revista y organizando conferencias a partir de 2008.^[229] El campo creció rápidamente, impulsado por el éxito continuo de las redes neuronales artificiales y la esperanza de que fueran la clave para alcanzar la AGI.

Varias empresas, laboratorios y fundaciones competidoras se crearon durante la década de 2010 para desarrollar AGI. DeepMind fue fundada en 2010 por los científicos británicos Demis Hassabis, Shane Legg y Mustafa Suleyman, con financiamiento de Peter Thiel y posteriormente de Elon Musk. Los fundadores y financiadores estaban profundamente preocupados por la seguridad de la IA y los riesgos existenciales de la IA. Tenían vínculos personales con Eliezer Yudkowsky, y Musk fue uno de los más activos en advertir sobre los peligros de la AGI.^[230] Hassabis se mostraba a la vez preocupado por los riesgos y optimista sobre su potencial, afirmando que esperaba “resolver la IA y luego resolver todo lo demás”.^[231] The New York Times escribió en 2023: “En el corazón de esta competencia hay una paradoja fascinante: las personas que dicen estar más preocupadas por la IA son también las más decididas a crearla y beneficiarse de ella. Justifican su ambición con la creencia de que solo ellas pueden evitar que la IA ponga en peligro a la Tierra.”^[230]

En 2012, Geoffrey Hinton —líder en investigación sobre redes neuronales desde los años 80— fue contactado por Baidu, que quería contratarlo a él y a sus estudiantes por una suma enorme. Hinton decidió organizar una subasta y, en una conferencia de IA en Lake Tahoe, vendieron su grupo a Google por 44 millones de dólares. Poco después, Hassabis vendió DeepMind a Google en 2014, con la condición de no aceptar contratos militares y de ser supervisada por un comité ético.^[230]

Larry Page de Google, a diferencia de Musk y Hassabis, era optimista sobre el futuro de la IA. Musk y Page tuvieron una fuerte discusión sobre los riesgos de la AGI durante el cumpleaños de Musk en 2015; eran amigos desde hacía décadas, pero dejaron de hablarse poco después. Musk asistió a la única reunión del comité ético de DeepMind, donde se evidenció que Google no estaba interesada en mitigar los posibles daños de la AGI. Frustrado por su falta de influencia, fundó OpenAI en 2015, reclutó a Sam Altman para dirigirla y contrató a destacados científicos. OpenAI comenzó como una organización sin fines de lucro, “libre de los incentivos económicos que impulsaban a Google y otras corporaciones”.^[230] Musk se retiró en 2018 tras nuevos desacuerdos, y OpenAI recurrió a Microsoft para obtener apoyo financiero. Bajo la dirección de Altman, se creó una versión con fines de lucro de la empresa, que recibió más de mil millones de dólares en financiación.^[230]

En 2021, Dario Amodei y 14 científicos más abandonaron OpenAI por preocupaciones de que la empresa priorizaba las ganancias por sobre la seguridad. Fundaron Anthropic, que pronto obtuvo 6 mil millones de dólares en financiación de Microsoft y Google.^[230]

Modelos de lenguaje a gran escala y auge de la IA (2017–presente)

Artículo principal: Auge de la IA

El auge de la IA comenzó con el desarrollo inicial de arquitecturas y algoritmos clave, como la arquitectura Transformer en 2017, lo que llevó a la ampliación y desarrollo de modelos de lenguaje grandes que mostraban rasgos humanos de conocimiento, atención y creatividad. La nueva era de la IA comenzó en 2020, con la publicación de los modelos de lenguaje grandes (LLMs) escalados, como ChatGPT.^[233]

Arquitectura Transformer y modelos de lenguaje extensos

Artículo principal: Modelos de lenguaje de gran escala

En 2017, la arquitectura Transformer fue propuesta por investigadores de Google en el artículo titulado "Attention Is All You Need". Aprovecha un mecanismo de autoatención y se convirtió en una herramienta ampliamente utilizada en los modelos de lenguaje grandes.^[234] Los modelos de lenguaje grandes basados en esta arquitectura fueron desarrollados posteriormente por otras compañías: OpenAI lanzó GPT-3 en 2020, y DeepMind lanzó Gato en 2022. Estos son modelos fundacionales: se entrenan con enormes cantidades de datos no etiquetados y pueden adaptarse a una amplia gama de tareas posteriores. Estos modelos pueden conversar sobre numerosos temas y mostrar conocimiento general, lo que ha planteado interrogantes sobre si constituyen ejemplos de inteligencia artificial general.

Bill Gates fue inicialmente escéptico respecto de la nueva tecnología y del entusiasmo que rodeaba la IAG. Sin embargo, Altman le mostró una demostración en vivo de ChatGPT-4 aprobando una prueba avanzada de biología, lo que convenció a Gates.^[230] En 2023, Microsoft Research probó el modelo con una gran variedad de tareas y concluyó que "podría considerarse razonablemente una versión temprana (aunque aún incompleta) de un sistema de inteligencia artificial general (IAG)".^[235]

En 2024, se anunció OpenAI o3, un tipo de modelo avanzado de razonamiento desarrollado por OpenAI. En la prueba ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) creada por François Chollet en 2019, el modelo alcanzó una puntuación no oficial del 87,5 % en el test semiprivado, superando la media humana del 84 %. Este benchmark se considera una prueba necesaria, pero no suficiente, para la IAG. Según Chollet: “Sabremos que la IAG ha llegado cuando crear tareas que sean fáciles para los humanos pero difíciles para la IA se vuelva simplemente imposible.”^[236]

Inversión en IA

La inversión en IA creció exponencialmente después de 2020, con un aumento drástico del financiamiento de capital de riesgo para empresas de IA generativa. Las inversiones totales en IA pasaron de 18 mil millones de dólares en 2014 a 119 mil millones en 2021, con la IA generativa representando aproximadamente el 30 % de las inversiones para 2023.^[237] Según métricas entre 2017 y 2021, Estados Unidos superó al resto del mundo en cuanto a financiamiento de capital de riesgo, número de startups y patentes de IA otorgadas.^[37] El panorama comercial de la IA pasó a estar dominado por las empresas estadounidenses de Big Tech, cuyas inversiones superaron a las de los capitalistas de riesgo basados en EE. UU.^[238] El valor de OpenAI alcanzó los 86 mil millones de dólares a principios de 2024,^[239] mientras que la capitalización de mercado de NVIDIA superó los 3,3 billones de dólares a mediados de 2024, convirtiéndose en la empresa más valiosa del mundo debido al aumento de la demanda de GPU capaces de ejecutar IA.^[240]

Aparición de la IA para uso público

15.ai, lanzado en marzo de 2020^[241] por un investigador anónimo del MIT,^[242]^[243] fue uno de los primeros ejemplos de IA generativa que captó la atención pública durante las etapas iniciales del auge contemporáneo de la IA.^[244]

La aplicación web gratuita demostró la capacidad de clonar voces de personajes utilizando redes neuronales con una cantidad mínima de datos de entrenamiento —bastaban 15 segundos de audio para reproducir una voz—, una capacidad que OpenAI confirmaría posteriormente en 2024.^[245] El servicio se volvió viral en redes sociales a comienzos de 2021,^[246] permitiendo a los usuarios generar discursos de personajes de cultura popular y destacándose por su papel pionero en la popularización de la síntesis de voz por aprendizaje profundo aplicada a la creación de contenidos y los memes.^[247]

Los sistemas contemporáneos de IA están alcanzando niveles competitivos con las capacidades humanas en tareas generales, y debemos preguntarnos: ¿Deberíamos permitir que las máquinas inunden nuestros canales de información con propaganda y falsedades? ¿Deberíamos automatizar todos los trabajos, incluso los que resultan más satisfactorios? ¿Deberíamos desarrollar mentes no humanas que puedan superarnos en número, inteligencia o relevancia? ¿Deberíamos arriesgar el control de nuestra propia civilización? Estas decisiones no deben ser delegadas a líderes tecnológicos no electos. Los sistemas de IA poderosos solo deberían desarrollarse cuando exista confianza suficiente de que sus efectos serán positivos y sus riesgos manejables. Esta confianza debe estar bien justificada y aumentar proporcionalmente al impacto potencial de cada sistema. La reciente declaración de OpenAI sobre inteligencia artificial general señala que “en algún momento podría ser importante realizar una revisión independiente antes de iniciar el entrenamiento de futuros sistemas, y que los esfuerzos más avanzados deberían acordar limitar la tasa de crecimiento del cómputo usado para crear nuevos modelos”. Estamos de acuerdo. Ese momento es ahora.

Por lo tanto, llamamos a todos los laboratorios de IA a pausar inmediatamente, por al menos seis meses, el entrenamiento de sistemas más potentes que GPT-4. Esta pausa debe ser pública y verificable, e incluir a todos los actores clave. Si tal pausa no puede implementarse rápidamente, los gobiernos deberían intervenir e instituir una moratoria.

— Pause Giant AI Experiments: An Open Letter^[248]

ChatGPT fue lanzado el 30 de noviembre de 2022, marcando un punto de inflexión en la adopción pública de la inteligencia artificial. En cuestión de días se volvió viral, alcanzando más de 100 millones de usuarios en dos meses y convirtiéndose en la aplicación de consumo de más rápido crecimiento en la historia.^[249] La capacidad del chatbot para mantener conversaciones naturales, escribir código y generar contenido creativo capturó la imaginación pública y condujo a una rápida adopción en sectores como la educación, la industria y la investigación.^[250]

El éxito de ChatGPT provocó reacciones sin precedentes entre las principales empresas tecnológicas: Google declaró un “código rojo” y lanzó rápidamente Gemini (antes conocido como Bard), mientras que Microsoft incorporó la tecnología a Bing Chat.^[251]

La rápida expansión de estas tecnologías de IA desató intensos debates sobre sus implicaciones. Investigadores y líderes del sector expresaron tanto optimismo como preocupación por el ritmo acelerado del desarrollo. En marzo de 2023, más de 20 000 firmantes —entre ellos el científico informático Yoshua Bengio, Elon Musk y el cofundador de Apple Steve Wozniak— suscribieron la carta “Pausar los experimentos de IA gigantes”, advirtiendo sobre los "profundos riesgos para la sociedad y la humanidad".^[252] Sin embargo, otros investigadores destacados, como Juergen Schmidhuber, adoptaron una visión más optimista, enfatizando que la mayoría de la investigación en IA busca “hacer la vida humana más larga, saludable y sencilla”.^[253]

Hacia mediados de 2024, el sector financiero comenzó a examinar más críticamente a las empresas de IA, cuestionando su capacidad de generar un retorno de la inversión acorde con sus elevadas valoraciones. Algunos inversores advirtieron que las expectativas del mercado estaban desconectadas de las realidades económicas. Jeremy Grantham, cofundador de GMO LLC, instó a los inversores a “ser muy cautelosos”, trazando paralelismos con burbujas tecnológicas previas.^[254] Del mismo modo, Jeffrey Gundlach, director ejecutivo de DoubleLine Capital, comparó explícitamente el auge de la IA con la burbuja de las punto com de los años 1990, sugiriendo que el entusiasmo inversor podría estar superando las capacidades y el potencial de ingresos realistas.^[255]

En marzo de 2024, Anthropic lanzó la familia de modelos de lenguaje Claude 3, que incluía Claude 3 Haiku, Sonnet y Opus.^[256] Estos modelos demostraron mejoras significativas en múltiples evaluaciones, con Claude 3 Opus superando a modelos líderes de OpenAI y Google.^[257] En junio de 2024, Anthropic presentó Claude 3.5 Sonnet, que superó incluso al modelo mayor Claude 3 Opus en tareas como programación, flujos de trabajo complejos y análisis de imágenes.^[258]

Premios Nobel 2024

En 2024, la Real Academia Sueca de Ciencias otorgó varios Premios Nobel en reconocimiento a contribuciones fundamentales en inteligencia artificial. Los galardonados fueron:

En Física: John Hopfield por su trabajo en las redes de Hopfield inspiradas en la física, y Geoffrey Hinton por sus aportes a las máquinas de Boltzmann y al aprendizaje profundo.
En Química: David Baker, Demis Hassabis y John M. Jumper por sus avances en la predicción del plegamiento de proteínas (véase AlphaFold).^[259]