Modelo de razonamiento

Un modelo de razonamiento, también conocido como modelo de lenguaje de razonamiento (RLM) o modelo de razonamiento a gran escala (LRM), es un tipo de modelo extenso de lenguaje (LLM) entrenado específicamente para resolver tareas complejas que requieren múltiples pasos de razonamiento lógico. ^[1] Estos modelos demuestran un rendimiento superior en tareas de lógica, matemáticas y programación en comparación con los LLM estándar. Poseen la capacidad de revisar y modificar pasos de razonamiento anteriores y utilizar cálculos adicionales durante la inferencia como método para escalar el rendimiento, complementando los enfoques de escalamiento tradicionales basados en el tamaño de los datos de entrenamiento, los parámetros del modelo y el cómputo de entrenamiento. ^[2]

A diferencia de los modelos de lenguaje tradicionales que generan respuestas inmediatamente, los modelos de razonamiento asignan tiempo de cálculo adicional, o tiempo de reflexión, antes de producir una respuesta para resolver problemas de varios pasos. OpenAI introdujo esta terminología en septiembre de 2024 con el lanzamiento de la serie o1, describiendo los modelos como diseñados para "dedicar más tiempo a pensar" antes de responder. La compañía definió o1 como un reajuste en la nomenclatura de modelos que aborda tareas complejas en ciencias, programación y matemáticas, y comparó el rendimiento de o1 con GPT-4o en pruebas de referencia como AIME y Codeforces. Un informe independiente publicado esa misma semana resumió el lanzamiento y destacó la afirmación de OpenAI de que o1 automatiza el razonamiento en Iingeniería de instrucciones para lograr grandes mejoras en exámenes difíciles. ^[3] ^[4] ^[5]

En funcionamiento, los modelos de razonamiento generan cadenas internas de pasos intermedios y luego seleccionan y refinan una respuesta final. OpenAI informó que la precisión de o1 mejora a medida que el modelo recibe más aprendizaje por refuerzo durante el entrenamiento y más cómputo en tiempo de prueba durante la inferencia. Inicialmente, la compañía optó por ocultar las cadenas sin procesar y, en su lugar, devolver un resumen escrito por el modelo, afirmando que "decidió no mostrar" los pensamientos subyacentes para que los investigadores pudieran monitorearlos sin exponer contenido no alineado a los usuarios finales. Las implementaciones comerciales documentan "tokens de razonamiento" independientes que miden el pensamiento oculto y un control del "esfuerzo de razonamiento" que ajusta la cantidad de cómputo que utiliza el modelo. Estas características hacen que los modelos sean más lentos que los sistemas de chat convencionales, a la vez que permiten un mejor rendimiento en problemas difíciles. ^[4] ^[6]

Historia

La trayectoria de investigación hacia los modelos de razonamiento combinó avances en aprendizaje supervisado, ingeniería de instrucciones y árbol de búsqueda.

Los primeros trabajos de alineación sobre aprendizaje por refuerzo a partir de la retroalimentación humana demostraron que los modelos pueden ajustarse para seguir instrucciones con "retroalimentación humana" y recompensas basadas en preferencias. ^[7] ^[8] En 2022, los científicos de Google Research, Jason Wei y Denny Zhou, demostraron que la estimulación de la ingeniería de instrucciones "mejora significativamente la capacidad" de los modelos grandes en tareas de razonamiento complejo.^[9]

${\text{Input}}\rightarrow \underbrace {{\text{Step}}_{1}\rightarrow {\text{Step}}_{2}\rightarrow \cdots \rightarrow {\text{Step}}_{n}} _{\text{Reasoning chain}}\rightarrow {\text{Answer}}$

Un resultado complementario demostró que la simple instrucción "Pensemos paso a paso" puede generar razonamiento de cero intentos. ^[10] Trabajos posteriores introdujeron la decodificación de autoconsistencia, que potencia el rendimiento de la cadena de pensamiento al muestrear diversas rutas de solución y elegir el consenso, y métodos mejorados con herramientas como ReAct, un acrónimo de Reason y Act, que induce a los modelos a generar tanto rastros de razonamiento como acciones. ^[11] ^[12] Posteriormente, la investigación generalizó la cadena de pensamiento a la búsqueda de múltiples planes candidatos. El marco de la ingeniería de instrucciones del informático de Princeton Shunyu Yao, propone que los modelos toman decisiones deliberadas explorando y retrocediendo en un árbol de pensamientos intermedio. ^[13]

El avance de OpenAI se centró en la supervisión de los procesos de razonamiento, no solo de los resultados. En el artículo "Verifiquemos paso a paso" de Lightman et al., se afirma que recompensar cada paso correcto "supera significativamente la supervisión de resultados" en problemas matemáticos complejos y mejora la interpretabilidad al alinear la cadena de pensamiento con el juicio humano. ^[14] ^[15] El anuncio o1 de OpenAI vincula estos aspectos con un algoritmo de aprendizaje por refuerzo a gran escala que entrena al modelo para refinar su propia cadena de pensamiento, e informa que la precisión aumenta con un mayor cómputo de entrenamiento y más tiempo dedicado a la inferencia. ^[4]

En conjunto, estos desarrollos definen la esencia de los modelos de razonamiento. Utilizan señales de supervisión que evalúan la calidad de los pasos intermedios, aprovechan la exploración en tiempo de inferencia, como el consenso o la búsqueda de árboles, y exponen controles para la asignación de cómputo interno al pensamiento. La familia o1 de OpenAI puso este enfoque a disposición a escala en septiembre de 2024 y popularizó el término "modelo de razonamiento" para los LLM que piensan deliberadamente antes de responder. ^[16] ^[17]

El desarrollo de modelos de razonamiento ilustra la amarga lección de Richard S. Sutton: el escalado computacional suele superar a los métodos basados en ideas diseñadas por humanos. ^[18] Este principio fue demostrado por investigadores del Laboratorio de Investigación de IA Generativa (GAIR), quienes intentaron replicar las capacidades de o1 mediante métodos sofisticados, como la búsqueda de árboles y el aprendizaje por refuerzo, a finales de 2024. Sus hallazgos, publicados en la serie "Viaje de Replicación de o1", revelaron que la destilación de conocimiento, una técnica relativamente sencilla que entrena un modelo más pequeño para imitar los resultados de o1, produjo un rendimiento inesperadamente alto. Este resultado ilustró cómo los enfoques de escalado directo pueden, en ocasiones, superar a soluciones de ingeniería más complejas. ^[19]

Desventajas

Los modelos de razonamiento requieren considerablemente más recursos computacionales durante la inferencia en comparación con los modelos sin razonamiento. Una investigación sobre el examen de referencia American Invitational Mathematics Examination (AIME) reveló que los modelos de razonamiento eran entre 10 y 74 veces más costosos de operar que sus contrapartes sin razonamiento. ^[20] El mayor tiempo de inferencia se atribuye a los resultados de razonamiento detallados y paso a paso que generan estos modelos, que suelen ser mucho más largos que las respuestas de los modelos de lenguaje estándar de gran tamaño, que proporcionan respuestas directas sin mostrar su proceso de razonamiento.

A principios de 2025, un investigador argumentó que estos modelos podrían enfrentar posibles problemas adicionales de denegación de servicio con "ataques de sobrepensamiento". ^[21]

Lanzamientos

2024

En septiembre de 2024, OpenAI lanzó o1-preview, un modelo de lenguaje de gran tamaño con capacidades de razonamiento mejoradas. ^[22] La versión completa, o1, se lanzó en diciembre de 2024. OpenAI inicialmente compartió resultados preliminares sobre su modelo sucesor, o3, en diciembre de 2024, ^[23] ^[24] ^[25] y el modelo o3 completo estaría disponible en 2025. ^[26]

Alibaba lanzó versiones de razonamiento de sus modelos de lenguaje grande Qwen en noviembre de 2024. ^[27] En diciembre de 2024, la compañía presentó QvQ-72B-Preview, un modelo de razonamiento visual experimental. ^[28]

En diciembre de 2024, Google introdujo Deep Research en Gemini, una función diseñada para realizar tareas de investigación de varios pasos. ^[29] ^[30]

El 16 de diciembre de 2024, investigadores demostraron que, al escalar el cómputo en tiempo de prueba, un modelo LLama 3B relativamente pequeño podía superar a un modelo Llama 70B mucho más grande en tareas de razonamiento complejas. Este experimento sugirió que las estrategias de inferencia mejoradas pueden liberar capacidades de razonamiento incluso en modelos más pequeños. ^[31] ^[32]

2025

En enero de 2025, DeepSeek lanzó R1, un modelo de razonamiento que logró un rendimiento comparable al o1 de OpenAI con un coste computacional significativamente menor. Esta versión demostró la eficacia de la Optimización de Políticas Relativa de Grupo (GRPO), una técnica de aprendizaje por refuerzo utilizada para entrenar el modelo. ^[33] ^[34]

El 25 de enero de 2025, DeepSeek mejoró R1 con capacidades de búsqueda web, lo que permitió que el modelo recuperara información de Internet mientras realizaba tareas de razonamiento. ^[35]

Las investigaciones realizadas durante este período validaron aún más la eficacia de la destilación de conocimiento para la creación de modelos de razonamiento. El modelo s1-32B logró un rendimiento sólido mediante métodos de forzamiento de presupuesto y escalamiento, lo que refuerza los hallazgos de que los enfoques de entrenamiento más simples pueden ser muy eficaces para las capacidades de razonamiento. ^[36] ^[37]

El 2 de febrero de 2025, OpenAI lanzó Deep Research, una función impulsada por su modelo o3 que permite a los usuarios realizar tareas de investigación integrales. ^[38] El sistema genera informes detallados recopilando y sintetizando automáticamente información de múltiples fuentes web. ^[38]

OpenAI denominó a GPT-4.5 su "último modelo sin cadena de pensamiento", ^[39] e implementó con GPT-5 un modelo de enrutador que selecciona un modelo en función de la dificultad de la tarea. ^[40]

2026

En enero de 2026, Moonshot AI lanzó Kimi K2.5, un modelo MoE de código abierto de 1 billón de parámetros con 32 mil millones de parámetros activos. Utiliza un sistema de "enjambre de agentes" que descompone dinámicamente las tareas en subagentes para su razonamiento y ejecución, lo que permite una resolución de problemas de varios pasos más escalable que una sola cadena de razonamiento secuencial. ^[41]

Entrenamiento

Los modelos de razonamiento siguen el preentrenamiento a gran escala habitual para los modelos de lenguajes de frontera, y luego divergen en el postentrenamiento y la optimización. OpenAI informa que o1 se entrena con un algoritmo de aprendizaje por refuerzo a gran escala que enseña al modelo a usar y refinar una cadena de pensamiento antes de responder. La empresa enfatiza dos palancas acopladas: mayor aprendizaje por refuerzo durante el entrenamiento y mayor tiempo dedicado a la inferencia, y documenta mejoras graduales a medida que cada una aumenta. OpenAI también afirma que decidió no mostrar cadenas sin procesar a los usuarios finales y, en su lugar, devuelve un resumen escrito por el modelo, una elección de producto vinculada a la supervisión de la seguridad y a las consideraciones competitivas. ^[42]

Un ingrediente central es la supervisión de procesos, que recompensa los pasos intermedios en lugar de solo la respuesta final. El estudio de OpenAI introdujo un modelo de recompensa de procesos entrenado con etiquetas a nivel de paso y descubrió que la supervisión de procesos supera significativamente a la supervisión basada únicamente en resultados en problemas matemáticos complejos. El proyecto también publicó el conjunto de datos de retroalimentación a nivel de paso PRM800K y argumentó que las recompensas a nivel de proceso mejoran la interpretabilidad porque los humanos pueden verificar cada paso. Estos resultados proporcionaron una fórmula práctica para supervisar cadenas de pensamiento que posteriormente se adaptó al entrenamiento de producción. ^[15]

Este entrenamiento difiere significativamente de los modelos de frontera tradicionales que no se centran en el razonamiento. Los sistemas estándar se preentrenan en corpus a escala de internet con un objetivo de predicción del siguiente token, y luego se alinean mediante el ajuste de instrucciones y la optimización de preferencias. La receta canónica InstructGPT primero utiliza un ajuste fino supervisado en demostraciones humanas, luego entrena un modelo de recompensa a partir de preferencias por pares y, finalmente, optimiza la política con aprendizaje de refuerzo, típicamente PPO con una penalización KL. Variantes como la optimización directa de preferencias eliminan el paso RL explícito y optimizan el modelo directamente con los datos de preferencia, pero el objetivo de supervisión sigue siendo el resultado final evaluado por los evaluadores, en lugar de la calidad de los pasos internos. Los informes técnicos de GPT-4 resumen este proceso convencional como un preentrenamiento del siguiente token seguido de un postentrenamiento de estilo RLHF para moldear el comportamiento.

En cambio, los modelos de razonamiento están optimizados para producir, criticar y revisar cadenas de varios pasos durante el entrenamiento. OpenAI afirma que el aprendizaje por refuerzo se aplica a la propia cadena, lo que enseña al modelo a reconocer errores, dividir los problemas en pasos más simples y cambiar de estrategia cuando el enfoque actual falla. OpenAI también documenta que oculta las cadenas en la inferencia y devuelve una respuesta que resume las ideas útiles del rastro interno. Estas decisiones de diseño reflejan el objetivo de entrenamiento del modelo y su monitorización prevista. ^[4]

Zelikman et al. introdujeron STaR (Self-Taught Reasoner), que exploró el arranque de razonamientos mediante la generación y el filtrado iterativo de cadenas, y el posterior ajuste fino de dichas trazas. Se observaron mejoras con respecto al ajuste fino basado únicamente en resultados. Una variante de este método proporcionó mecanismos adicionales para producir señales de entrenamiento que se refieren al razonamiento intermedio, no solo a las respuestas finales. ^[43]

DeepSeek informó que los sistemas R1 y R1-Zero entrenados con aprendizaje automático puro generan cadenas largas, autoverificación y reflexión, argumentando que las recompensas explícitas a nivel de cadena pueden inducir comportamientos de razonamiento general. Estos resultados indican que el postentrenamiento centrado en la calidad de la cadena se ha convertido en un régimen distinto, independiente de la alineación basada únicamente en resultados. ^[44]

Ajuste fino supervisado

Un modelo de lenguaje grande (LLM) puede ajustarse con precisión en conjuntos de datos de tareas de razonamiento emparejados con trazas de solución paso a paso. El modelo ajustado aprende a generar sus propias cadenas de razonamiento para nuevos problemas. ^[45] ^[46]

Dado que la recopilación de trazas escritas por humanos es costosa, los investigadores utilizan el ajuste fino del muestreo de rechazo (RFT) para generar conjuntos de datos automáticamente. Este método genera múltiples trazas de razonamiento para cada pregunta y luego filtra las trazas con respuestas finales incorrectas mediante un verificador. ^[47]

Aprendizaje por refuerzo

Un modelo de lenguaje preentrenado puede entrenarse aún más con RL. En el formalismo de RL, un modelo de lenguaje generativo es una política $\pi$ Un mensaje de tarea es un estado ambiental $x$ , y la respuesta del modelo es una acción $y$ . La probabilidad de que el modelo responda $x$ con $y$ es $\pi (y|x)$ .

Entrenar un modelo de lenguaje de razonamiento con RL significa construir un modelo de recompensa $r(x,y)$ Para guiar el proceso de aprendizaje por pares. Intuitivamente, la recompensa indica la eficacia de una respuesta a una indicación. En una tarea de razonamiento, la recompensa es alta si la respuesta resuelve la tarea y baja si no.

Una respuesta $y$ puede dividirse en varios pasos, escritos $y_{1},y_{2},\dots ,y_{n}$ .

Los sistemas más recientes utilizan métodos de gradiente de políticas, como la Optimización de Políticas Proximales (PPO), porque la PPO restringe cada actualización de política con un objetivo recortado, lo que estabiliza el entrenamiento para políticas muy grandes. ^[48]

Modelo de recompensa por resultados

Un modelo de recompensa por resultados, o modelo de recompensa supervisado por resultados (ORM), proporciona la recompensa por un paso $r(x,y_{1},\dots ,y_{i})$ basado en la respuesta final: $r(x,y_{1},\dots ,y_{i})=r(x,y_{n})$ Estos modelos suelen denominarse "verificadores".

Para tareas con respuestas fáciles de verificar, como problemas matemáticos, la recompensa por resultado puede ser binaria: 1 si la respuesta final es correcta, 0 en caso contrario. ^[45] Si la verificación automática es difícil, los humanos pueden etiquetar las respuestas como correctas o no, y esas etiquetas se pueden usar para ajustar un modelo base que prediga la etiqueta humana. ^[46] Para tareas como la escritura creativa, donde la calidad no es simplemente verdadera o falsa, se puede entrenar un modelo de recompensa con datos de preferencias humanas clasificadas, como en el aprendizaje de refuerzo a partir de la retroalimentación humana. ^[20] Un modelo base también se puede ajustar para predecir, a partir de un rastro de pensamiento parcial. $x,y_{1},\dots ,y_{m}$ , si la respuesta final será correcta, y esta predicción puede servir como una recompensa binaria. ^[45]

El ORM generalmente se entrena con regresión logística, es decir, minimizando la pérdida de entropía cruzada. ^[49]

Dado un PRM, se puede construir un ORM multiplicando la recompensa total del proceso durante el seguimiento del razonamiento,^[20] tomando el mínimo ^[49] o mediante otras formas de agregar las recompensas del proceso. DeepSeek utilizó un ORM simple para entrenar el modelo R1.^[50]

Modelo de recompensa de proceso

Un modelo de recompensa de proceso, o RM supervisado por proceso (PRM), ^[51] otorga la recompensa por un paso $r(x,y_{1},\dots ,y_{i})$ Basado únicamente en los pasos realizados hasta ahora: $(x,y_{1},\dots ,y_{i})$ .

Dado un rastro de pensamiento parcial $x,y_{1},\dots ,y_{m}$ Un humano puede juzgar si los pasos hasta el momento son correctos, sin mirar la respuesta final. Esto genera una recompensa binaria. Dado que las etiquetas humanas son costosas, se puede ajustar un modelo base para predecirlas. ^[45] El PRM suele entrenarse con regresión logística en las etiquetas humanas, es decir, minimizando la pérdida de entropía cruzada entre las etiquetas verdaderas y las predichas. ^[49]

Por ejemplo, un artículo de OpenAI de 2023 recopiló 800 000 etiquetas de proceso para 75 000 rastros de pensamiento. Un etiquetador observó un rastro y marcó cada paso como "positivo" si avanzaba hacia una solución, "neutral" si no era incorrecto pero no ayudaba, y "negativo" si era un error. Tras la primera etiqueta "negativa", el etiquetador se detuvo en ese rastro y pasó a otro. Los autores argumentaron que etiquetar hasta el primer error era suficiente para entrenar un PRM capaz, aunque etiquetar pasos posteriores podría proporcionar señales más completas. ^[52] ^[53]

Para evitar las etiquetas humanas, los investigadores han propuesto métodos para crear PRM sin etiquetas humanas en los procesos. Inspirado en la búsqueda de árboles de Monte Carlo (MCTS), el método Math-Shepherd muestrea múltiples continuaciones hasta el final, comenzando en cada paso del razonamiento. $y_{i}$ , y establecer la recompensa en ese paso para que sea ${\frac {\#{\text{(correct answers)}}}{\#{\text{(total answers)}}}}$ en el caso de "estimación suave", o ${\begin{cases}1&{\text{if one of the answers is correct}}\\0&{\text{else}}\end{cases}}$ En el caso de la "estimación dura", esto genera recompensas de proceso a partir de un ORM, que suele ser más fácil o económico de construir. Un PRM puede entonces entrenarse con estas etiquetas. ^[49] Algunos trabajos han probado un enfoque MCTS completo. ^[54]

También se puede utilizar un ORM para construir implícitamente un PRM, similar a la optimización de preferencia directa. ^[55]

Muestreo guiado

Se puede usar un ORM entrenado para seleccionar la mejor respuesta. La política genera varias respuestas y el ORM selecciona la mejor. Esto implementa una forma simple de escalamiento computacional en tiempo de prueba ("mejor de N"). ^[56] ^[57]

Un PRM entrenado puede guiar el razonamiento mediante una recorrido de árboles voraz: la política propone varios pasos siguientes, el PRM elige uno y el proceso se repite. Esto refleja el uso de un ORM para seleccionar una respuesta completa. ^[58] La búsqueda de haz funciona mejor que la búsqueda voraz.

La búsqueda anticipada es otro método de búsqueda de árbol. La política propone varios pasos siguientes y realiza una breve implementación de cada uno. Si se encuentra una solución durante la implementación, la búsqueda se detiene antes de tiempo. De lo contrario, el PRM puntúa cada implementación y se elige el paso con la puntuación más alta. ^[59]

La autoconsistencia se puede combinar con un ORM. El modelo genera múltiples respuestas, que se agrupan para que cada grupo tenga la misma respuesta final. El ORM puntúa cada respuesta, se suman las puntuaciones de cada grupo y se devuelve la respuesta del grupo con la puntuación más alta. ^[49]

Benchmarks

Los modelos de razonamiento generalmente alcanzan puntuaciones más altas que los modelos sin razonamiento en muchos puntos de referencia, en particular en tareas que requieren razonamiento de varios pasos. ^[60] ^[61] ^[62] ^[63] ^[64] ^[65] ^[66]

El modelo de referencia del El Último Examen de la Humanidad (HLE) (HLE) evalúa el razonamiento experto en matemáticas, humanidades y ciencias naturales, revelando importantes brechas de rendimiento entre los modelos. Los modelos de razonamiento de vanguardia actuales obtienen puntuaciones relativamente bajas en HLE, lo que indica un amplio margen de mejora. Por ejemplo, el modelo de razonamiento completo o3 obtuvo un 26,6%,^[38] mientras que el modelo más ligero o3-mini-high (en preguntas de solo texto) alcanzó un 13%. ^[67]

En el Examen Americano de Matemáticas por Invitación (AIME), una exigente competencia matemática, los modelos sin razonamiento suelen resolver menos del 30 % de los problemas. En cambio, los modelos que emplean métodos de razonamiento alcanzan tasas de éxito de entre el 50 % y el 80 %. ^[68] ^[69] ^[70] Mientras que el modelo o1 de OpenAI mantuvo o mejoró ligeramente su precisión entre los resultados reportados en 2024 y los resultados del AIME de 2025, el modelo o3-mini-high logró una precisión del 80 % a un costo significativamente menor, aproximadamente 12 veces más económico. ^[71]

Algunos puntos de referencia minoritarios o independientes excluyen los modelos de razonamiento debido a sus tiempos de respuesta más largos y mayores costos de inferencia, incluidos los puntos de referencia para la detección de eventos complejos en línea en sistemas ciberfísicos, la evaluación general del cómputo en tiempo de inferencia, las tareas de ingeniería de Verilog y las evaluaciones de seguridad de la red. ^[72]

Modelos

Compañía	Modelo	Fecha de lanzamiento
OpenAI	GPT-5 (o3.1)	Agosto de 2025
	GPT-OSS	Agosto de 2025 ^[73]
	o3 y o4-mini	Abril de 2025
	o3-mini	Enero de 2025
	o1	Diciembre de 2024
	o1-Preview	Septiembre de 2024
Google Géminis	3 Flash	Diciembre de 2025
	3 Pro	Noviembre de 2025
	2.5 Computer use	Octubre de 2025
	2.5 Flash	Abril de 2025
	2.5 Pro	Marzo de 2025
	2.0 Flash Thinking	Diciembre de 2024
DeepSeek	V3.2-Exp	Septiembre de 2025
	Versión 3.1	Agosto de 2025
	R1-0528	Mayo de 2025
	V3-0324	Marzo de 2025
	Preview de R1 y R1 Lite	Enero de 2025
Grupo Alibaba	QwQ-32B	Marzo de 2025
	QvQ-72B-Preview	Diciembre de 2024
	QwQ-32B-Preview	Noviembre de 2024
Antrópico	Claude Opus 4.5	Noviembre de 2025
	Haiku de Claude 4.5	Octubre de 2025
	Sonnet de Claude 4.5	Septiembre de 2025
	Sonnet de Claude 3.7	Febrero de 2025
Mistral AI	Mixtral / Large	Junio de 2025
xAI	Grok 4	Julio de 2025
xAI	Grok 3	Febrero de 2025
Hugging Face	OlympicCoder-7B y 32B	Febrero de 2025
NVIDIA	Llama Nemotron	Marzo de 2025
Tencent	Hun Yuan T1	Marzo de 2025
IA de Moonshot	Kimi K2 Thinking	Noviembre de 2025
IA de Moonshot	Kimi K2.5	Enero de 2026

Véase también

Referencias

↑ Besta, Maciej; Barth, Julia; Schreiber, Eric; Kubicek, Ales; Catarino, Afonso; Gerstenberger, Robert; Nyczyk, Piotr; Iff, Patrick et ál. (2025-01-23). «Reasoning Language Models: A Blueprint». arXiv:2501.11223 [cs.CL].
↑ «Learning to reason with LLMs». OpenAI. 12 de septiembre de 2024. Consultado el 9 de marzo de 2026.
↑ Introducing OpenAI o1-preview (en inglés), OpenAI, 12 de septiembre de 2024, consultado el 9 de marzo de 2026 .
1 2 3 4 Learning to reason with LLMs (en inglés), OpenAI, 12 de septiembre de 2024, consultado el 9 de marzo de 2026 .
↑ Katie Paul y Anna Tong (12 de septiembre de 2024), OpenAI launches new series of AI models with reasoning abilities (en inglés), Reuters, consultado el 9 de marzo de 2026 .
↑ Azure OpenAI reasoning models (en inglés), Microsoft Learn, 11 de octubre de 2025, consultado el 9 de marzo de 2026 .
↑ Christiano, Paul; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep reinforcement learning from human preferences» (en en). arXiv:1706.03741 [stat.ML].
↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Dinan, Emily; Bansal, Prafulla; Wainwright, Sam; Xu, Chong; Schulman, John (2022). «Training language models to follow instructions with human feedback» (en en). arXiv:2203.02155 [cs.CL].
↑ Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Saxton, David; Prenger, Ryan; Ren, Shuohui; Liu, Yang; Zhou, Denny (2022). «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903 [cs.CL].
↑ Kojima, Takeshi; Gu, Shixiang; Reid, Machel; Matsuo, Yutaka; Iwasawa, Yusuke (2022). «Large Language Models are Zero-Shot Reasoners». arXiv:2205.11916 [cs.CL].
↑ Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Zhou, Denny (2022). «Self-Consistency Improves Chain of Thought Reasoning in Language Models». arXiv:2203.11171 [cs.CL].
↑ Yao, Shunyu; Zhao, Jeffrey; Yu, Dian; Du, Nan; Shafran, Izhak; Narasimhan, Karthik; Cao, Yuan (2022). «ReAct: Synergizing Reasoning and Acting in Language Models» (en en). arXiv:2210.03629 [cs.CL].
↑ Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (2023). «Tree of Thoughts: Deliberate Problem Solving with Large Language Models». arXiv:2305.10601 [cs.CL].
↑ Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John et ál. (2023). «Let's Verify Step by Step». arXiv:2305.20050 [cs.LG].
1 2 Improving mathematical reasoning with process supervision (en inglés), OpenAI, 31 de mayo de 2023, consultado el 9 de marzo de 2026 .
↑ Introducing OpenAI o1-preview (en inglés), OpenAI, 12 de septiembre de 2024 .
↑ Azure OpenAI reasoning models (en inglés), Microsoft Learn, 11 de octubre de 2025 .
↑ Sutton, Richard S. «The Bitter Lesson». Incomplete Ideas. Consultado el 27 de febrero de 2025.
↑ Zeff, Maxwell (5 de febrero de 2025). «Researchers created an open rival to OpenAI's o1 'reasoning' model for under $50». TechCrunch. Consultado el 26 de julio de 2025.
1 2 3 Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John et al. (2024). «Let's Verify Step by Step». International Conference on Learning Representations (ICLR 2024). arXiv:2305.20050. Consultado el 26 de julio de 2025.
↑ Abhinav Kumar (2025). «OverThink: Slowdown Attacks on Reasoning LLMs». arXiv:2502.02542 [cs.LG].
↑ Edwards, Benj (12 de septiembre de 2024). «OpenAI's new "reasoning" AI models are here: o1-preview and o1-mini». Ars Technica (en inglés estadounidense). Consultado el 6 de febrero de 2025.
↑ «OpenAI o1 System Card». OpenAI. 5 de diciembre de 2024. Consultado el 26 de julio de 2025.
↑ Robison, Kylie (5 de diciembre de 2024). «OpenAI launches ChatGPT Pro, a $200/month plan with unlimited access to o1, GPT-4o, and more». The Verge. Consultado el 26 de julio de 2025.
↑ Singh, Jaspreet (20 de diciembre de 2024). «OpenAI unveils 'o3' model, touting advances in reasoning». Reuters. Consultado el 26 de julio de 2025.
↑ «Introducing OpenAI o3 and o4-mini». OpenAI. 16 de abril de 2025. Consultado el 26 de julio de 2025.
↑ Team, Qwen (28 de noviembre de 2024). «QwQ-32B-Preview: Reflect Deeply on the Boundaries of the Unknown». Qwen (Alibaba Cloud). Consultado el 26 de julio de 2025.
↑ Team, Qwen (25 de diciembre de 2024). «QVQ: To See the World with Wisdom». Qwen. Alibaba Cloud. Consultado el 26 de julio de 2025.
↑ «Try Deep Research and our new experimental model in Gemini, your AI assistant». Google (en inglés estadounidense). 11 de diciembre de 2024. Consultado el 5 de febrero de 2025.
↑ Roth, Emma (11 de diciembre de 2024). «Google built an AI tool that can do research for you». The Verge. Consultado el 26 de julio de 2025.
↑ «Scaling test-time compute». Hugging Face. 16 de diciembre de 2024. Consultado el 26 de julio de 2025.
↑ Snell, Charlie; Lee, Jaehoon; Xu, Kelvin; Kumar, Aviral (2025). «Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters». International Conference on Learning Representations (ICLR 2025). arXiv:2408.03314. Consultado el 26 de julio de 2025.
↑ Orland, Kyle (28 de enero de 2025). «How does DeepSeek R1 really fare against OpenAI's best reasoning models?». Ars Technica. Consultado el 6 de febrero de 2025.
↑ DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao et ál. (2025-01-22). «DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning». arXiv:2501.12948 [cs.CL].
↑ [DeepSeek adds a search feature supporting simultaneous deep thinking and web search] |título-trad= requiere |título= (ayuda). People's Daily Online (en chino). 29 de enero de 2025. Consultado el 26 de julio de 2025.
↑ Muennighoff, Niklas; Yang, Zitong; Shi, Weijia; Li, Xiang Lisa; Fei-Fei, Li; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Liang, Percy et ál. (2025-02-03). «s1: Simple test-time scaling». arXiv:2501.19393 [cs.CL].
↑ Zeff, Maxwell (5 de febrero de 2025). «Researchers created an open rival to OpenAI's o1 'reasoning' model for under $50». TechCrunch. Consultado el 9 de marzo de 2026.
1 2 3 «Introducing deep research». OpenAI (en inglés estadounidense). 2 de febrero de 2025. Consultado el 9 de marzo de 2026.
↑ Fried, Ina (28 de febrero de 2025). «OpenAI's GPT-4.5 release underscores AI's next challenge». Axios (en inglés). Consultado el 9 de marzo de 2026.
↑ Goldman, Sharon. «GPT-5’s model router ignited a user backlash against OpenAI—but it might be the future of AI». Fortune (en inglés). Consultado el 9 de marzo de 2026.
↑ «Kimi K2.5 Tech Blog: Visual Agentic Intelligence». www.kimi.com. Consultado el 9 de marzo de 2026.
↑ Learning to reason with LLMs (en inglés), OpenAI, 12 de septiembre de 2024, consultado el 9 de marzo de 2026 .
↑ Zelikman, Eric; Wu, Yuhuai; Mu, Jesse; Goodman, Noah D. (2022). «STaR: Bootstrapping Reasoning With Reasoning». arXiv:2203.14465 [cs.LG].
↑ Guo, Dan (2025). «DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning». arXiv:2501.12948 [cs.CL].
1 2 3 4 Uesato, Jonathan; Kushman, Nate; Kumar, Ramana; Song, Francis; Siegel, Noah; Wang, Lisa; Creswell, Antonia; Irving, Geoffrey et ál. (2022-11-25). «Solving math word problems with process- and outcome-based feedback». arXiv:2211.14275.
1 2 Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; Chen, Mark; Jun, Heewoo; Kaiser, Lukasz; Plappert, Matthias; Tworek, Jerry et ál. (2021-11-18). «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168.
↑ Yuan, Zheng; Yuan, Hongyi; Li, Chengpeng; Dong, Guanting; Lu, Keming; Tan, Chuanqi; Zhou, Chang; Zhou, Jingren (2023-09-13). «Scaling Relationship on Learning Mathematical Reasoning with Large Language Models». arXiv:2308.01825.
↑ «Aligning language models to follow instructions». OpenAI Blog. 27 de enero de 2022. Consultado el 4 de mayo de 2025.
1 2 3 4 5 Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, Runxin; Dai, Damai; Li, Yifei; Chen, Deli; Wu, Yu et al. (August 2024). «Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations». En Ku, Lun-Wei, ed. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Bangkok, Thailand: Association for Computational Linguistics): 9426-9439. arXiv:2312.08935. doi:10.18653/v1/2024.acl-long.510.
↑ DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao et ál. (2025-01-22). «DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning». arXiv:2501.12948 [cs.CL].
↑ Uesato, Jonathan; Kushman, Nate; Kumar, Ramana; Song, Francis; Siegel, Noah; Wang, Lisa; Creswell, Antonia; Irving, Geoffrey et ál. (2022-11-25). «Solving math word problems with process- and outcome-based feedback». arXiv:2211.14275 [cs.LG].
↑ Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John et al. (2024). «Let's Verify Step by Step». International Conference on Learning Representations (ICLR 2024). arXiv:2305.20050. Consultado el 26 de julio de 2025.
↑ «prm800k». GitHub. OpenAI. 27 de enero de 2025. Consultado el 27 de enero de 2025.
↑ Chen, Guoxin; Liao, Minpeng; Li, Chengxi; Fan, Kai (2024-09-27). «AlphaMath Almost Zero: Process Supervision without Process». arXiv:2405.03553 [cs.LG].
↑ Yuan, Lifan; Li, Wendi; Chen, Huayu; Cui, Ganqu; Ding, Ning; Zhang, Kaiyan; Zhou, Bowen; Liu, Zhiyuan et ál. (2024-12-02). «Free Process Rewards without Process Labels». arXiv:2412.01981 [cs.CL].
↑ Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; Chen, Mark; Jun, Heewoo; Kaiser, Lukasz; Plappert, Matthias; Tworek, Jerry et ál. (2021-11-18). «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168.
↑ Zhang, Di; Wu, Jianbo; Lei, Jingdi; Che, Tong; Li, Jiatong; Xie, Tong; Huang, Xiaoshui; Zhang, Shufei et ál. (2024-11-21). «LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning». arXiv:2410.02884.
↑ Ma, Qianli; Zhou, Haotian; Liu, Tingkai; Yuan, Jianbo; Liu, Pengfei; You, Yang; Yang, Hongxia (2023-10-16). «Let's reward step by step: Step-Level reward model as the Navigators for Reasoning». arXiv:2310.10080 [cs.CL].
↑ Snell, Charlie; Lee, Jaehoon; Xu, Kelvin; Kumar, Aviral (2025). «Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters». International Conference on Learning Representations (ICLR 2025). arXiv:2408.03314. Consultado el 26 de julio de 2025.
↑ Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed; Le, Quoc et ál. (2023-01-10). «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903 [cs.CL].
↑ Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (2023-03-07). «Self-Consistency Improves Chain of Thought Reasoning in Language Models». arXiv:2203.11171 [cs.CL].
↑ Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (2023). «Tree of Thoughts: Deliberate Problem Solving with Large Language Models». arXiv:2305.10601 [cs.CL].
↑ Cui, Dong-Xu; Long, Shi-Yu; Tang, Yi-Xuan; Zhao, Yue; Li, Qiao (25 de agosto de 2025). «Can Reasoning Power Significantly Improve the Knowledge of Large Language Models for Chemistry?─Based on Conversations with LLMs». Journal of Chemical Information and Modeling 65 (18). ISSN 1549-9596. PMID 40854079. doi:10.1021/acs.jcim.5c01265.
↑ Qwen; Yang, An; Yang, Baosong; Zhang, Beichen; Hui, Binyuan; Zheng, Bo; Yu, Bowen; Li, Chengyuan et ál. (2024). «Qwen2.5 Technical Report». arXiv:2412.15115 [cs.CL].
↑ Comanici, Gheorghe; Bieber, Eric; Schaekermann, Mike; Pasupat, Ice; Sachdeva, Noveen; Dhillon, Inderjit; Blistein, Marcel; Ram, Ori et ál. (2025-07-22). «Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities». arXiv:2507.06261 [cs.CL].
↑ Mirza, Adrian; Alampara, Nawaf; Kunchapu, Sreekanth; Ríos-García, Martiño; Emoekabu, Benedict; Krishnan, Aswanth; Gupta, Tanya; Schilling-Wilhelmi, Mara et al. (July 2025). «A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists». Nature Chemistry (en inglés) 17 (7): 1027-1034. Bibcode:2025NatCh..17.1027M. ISSN 1755-4349. PMC 12226332. PMID 40394186. doi:10.1038/s41557-025-01815-x.
↑ «Humanity's Last Exam leaderboard». Safe.ai. Center for AI Safety. Consultado el 26 de julio de 2025.
↑ «Learning to reason with LLMs». OpenAI. 12 de septiembre de 2024. Consultado el 26 de julio de 2025.
↑ DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao et ál. (2025-01-22). «DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning». arXiv:2501.12948 [cs.CL].
↑ Muennighoff, Niklas; Yang, Zitong; Shi, Weijia; Li, Xiang Lisa; Fei-Fei, Li; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Liang, Percy et ál. (2025-02-03). «s1: Simple test-time scaling». arXiv:2501.19393 [cs.CL].
↑ «OpenAI o3-mini». OpenAI (en inglés estadounidense). 31 de enero de 2025. Consultado el 9 de febrero de 2025.
↑ Huang, Yuting; Zois, Christos; Wang, Yue; Zhang, Yue; Mavromatis, Christos; Zeng, Jiachen; Yin, Shihao; Voulkidis, Antonios et al. (2025). «Toward Foundation Models for Online Complex Event Detection in CPS-IoT: A Case Study». Proceedings of the 2nd International Workshop on Foundation Models for Cyber-Physical Systems & Internet of Things. ACM. pp. 1-6. ISBN 979-8-4007-1608-9. doi:10.1145/3722565.3727198. «Although we did not evaluate o1 and o3 models ... their high cost and inference time make them impractical for online CED, which requires frequent, low-latency API requests.»
↑ Heath, Alex (5 de agosto de 2025). «OpenAI releases a free GPT model that can run on your laptop». The Verge (en inglés estadounidense). Consultado el 7 de marzo de 2026.