Modelo de razonamiento
modelos de lenguaje diseñados para tareas de razonamiento
From Wikipedia, the free encyclopedia
Un modelo de razonamiento, también conocido como modelo de lenguaje de razonamiento (RLM) o modelo de razonamiento a gran escala (LRM), es un tipo de modelo extenso de lenguaje (LLM) entrenado específicamente para resolver tareas complejas que requieren múltiples pasos de razonamiento lógico. [1] Estos modelos demuestran un rendimiento superior en tareas de lógica, matemáticas y programación en comparación con los LLM estándar. Poseen la capacidad de revisar y modificar pasos de razonamiento anteriores y utilizar cálculos adicionales durante la inferencia como método para escalar el rendimiento, complementando los enfoques de escalamiento tradicionales basados en el tamaño de los datos de entrenamiento, los parámetros del modelo y el cómputo de entrenamiento. [2]
Descripción
A diferencia de los modelos de lenguaje tradicionales que generan respuestas inmediatamente, los modelos de razonamiento asignan tiempo de cálculo adicional, o tiempo de reflexión, antes de producir una respuesta para resolver problemas de varios pasos. OpenAI introdujo esta terminología en septiembre de 2024 con el lanzamiento de la serie o1, describiendo los modelos como diseñados para "dedicar más tiempo a pensar" antes de responder. La compañía definió o1 como un reajuste en la nomenclatura de modelos que aborda tareas complejas en ciencias, programación y matemáticas, y comparó el rendimiento de o1 con GPT-4o en pruebas de referencia como AIME y Codeforces. Un informe independiente publicado esa misma semana resumió el lanzamiento y destacó la afirmación de OpenAI de que o1 automatiza el razonamiento en Iingeniería de instrucciones para lograr grandes mejoras en exámenes difíciles. [3] [4] [5]
En funcionamiento, los modelos de razonamiento generan cadenas internas de pasos intermedios y luego seleccionan y refinan una respuesta final. OpenAI informó que la precisión de o1 mejora a medida que el modelo recibe más aprendizaje por refuerzo durante el entrenamiento y más cómputo en tiempo de prueba durante la inferencia. Inicialmente, la compañía optó por ocultar las cadenas sin procesar y, en su lugar, devolver un resumen escrito por el modelo, afirmando que "decidió no mostrar" los pensamientos subyacentes para que los investigadores pudieran monitorearlos sin exponer contenido no alineado a los usuarios finales. Las implementaciones comerciales documentan "tokens de razonamiento" independientes que miden el pensamiento oculto y un control del "esfuerzo de razonamiento" que ajusta la cantidad de cómputo que utiliza el modelo. Estas características hacen que los modelos sean más lentos que los sistemas de chat convencionales, a la vez que permiten un mejor rendimiento en problemas difíciles. [4] [6]
Historia
La trayectoria de investigación hacia los modelos de razonamiento combinó avances en aprendizaje supervisado, ingeniería de instrucciones y árbol de búsqueda.
Los primeros trabajos de alineación sobre aprendizaje por refuerzo a partir de la retroalimentación humana demostraron que los modelos pueden ajustarse para seguir instrucciones con "retroalimentación humana" y recompensas basadas en preferencias. [7] [8] En 2022, los científicos de Google Research, Jason Wei y Denny Zhou, demostraron que la estimulación de la ingeniería de instrucciones "mejora significativamente la capacidad" de los modelos grandes en tareas de razonamiento complejo.[9]
Un resultado complementario demostró que la simple instrucción "Pensemos paso a paso" puede generar razonamiento de cero intentos. [10] Trabajos posteriores introdujeron la decodificación de autoconsistencia, que potencia el rendimiento de la cadena de pensamiento al muestrear diversas rutas de solución y elegir el consenso, y métodos mejorados con herramientas como ReAct, un acrónimo de Reason y Act, que induce a los modelos a generar tanto rastros de razonamiento como acciones. [11] [12] Posteriormente, la investigación generalizó la cadena de pensamiento a la búsqueda de múltiples planes candidatos. El marco de la ingeniería de instrucciones del informático de Princeton Shunyu Yao, propone que los modelos toman decisiones deliberadas explorando y retrocediendo en un árbol de pensamientos intermedio. [13]
El avance de OpenAI se centró en la supervisión de los procesos de razonamiento, no solo de los resultados. En el artículo "Verifiquemos paso a paso" de Lightman et al., se afirma que recompensar cada paso correcto "supera significativamente la supervisión de resultados" en problemas matemáticos complejos y mejora la interpretabilidad al alinear la cadena de pensamiento con el juicio humano. [14] [15] El anuncio o1 de OpenAI vincula estos aspectos con un algoritmo de aprendizaje por refuerzo a gran escala que entrena al modelo para refinar su propia cadena de pensamiento, e informa que la precisión aumenta con un mayor cómputo de entrenamiento y más tiempo dedicado a la inferencia. [4]
En conjunto, estos desarrollos definen la esencia de los modelos de razonamiento. Utilizan señales de supervisión que evalúan la calidad de los pasos intermedios, aprovechan la exploración en tiempo de inferencia, como el consenso o la búsqueda de árboles, y exponen controles para la asignación de cómputo interno al pensamiento. La familia o1 de OpenAI puso este enfoque a disposición a escala en septiembre de 2024 y popularizó el término "modelo de razonamiento" para los LLM que piensan deliberadamente antes de responder. [16] [17]
El desarrollo de modelos de razonamiento ilustra la amarga lección de Richard S. Sutton: el escalado computacional suele superar a los métodos basados en ideas diseñadas por humanos. [18] Este principio fue demostrado por investigadores del Laboratorio de Investigación de IA Generativa (GAIR), quienes intentaron replicar las capacidades de o1 mediante métodos sofisticados, como la búsqueda de árboles y el aprendizaje por refuerzo, a finales de 2024. Sus hallazgos, publicados en la serie "Viaje de Replicación de o1", revelaron que la destilación de conocimiento, una técnica relativamente sencilla que entrena un modelo más pequeño para imitar los resultados de o1, produjo un rendimiento inesperadamente alto. Este resultado ilustró cómo los enfoques de escalado directo pueden, en ocasiones, superar a soluciones de ingeniería más complejas. [19]
Desventajas
Los modelos de razonamiento requieren considerablemente más recursos computacionales durante la inferencia en comparación con los modelos sin razonamiento. Una investigación sobre el examen de referencia American Invitational Mathematics Examination (AIME) reveló que los modelos de razonamiento eran entre 10 y 74 veces más costosos de operar que sus contrapartes sin razonamiento. [20] El mayor tiempo de inferencia se atribuye a los resultados de razonamiento detallados y paso a paso que generan estos modelos, que suelen ser mucho más largos que las respuestas de los modelos de lenguaje estándar de gran tamaño, que proporcionan respuestas directas sin mostrar su proceso de razonamiento.
A principios de 2025, un investigador argumentó que estos modelos podrían enfrentar posibles problemas adicionales de denegación de servicio con "ataques de sobrepensamiento". [21]
Lanzamientos
2024
En septiembre de 2024, OpenAI lanzó o1-preview, un modelo de lenguaje de gran tamaño con capacidades de razonamiento mejoradas. [22] La versión completa, o1, se lanzó en diciembre de 2024. OpenAI inicialmente compartió resultados preliminares sobre su modelo sucesor, o3, en diciembre de 2024, [23] [24] [25] y el modelo o3 completo estaría disponible en 2025. [26]
Alibaba lanzó versiones de razonamiento de sus modelos de lenguaje grande Qwen en noviembre de 2024. [27] En diciembre de 2024, la compañía presentó QvQ-72B-Preview, un modelo de razonamiento visual experimental. [28]
En diciembre de 2024, Google introdujo Deep Research en Gemini, una función diseñada para realizar tareas de investigación de varios pasos. [29] [30]
El 16 de diciembre de 2024, investigadores demostraron que, al escalar el cómputo en tiempo de prueba, un modelo LLama 3B relativamente pequeño podía superar a un modelo Llama 70B mucho más grande en tareas de razonamiento complejas. Este experimento sugirió que las estrategias de inferencia mejoradas pueden liberar capacidades de razonamiento incluso en modelos más pequeños. [31] [32]
2025
En enero de 2025, DeepSeek lanzó R1, un modelo de razonamiento que logró un rendimiento comparable al o1 de OpenAI con un coste computacional significativamente menor. Esta versión demostró la eficacia de la Optimización de Políticas Relativa de Grupo (GRPO), una técnica de aprendizaje por refuerzo utilizada para entrenar el modelo. [33] [34]
El 25 de enero de 2025, DeepSeek mejoró R1 con capacidades de búsqueda web, lo que permitió que el modelo recuperara información de Internet mientras realizaba tareas de razonamiento. [35]
Las investigaciones realizadas durante este período validaron aún más la eficacia de la destilación de conocimiento para la creación de modelos de razonamiento. El modelo s1-32B logró un rendimiento sólido mediante métodos de forzamiento de presupuesto y escalamiento, lo que refuerza los hallazgos de que los enfoques de entrenamiento más simples pueden ser muy eficaces para las capacidades de razonamiento. [36] [37]
El 2 de febrero de 2025, OpenAI lanzó Deep Research, una función impulsada por su modelo o3 que permite a los usuarios realizar tareas de investigación integrales. [38] El sistema genera informes detallados recopilando y sintetizando automáticamente información de múltiples fuentes web. [38]
OpenAI denominó a GPT-4.5 su "último modelo sin cadena de pensamiento", [39] e implementó con GPT-5 un modelo de enrutador que selecciona un modelo en función de la dificultad de la tarea. [40]
2026
En enero de 2026, Moonshot AI lanzó Kimi K2.5, un modelo MoE de código abierto de 1 billón de parámetros con 32 mil millones de parámetros activos. Utiliza un sistema de "enjambre de agentes" que descompone dinámicamente las tareas en subagentes para su razonamiento y ejecución, lo que permite una resolución de problemas de varios pasos más escalable que una sola cadena de razonamiento secuencial. [41]
Entrenamiento
Los modelos de razonamiento siguen el preentrenamiento a gran escala habitual para los modelos de lenguajes de frontera, y luego divergen en el postentrenamiento y la optimización. OpenAI informa que o1 se entrena con un algoritmo de aprendizaje por refuerzo a gran escala que enseña al modelo a usar y refinar una cadena de pensamiento antes de responder. La empresa enfatiza dos palancas acopladas: mayor aprendizaje por refuerzo durante el entrenamiento y mayor tiempo dedicado a la inferencia, y documenta mejoras graduales a medida que cada una aumenta. OpenAI también afirma que decidió no mostrar cadenas sin procesar a los usuarios finales y, en su lugar, devuelve un resumen escrito por el modelo, una elección de producto vinculada a la supervisión de la seguridad y a las consideraciones competitivas. [42]
Un ingrediente central es la supervisión de procesos, que recompensa los pasos intermedios en lugar de solo la respuesta final. El estudio de OpenAI introdujo un modelo de recompensa de procesos entrenado con etiquetas a nivel de paso y descubrió que la supervisión de procesos supera significativamente a la supervisión basada únicamente en resultados en problemas matemáticos complejos. El proyecto también publicó el conjunto de datos de retroalimentación a nivel de paso PRM800K y argumentó que las recompensas a nivel de proceso mejoran la interpretabilidad porque los humanos pueden verificar cada paso. Estos resultados proporcionaron una fórmula práctica para supervisar cadenas de pensamiento que posteriormente se adaptó al entrenamiento de producción. [15]
Este entrenamiento difiere significativamente de los modelos de frontera tradicionales que no se centran en el razonamiento. Los sistemas estándar se preentrenan en corpus a escala de internet con un objetivo de predicción del siguiente token, y luego se alinean mediante el ajuste de instrucciones y la optimización de preferencias. La receta canónica InstructGPT primero utiliza un ajuste fino supervisado en demostraciones humanas, luego entrena un modelo de recompensa a partir de preferencias por pares y, finalmente, optimiza la política con aprendizaje de refuerzo, típicamente PPO con una penalización KL. Variantes como la optimización directa de preferencias eliminan el paso RL explícito y optimizan el modelo directamente con los datos de preferencia, pero el objetivo de supervisión sigue siendo el resultado final evaluado por los evaluadores, en lugar de la calidad de los pasos internos. Los informes técnicos de GPT-4 resumen este proceso convencional como un preentrenamiento del siguiente token seguido de un postentrenamiento de estilo RLHF para moldear el comportamiento.
En cambio, los modelos de razonamiento están optimizados para producir, criticar y revisar cadenas de varios pasos durante el entrenamiento. OpenAI afirma que el aprendizaje por refuerzo se aplica a la propia cadena, lo que enseña al modelo a reconocer errores, dividir los problemas en pasos más simples y cambiar de estrategia cuando el enfoque actual falla. OpenAI también documenta que oculta las cadenas en la inferencia y devuelve una respuesta que resume las ideas útiles del rastro interno. Estas decisiones de diseño reflejan el objetivo de entrenamiento del modelo y su monitorización prevista. [4]
Zelikman et al. introdujeron STaR (Self-Taught Reasoner), que exploró el arranque de razonamientos mediante la generación y el filtrado iterativo de cadenas, y el posterior ajuste fino de dichas trazas. Se observaron mejoras con respecto al ajuste fino basado únicamente en resultados. Una variante de este método proporcionó mecanismos adicionales para producir señales de entrenamiento que se refieren al razonamiento intermedio, no solo a las respuestas finales. [43]
DeepSeek informó que los sistemas R1 y R1-Zero entrenados con aprendizaje automático puro generan cadenas largas, autoverificación y reflexión, argumentando que las recompensas explícitas a nivel de cadena pueden inducir comportamientos de razonamiento general. Estos resultados indican que el postentrenamiento centrado en la calidad de la cadena se ha convertido en un régimen distinto, independiente de la alineación basada únicamente en resultados. [44]
Ajuste fino supervisado
Un modelo de lenguaje grande (LLM) puede ajustarse con precisión en conjuntos de datos de tareas de razonamiento emparejados con trazas de solución paso a paso. El modelo ajustado aprende a generar sus propias cadenas de razonamiento para nuevos problemas. [45] [46]
Dado que la recopilación de trazas escritas por humanos es costosa, los investigadores utilizan el ajuste fino del muestreo de rechazo (RFT) para generar conjuntos de datos automáticamente. Este método genera múltiples trazas de razonamiento para cada pregunta y luego filtra las trazas con respuestas finales incorrectas mediante un verificador. [47]
Aprendizaje por refuerzo
Un modelo de lenguaje preentrenado puede entrenarse aún más con RL. En el formalismo de RL, un modelo de lenguaje generativo es una política Un mensaje de tarea es un estado ambiental , y la respuesta del modelo es una acción . La probabilidad de que el modelo responda con es .
Entrenar un modelo de lenguaje de razonamiento con RL significa construir un modelo de recompensa Para guiar el proceso de aprendizaje por pares. Intuitivamente, la recompensa indica la eficacia de una respuesta a una indicación. En una tarea de razonamiento, la recompensa es alta si la respuesta resuelve la tarea y baja si no.
Una respuesta puede dividirse en varios pasos, escritos .
Los sistemas más recientes utilizan métodos de gradiente de políticas, como la Optimización de Políticas Proximales (PPO), porque la PPO restringe cada actualización de política con un objetivo recortado, lo que estabiliza el entrenamiento para políticas muy grandes. [48]
Modelo de recompensa por resultados
Un modelo de recompensa por resultados, o modelo de recompensa supervisado por resultados (ORM), proporciona la recompensa por un paso basado en la respuesta final: Estos modelos suelen denominarse "verificadores".
Para tareas con respuestas fáciles de verificar, como problemas matemáticos, la recompensa por resultado puede ser binaria: 1 si la respuesta final es correcta, 0 en caso contrario. [45] Si la verificación automática es difícil, los humanos pueden etiquetar las respuestas como correctas o no, y esas etiquetas se pueden usar para ajustar un modelo base que prediga la etiqueta humana. [46] Para tareas como la escritura creativa, donde la calidad no es simplemente verdadera o falsa, se puede entrenar un modelo de recompensa con datos de preferencias humanas clasificadas, como en el aprendizaje de refuerzo a partir de la retroalimentación humana. [20] Un modelo base también se puede ajustar para predecir, a partir de un rastro de pensamiento parcial. , si la respuesta final será correcta, y esta predicción puede servir como una recompensa binaria. [45]
El ORM generalmente se entrena con regresión logística, es decir, minimizando la pérdida de entropía cruzada. [49]
Dado un PRM, se puede construir un ORM multiplicando la recompensa total del proceso durante el seguimiento del razonamiento,[20] tomando el mínimo [49] o mediante otras formas de agregar las recompensas del proceso. DeepSeek utilizó un ORM simple para entrenar el modelo R1.[50]
Modelo de recompensa de proceso
Un modelo de recompensa de proceso, o RM supervisado por proceso (PRM), [51] otorga la recompensa por un paso Basado únicamente en los pasos realizados hasta ahora: .
Dado un rastro de pensamiento parcial Un humano puede juzgar si los pasos hasta el momento son correctos, sin mirar la respuesta final. Esto genera una recompensa binaria. Dado que las etiquetas humanas son costosas, se puede ajustar un modelo base para predecirlas. [45] El PRM suele entrenarse con regresión logística en las etiquetas humanas, es decir, minimizando la pérdida de entropía cruzada entre las etiquetas verdaderas y las predichas. [49]
Por ejemplo, un artículo de OpenAI de 2023 recopiló 800 000 etiquetas de proceso para 75 000 rastros de pensamiento. Un etiquetador observó un rastro y marcó cada paso como "positivo" si avanzaba hacia una solución, "neutral" si no era incorrecto pero no ayudaba, y "negativo" si era un error. Tras la primera etiqueta "negativa", el etiquetador se detuvo en ese rastro y pasó a otro. Los autores argumentaron que etiquetar hasta el primer error era suficiente para entrenar un PRM capaz, aunque etiquetar pasos posteriores podría proporcionar señales más completas. [52] [53]
Para evitar las etiquetas humanas, los investigadores han propuesto métodos para crear PRM sin etiquetas humanas en los procesos. Inspirado en la búsqueda de árboles de Monte Carlo (MCTS), el método Math-Shepherd muestrea múltiples continuaciones hasta el final, comenzando en cada paso del razonamiento. , y establecer la recompensa en ese paso para que sea en el caso de "estimación suave", o En el caso de la "estimación dura", esto genera recompensas de proceso a partir de un ORM, que suele ser más fácil o económico de construir. Un PRM puede entonces entrenarse con estas etiquetas. [49] Algunos trabajos han probado un enfoque MCTS completo. [54]
También se puede utilizar un ORM para construir implícitamente un PRM, similar a la optimización de preferencia directa. [55]
Muestreo guiado
Se puede usar un ORM entrenado para seleccionar la mejor respuesta. La política genera varias respuestas y el ORM selecciona la mejor. Esto implementa una forma simple de escalamiento computacional en tiempo de prueba ("mejor de N"). [56] [57]
Un PRM entrenado puede guiar el razonamiento mediante una recorrido de árboles voraz: la política propone varios pasos siguientes, el PRM elige uno y el proceso se repite. Esto refleja el uso de un ORM para seleccionar una respuesta completa. [58] La búsqueda de haz funciona mejor que la búsqueda voraz.
La búsqueda anticipada es otro método de búsqueda de árbol. La política propone varios pasos siguientes y realiza una breve implementación de cada uno. Si se encuentra una solución durante la implementación, la búsqueda se detiene antes de tiempo. De lo contrario, el PRM puntúa cada implementación y se elige el paso con la puntuación más alta. [59]
La autoconsistencia se puede combinar con un ORM. El modelo genera múltiples respuestas, que se agrupan para que cada grupo tenga la misma respuesta final. El ORM puntúa cada respuesta, se suman las puntuaciones de cada grupo y se devuelve la respuesta del grupo con la puntuación más alta. [49]
Benchmarks
Los modelos de razonamiento generalmente alcanzan puntuaciones más altas que los modelos sin razonamiento en muchos puntos de referencia, en particular en tareas que requieren razonamiento de varios pasos. [60] [61] [62] [63] [64] [65] [66]
El modelo de referencia del El Último Examen de la Humanidad (HLE) (HLE) evalúa el razonamiento experto en matemáticas, humanidades y ciencias naturales, revelando importantes brechas de rendimiento entre los modelos. Los modelos de razonamiento de vanguardia actuales obtienen puntuaciones relativamente bajas en HLE, lo que indica un amplio margen de mejora. Por ejemplo, el modelo de razonamiento completo o3 obtuvo un 26,6%,[38] mientras que el modelo más ligero o3-mini-high (en preguntas de solo texto) alcanzó un 13%. [67]
En el Examen Americano de Matemáticas por Invitación (AIME), una exigente competencia matemática, los modelos sin razonamiento suelen resolver menos del 30 % de los problemas. En cambio, los modelos que emplean métodos de razonamiento alcanzan tasas de éxito de entre el 50 % y el 80 %. [68] [69] [70] Mientras que el modelo o1 de OpenAI mantuvo o mejoró ligeramente su precisión entre los resultados reportados en 2024 y los resultados del AIME de 2025, el modelo o3-mini-high logró una precisión del 80 % a un costo significativamente menor, aproximadamente 12 veces más económico. [71]
Algunos puntos de referencia minoritarios o independientes excluyen los modelos de razonamiento debido a sus tiempos de respuesta más largos y mayores costos de inferencia, incluidos los puntos de referencia para la detección de eventos complejos en línea en sistemas ciberfísicos, la evaluación general del cómputo en tiempo de inferencia, las tareas de ingeniería de Verilog y las evaluaciones de seguridad de la red. [72]
Modelos
| Compañía | Modelo | Fecha de lanzamiento |
|---|---|---|
| OpenAI | GPT-5 (o3.1) | Agosto de 2025 |
| GPT-OSS | Agosto de 2025 [73] | |
| o3 y o4-mini | Abril de 2025 | |
| o3-mini | Enero de 2025 | |
| o1 | Diciembre de 2024 | |
| o1-Preview | Septiembre de 2024 | |
| Google Géminis | 3 Flash | Diciembre de 2025 |
| 3 Pro | Noviembre de 2025 | |
| 2.5 Computer use | Octubre de 2025 | |
| 2.5 Flash | Abril de 2025 | |
| 2.5 Pro | Marzo de 2025 | |
| 2.0 Flash Thinking | Diciembre de 2024 | |
| DeepSeek | V3.2-Exp | Septiembre de 2025 |
| Versión 3.1 | Agosto de 2025 | |
| R1-0528 | Mayo de 2025 | |
| V3-0324 | Marzo de 2025 | |
| Preview de R1 y R1 Lite | Enero de 2025 | |
| Grupo Alibaba | QwQ-32B | Marzo de 2025 |
| QvQ-72B-Preview | Diciembre de 2024 | |
| QwQ-32B-Preview | Noviembre de 2024 | |
| Antrópico | Claude Opus 4.5 | Noviembre de 2025 |
| Haiku de Claude 4.5 | Octubre de 2025 | |
| Sonnet de Claude 4.5 | Septiembre de 2025 | |
| Sonnet de Claude 3.7 | Febrero de 2025 | |
| Mistral AI | Mixtral / Large | Junio de 2025 |
| xAI | Grok 4 | Julio de 2025 |
| Grok 3 | Febrero de 2025 | |
| Hugging Face | OlympicCoder-7B y 32B | Febrero de 2025 |
| NVIDIA | Llama Nemotron | Marzo de 2025 |
| Tencent | Hun Yuan T1 | Marzo de 2025 |
| IA de Moonshot | Kimi K2 Thinking | Noviembre de 2025 |
| Kimi K2.5 | Enero de 2026 |