El modelo o3 demuestra un rendimiento mejorado en comparación con el modelo o1 en tareas complejas, incluyendo programación, matemáticas y ciencia. En la evaluación ARC-AGI, que mide la capacidad de una IA para manejar nuevos problemas matemáticos y lógicos desafiantes, o3 alcanza una precisión tres veces mayor que su predecesor.[1]
Según lo informado por New Scientist, o3 también obtuvo un puntaje récord del 75,7% en la resolución de problemas del corpus de abstracción y razonamiento (Abstraction and Reasoning Corpus, ARC) desarrollado por el ingeniero de software de Google François Chollet, una test de razonamiento ideado para IAs. Si bien OpenAI o3 aún no cumple con los requisitos para calificar para el "gran premio" asociado, que requiere un 85% de precisión. Sin las limitaciones de costo computacional impuestas por la prueba, el modelo también alcanza un nuevo récord del 87,5%, mientras que los humanos obtienen, en promedio, un 84%.[5]
De acuerdo con TechCrunch, se utilizó aprendizaje por refuerzo para enseñar a o3 a "pensar" antes de reaccionar, utilizando lo que OpenAI denomina una "cadena privada de pensamiento". Supuestamente, el modelo puede planificar con anticipación y razonar a través de una tarea, llevando a cabo una secuencia de acciones durante un período prolongado para ayudar a resolver el problema. Sin embargo, TechCrunch informó que esto aumenta la latencia de las respuestas.[6]