
Crédito: Nikolas Kokovlis/NurPhoto vía Getty
Empresa china de inteligencia artificial búsqueda profunda ha lanzado un modelo de razonamiento matemático que puede identificar y corregir sus propios errores. El modelo superó la mejor puntuación humana en uno de los concursos universitarios de matemáticas más prestigiosos del mundo.
El modelo, DeepSeekMath-V2, obtuvo 118 de 120 puntos en preguntas del Concurso de Matemáticas William Lowell Putnam de 2024, superando la puntuación humana máxima de 90. El modelo también se desempeñó al nivel de los ganadores de medallas de oro en la Olimpiada Internacional de Matemáticas (OMI) de 2025 y la Olimpiada de Matemáticas de China de 2024. Los resultados se describen en una preimpresión.1 publicado en arXiv el 27 de noviembre.
«Estamos en un punto en el que la IA es tan buena en matemáticas como un estudiante universitario inteligente», afirma Kevin Buzzard, matemático del Imperial College de Londres. «Es muy emocionante».
En febrero, AlfaGeometría 2un solucionador de problemas de IA creado por Google DeepMind en Londres, también logró un desempeño de nivel oro en la OMI. La hazaña fue repetida en julio por Deep Think de Gemini, propiedad de DeepMind.
Razonamiento sobre respuestas
Los primeros enfoques para entrenar modelos de lenguaje grandes para el razonamiento matemático se centraron en la precisión de las respuestas finales, escriben los autores de la preimpresión. Pero una respuesta correcta no garantiza un razonamiento correcto. A veces, una respuesta final correcta puede ser simplemente el resultado de un error afortunado. Además, centrarse exclusivamente en el resultado final no es útil para probar leyes o fórmulas matemáticas, cuando el razonamiento lógico es más importante que la respuesta final.
Tong Xie, químico especializado en descubrimientos impulsados por IA en la UNSW Sydney en Australia, dice que los investigadores detrás de DeepSeek, así como los que desarrollan Deep Think de Gemini, han estado trabajando para superar este problema premiando el razonamiento sobre la respuesta final.
DeepSeekMath-V2 introduce por primera vez un razonamiento matemático autoverificable. El modelo consta de un verificador capacitado para evaluar pruebas matemáticas (que se basan en una serie de deducciones paso a paso) para identificar fallas lógicas y asignar puntuaciones en función de cuán rigurosa fue la prueba. Luego, un sistema de metaverificación verifica si las críticas del verificador son precisas, lo que reduce la probabilidad de alucinaciones y mejora la confiabilidad. Estos componentes funcionan con un generador de pruebas que construye soluciones y evalúa su propio trabajo, refinando los argumentos hasta que no se puedan encontrar más problemas.
El diseño crea un circuito de retroalimentación: el verificador mejora el generador y, a medida que el generador produce pruebas más desafiantes, estas se convierten en nuevos datos de entrenamiento para fortalecer al verificador.
El sistema pudo resolver cinco de seis problemas, con una puntuación del 83,3%, en la OMI de 2025. Sin embargo, no pudo resolver los problemas más difíciles planteados en 2025 y en OMI anteriores.
Math-V2 se basa en la autoverificación utilizando lenguaje natural en el modelo mismo, dice Xie. Esto reduce la participación humana y hace que el modelo sea más rentable y escalable.
Deep Think de Gemini, por el contrario, verifica el razonamiento matemático utilizando un lenguaje simbólico externo llamado Lean, y su proceso de verificación requiere una amplia aportación de expertos. El método prácticamente no produce alucinaciones, pero es computacionalmente costoso y requiere muchos recursos, dice Xie.




