El modelo de IA autocorrector de DeepSeek supera duras pruebas matemáticas

El icono de la aplicación DeepSeek que se muestra en la pantalla de un teléfono inteligente se magnifica mediante un cubo transparente sostenido entre el pulgar y el índice. — Crédito: Nikolas Kokovlis/NurPhoto vía Getty

Empresa china de inteligencia artificial búsqueda profunda ha lanzado un modelo de razonamiento matemático que puede identificar y corregir sus propios errores. El modelo superó la mejor puntuación humana en uno de los concursos universitarios de matemáticas más prestigiosos del mundo.

El modelo, DeepSeekMath-V2, obtuvo 118 de 120 puntos en preguntas del Concurso de Matemáticas William Lowell Putnam de 2024, superando la puntuación humana máxima de 90. El modelo también se desempeñó al nivel de los ganadores de medallas de oro en la Olimpiada Internacional de Matemáticas (OMI) de 2025 y la Olimpiada de Matemáticas de China de 2024. Los resultados se describen en una preimpresión.¹ publicado en arXiv el 27 de noviembre.

«Estamos en un punto en el que la IA es tan buena en matemáticas como un estudiante universitario inteligente», afirma Kevin Buzzard, matemático del Imperial College de Londres. «Es muy emocionante».

En febrero, AlfaGeometría 2un solucionador de problemas de IA creado por Google DeepMind en Londres, también logró un desempeño de nivel oro en la OMI. La hazaña fue repetida en julio por Deep Think de Gemini, propiedad de DeepMind.

Razonamiento sobre respuestas

Los primeros enfoques para entrenar modelos de lenguaje grandes para el razonamiento matemático se centraron en la precisión de las respuestas finales, escriben los autores de la preimpresión. Pero una respuesta correcta no garantiza un razonamiento correcto. A veces, una respuesta final correcta puede ser simplemente el resultado de un error afortunado. Además, centrarse exclusivamente en el resultado final no es útil para probar leyes o fórmulas matemáticas, cuando el razonamiento lógico es más importante que la respuesta final.

Tong Xie, químico especializado en descubrimientos impulsados por IA en la UNSW Sydney en Australia, dice que los investigadores detrás de DeepSeek, así como los que desarrollan Deep Think de Gemini, han estado trabajando para superar este problema premiando el razonamiento sobre la respuesta final.

DeepSeekMath-V2 introduce por primera vez un razonamiento matemático autoverificable. El modelo consta de un verificador capacitado para evaluar pruebas matemáticas (que se basan en una serie de deducciones paso a paso) para identificar fallas lógicas y asignar puntuaciones en función de cuán rigurosa fue la prueba. Luego, un sistema de metaverificación verifica si las críticas del verificador son precisas, lo que reduce la probabilidad de alucinaciones y mejora la confiabilidad. Estos componentes funcionan con un generador de pruebas que construye soluciones y evalúa su propio trabajo, refinando los argumentos hasta que no se puedan encontrar más problemas.

El diseño crea un circuito de retroalimentación: el verificador mejora el generador y, a medida que el generador produce pruebas más desafiantes, estas se convierten en nuevos datos de entrenamiento para fortalecer al verificador.

El sistema pudo resolver cinco de seis problemas, con una puntuación del 83,3%, en la OMI de 2025. Sin embargo, no pudo resolver los problemas más difíciles planteados en 2025 y en OMI anteriores.

Math-V2 se basa en la autoverificación utilizando lenguaje natural en el modelo mismo, dice Xie. Esto reduce la participación humana y hace que el modelo sea más rentable y escalable.

Deep Think de Gemini, por el contrario, verifica el razonamiento matemático utilizando un lenguaje simbólico externo llamado Lean, y su proceso de verificación requiere una amplia aportación de expertos. El método prácticamente no produce alucinaciones, pero es computacionalmente costoso y requiere muchos recursos, dice Xie.

El modelo de IA autocorrector de DeepSeek supera duras pruebas matemáticas

Team

El multimillonario checo Babiš se convertirá en primer ministro después de resolver el conflicto agrícola – POLITICO

Deja una respuesta Cancelar la respuesta

Recomendada

A Ucrania se le permite atacar algunos objetivos en Rusia con armas estadounidenses

Cómo pre-ordenar el Rog Xbox Ally y Ally X antes del 16 de octubre

Noticias populares

«EVOLARA: TU SEGUNDO VUELO»

15 lugares para visitar en la Antártida no puede permitirse perderse

Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

Sobre nosotras

Categoría

Mensajes recientes