Un nuevo desafío de codificación de IA acaba de publicar sus primeros resultados, y no son bonitas

Un nuevo desafío de codificación de IA ha revelado su primer ganador, y estableció una nueva barra para ingenieros de software con AI.

El miércoles a las 5pm PST, el Instituto Laude sin fines de lucro anunció el primer ganador del Premio K, un desafío de codificación de IA multironda lanzado por Databricks y el cofundador de Perplexity Andy Konwinski. El ganador fue un ingeniero rápido brasileño llamado Eduardo Rocha de Andrade, quien recibirá $ 50,000 por el premio. Pero más sorprendente que la victoria fue su puntaje final: ganó con respuestas correctas a solo el 7.5% de las preguntas en la prueba.

«Nos alegra haber construido un punto de referencia que sea realmente difícil», dijo Konwinski. «Los puntos de referencia deberían ser difíciles si van a importar», continuó, y agregó: «Los puntajes serían diferentes si los grandes laboratorios hubieran entrado con sus modelos más grandes. Pero ese es el punto.

Konwinski ha prometido $ 1 millón al primer modelo de código abierto que puede obtener más de 90% en la prueba.

Similar al conocido sistema SWE-Bench, el premio K prueba los modelos contra problemas marcados de GitHub como una prueba de qué tan bien los modelos pueden lidiar con los problemas de programación del mundo real. Pero si bien SWE-Bench se basa en un conjunto fijo de problemas con los que los modelos pueden entrenar, el premio K está diseñado como una «versión sin contaminación de SWE-Bench», utilizando un sistema de entrada cronometrado para protegerse contra cualquier entrenamiento específico de referencia. Para la primera ronda, los modelos debían vencer antes del 12 de marzo. Los organizadores del premio K luego construyeron la prueba utilizando solo problemas de GitHub marcados después de esa fecha.

El puntaje superior del 7.5% está en marcado contraste con SWE-Bench en sí, que actualmente muestra una puntuación superior del 75% en su prueba 'verificada' más fácil y 34% en su prueba 'completa' más dura. Konwinski todavía no está seguro de si la disparidad se debe a la contaminación en el banco SWE o simplemente al desafío de recopilar nuevos problemas de GitHub, pero espera que el proyecto K del Premio responda la pregunta pronto.

«A medida que obtenemos más carreras de la cosa, tendremos un mejor sentido», dijo a TechCrunch, «porque esperamos que las personas se adapten a la dinámica de competir en esto cada pocos meses».

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Puede parecer un lugar extraño para quedarse corto, dada la amplia gama de herramientas de codificación de IA ya disponibles públicamente, pero con los puntos de referencia que se vuelven demasiado fáciles, muchos críticos ven proyectos como el premio K como un paso necesario para resolver El creciente problema de evaluación de AI.

«Soy bastante optimista sobre la construcción de nuevas pruebas para los puntos de referencia existentes», dice el investigador de Princeton Sayash Kapoor, quien presentó una idea similar En un artículo reciente. «Sin tales experimentos, en realidad no podemos decir si el problema es la contaminación, o incluso simplemente dirigirse a la tabla de clasificación SWE-Bench con un humano en el bucle».

Para Konwinski, no es solo un mejor punto de referencia, sino un desafío abierto para el resto de la industria. «Si escuchas la exageración, es como si deberíamos ver médicos de IA y abogados de IA e ingenieros de software de IA, y eso no es cierto», dice. «Si ni siquiera podemos obtener más del 10% en un banco SWE sin contaminación, esa es la verificación de la realidad para mí».

Un nuevo desafío de codificación de IA acaba de publicar sus primeros resultados, y no son bonitas

Team

Los chatbots de IA confían en fuentes con prejuicios claros

Deja una respuesta Cancelar la respuesta

Recomendada

Jaguar Land Rover para detener la producción hasta la próxima semana, al menos

Kivikhusen / Stadstudio | Arcial

Noticias populares

«EVOLARA: TU SEGUNDO VUELO»

15 lugares para visitar en la Antártida no puede permitirse perderse

Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

Sobre nosotras

Categoría

Mensajes recientes