• Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions
sábado, diciembre 27, 2025
No Result
View All Result
Corresponsal 360
  • Home
  • Noticias
  • Tecnología
  • Deportes
  • Política
  • Salud
  • Turismo
  • Cultura
  • Home
  • Noticias
  • Tecnología
  • Deportes
  • Política
  • Salud
  • Turismo
  • Cultura
No Result
View All Result
Corresponsal 360
No Result
View All Result
Home Tecnología

Un nuevo desafío de codificación de IA acaba de publicar sus primeros resultados, y no son bonitas

by Team
julio 24, 2025
in Tecnología
0
Benchmark in Talks to Leading Series A para Greptile, valorando el revisor de código de inteligencia artificial a $ 180 millones, dicen las fuentes


Un nuevo desafío de codificación de IA ha revelado su primer ganador, y estableció una nueva barra para ingenieros de software con AI.

El miércoles a las 5pm PST, el Instituto Laude sin fines de lucro anunció el primer ganador del Premio K, un desafío de codificación de IA multironda lanzado por Databricks y el cofundador de Perplexity Andy Konwinski. El ganador fue un ingeniero rápido brasileño llamado Eduardo Rocha de Andrade, quien recibirá $ 50,000 por el premio. Pero más sorprendente que la victoria fue su puntaje final: ganó con respuestas correctas a solo el 7.5% de las preguntas en la prueba.

«Nos alegra haber construido un punto de referencia que sea realmente difícil», dijo Konwinski. «Los puntos de referencia deberían ser difíciles si van a importar», continuó, y agregó: «Los puntajes serían diferentes si los grandes laboratorios hubieran entrado con sus modelos más grandes. Pero ese es el punto.

Konwinski ha prometido $ 1 millón al primer modelo de código abierto que puede obtener más de 90% en la prueba.

Similar al conocido sistema SWE-Bench, el premio K prueba los modelos contra problemas marcados de GitHub como una prueba de qué tan bien los modelos pueden lidiar con los problemas de programación del mundo real. Pero si bien SWE-Bench se basa en un conjunto fijo de problemas con los que los modelos pueden entrenar, el premio K está diseñado como una «versión sin contaminación de SWE-Bench», utilizando un sistema de entrada cronometrado para protegerse contra cualquier entrenamiento específico de referencia. Para la primera ronda, los modelos debían vencer antes del 12 de marzo. Los organizadores del premio K luego construyeron la prueba utilizando solo problemas de GitHub marcados después de esa fecha.

El puntaje superior del 7.5% está en marcado contraste con SWE-Bench en sí, que actualmente muestra una puntuación superior del 75% en su prueba 'verificada' más fácil y 34% en su prueba 'completa' más dura. Konwinski todavía no está seguro de si la disparidad se debe a la contaminación en el banco SWE o simplemente al desafío de recopilar nuevos problemas de GitHub, pero espera que el proyecto K del Premio responda la pregunta pronto.

«A medida que obtenemos más carreras de la cosa, tendremos un mejor sentido», dijo a TechCrunch, «porque esperamos que las personas se adapten a la dinámica de competir en esto cada pocos meses».

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Puede parecer un lugar extraño para quedarse corto, dada la amplia gama de herramientas de codificación de IA ya disponibles públicamente, pero con los puntos de referencia que se vuelven demasiado fáciles, muchos críticos ven proyectos como el premio K como un paso necesario para resolver El creciente problema de evaluación de AI.

«Soy bastante optimista sobre la construcción de nuevas pruebas para los puntos de referencia existentes», dice el investigador de Princeton Sayash Kapoor, quien presentó una idea similar En un artículo reciente. «Sin tales experimentos, en realidad no podemos decir si el problema es la contaminación, o incluso simplemente dirigirse a la tabla de clasificación SWE-Bench con un humano en el bucle».

Para Konwinski, no es solo un mejor punto de referencia, sino un desafío abierto para el resto de la industria. «Si escuchas la exageración, es como si deberíamos ver médicos de IA y abogados de IA e ingenieros de software de IA, y eso no es cierto», dice. «Si ni siquiera podemos obtener más del 10% en un banco SWE sin contaminación, esa es la verificación de la realidad para mí».

Tags: acababonitascodificacióndesafíonuevoprimerospublicarresultadossonsus
Team

Team

Next Post
Los chatbots de IA confían en fuentes con prejuicios claros

Los chatbots de IA confían en fuentes con prejuicios claros

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Recomendada

Jaguar Land Rover para detener la producción hasta la próxima semana, al menos

Jaguar Land Rover para detener la producción hasta la próxima semana, al menos

3 meses ago
Kivikhusen / Stadstudio | Arcial

Kivikhusen / Stadstudio | Arcial

3 meses ago

Noticias populares

  • «EVOLARA: TU SEGUNDO VUELO»

    «EVOLARA: TU SEGUNDO VUELO»

    0 shares
    Share 0 Tweet 0
  • 15 lugares para visitar en la Antártida no puede permitirse perderse

    0 shares
    Share 0 Tweet 0
  • Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

    0 shares
    Share 0 Tweet 0
  • La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

    0 shares
    Share 0 Tweet 0
  • INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

    0 shares
    Share 0 Tweet 0

Sobre nosotras

Bienvenido a corresponsal360.com ¡El objetivo de corresponsal360.com es brindarle las mejores fuentes de noticias para cualquier tema! Nuestros temas se seleccionan cuidadosamente y se actualizan constantemente, ya que sabemos que la web se mueve rápido y nosotros también lo intentamos.

Categoría

  • Blog
  • Cultura
  • Deportes
  • Noticias
  • Política
  • Salud
  • Tecnología
  • Turismo

Mensajes recientes

  • Vox rentabiliza su salida de los gobiernos autonómicos con el PP pese a las polémicas internas
  • Bolsonaro se somete a otra intervención médica en Brasilia para tratar su crisis de hipo
  • ¿Tiene el chocolate la clave contra el envejecimiento? Un estudio ofrece pistas sorprendentes sobre los compuestos del cacao.
  • Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions

Copyright © 2024 Corresponsal360.com | All Rights Reserved.

No Result
View All Result
  • Home
  • Noticias
  • Tecnología
  • Deportes
  • Política
  • Salud
  • Turismo
  • Cultura

Copyright © 2024 Corresponsal360.com | All Rights Reserved.