La prueba del agente de codificación Ars Technica AI: edición Buscaminas

Total: 7/10

La falta de acordes es una gran omisión, pero la sólida presentación y las opciones del Modo de energía le dan a este esfuerzo una puntuación final aceptable.

Agente 4: CLI de Google Gemini

Juegalo tu mismo

Entonces… ¿dónde está el juego?

Crédito:

Benj Edwards

Implementación, pág.resentimiento, etc

Gemini CLI nos proporcionó algunos cuadros grises en los que puede hacer clic, pero faltan los campos de juego. Si bien la solución de problemas interactiva con el agente puede haber solucionado el problema, como prueba “única”, el modelo falló por completo.

Experiencia en codificación

De los cuatro agentes de codificación que probamos, Gemini CLI fue el que le dio más problemas a Benj. Después de desarrollar un plan, fue muy, muy lento a la hora de generar código utilizable (aproximadamente una hora por intento). El modelo pareció quedarse colgado al intentar crear manualmente efectos de sonido de archivos WAV e insistió en requerir bibliotecas externas de React y algunas otras dependencias demasiado complicadas. El resultado simplemente no funcionó.

Benj realmente rompió las reglas y le dio a Gemini una segunda oportunidad, especificando que el juego debería usar HTML5. Cuando el modelo comenzó a escribir código nuevamente, también se quedó colgado al intentar crear efectos de sonido. Benj sugirió usar el marco WebAudio (que los otros agentes de codificación de IA parecían poder usar), pero el resultado no funcionó, lo cual puede ver en el enlace de arriba.

A diferencia de los otros modelos probados, Gemini CLI aparentemente usa un sistema híbrido de tres LLM diferentes para diferentes tareas (Gemini 2.5 Flash Lite, 2.5 Flash y 2.5 Pro estaban disponibles al nivel de la cuenta de Google que pagó Benj). Cuando haya completado su sesión de codificación y haya salido de la interfaz CLI, obtendrá una lectura de qué modelo hizo qué.

En este caso, no importó porque los resultados no funcionaron. Pero vale la pena señalar que los modelos de codificación Gemini 3 están disponibles para otros planes de suscripción que no fueron probados aquí. Por ese motivo, esta parte de la prueba podría considerarse «incompleta» para la CLI de Google.

Total: 0/10 (Incompleto)

veredicto final

OpenAI Codex gana este por puntos, en gran parte porque era el único modelo que incluía acordes como una opción de juego. Pero Claude Code también se distinguió por sus fuertes florituras de presentación y su rápido tiempo de generación. Mistral Vibe fue un importante paso atrás y Google CLI basado en Gemini 2.5 fue un completo fracaso en nuestra prueba única.

Si bien los codificadores experimentados definitivamente pueden obtener mejores resultados a través de una conversación interactiva de edición de código con un agente, estos resultados muestran cuán capaces pueden ser algunos de estos modelos, incluso con un mensaje muy breve en una tarea relativamente sencilla. Aún así, creemos que nuestra experiencia general con agentes de codificación en otros proyectos (más sobre esto en un artículo futuro) generalmente refuerza la idea de que actualmente funcionan mejor como herramientas interactivas que aumentan la habilidad humana en lugar de reemplazarla.

La prueba del agente de codificación Ars Technica AI: edición Buscaminas

Team

Devolución del IVA alcanza los 442 millones de dólares para grupos prioritarios en 2025

Deja una respuesta Cancelar la respuesta

Recomendada

«Tengo Mucho Dolor en La Rodilla, no Puedo Jugar»

El proceso de Patrick Henry como si vous y étiez

Noticias populares

«EVOLARA: TU SEGUNDO VUELO»

15 lugares para visitar en la Antártida no puede permitirse perderse

Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

Sobre nosotras

Categoría

Mensajes recientes