Total: 7/10
La falta de acordes es una gran omisión, pero la sólida presentación y las opciones del Modo de energía le dan a este esfuerzo una puntuación final aceptable.
Agente 4: CLI de Google Gemini
Implementación, pág.resentimiento, etc
Gemini CLI nos proporcionó algunos cuadros grises en los que puede hacer clic, pero faltan los campos de juego. Si bien la solución de problemas interactiva con el agente puede haber solucionado el problema, como prueba “única”, el modelo falló por completo.
Experiencia en codificación
De los cuatro agentes de codificación que probamos, Gemini CLI fue el que le dio más problemas a Benj. Después de desarrollar un plan, fue muy, muy lento a la hora de generar código utilizable (aproximadamente una hora por intento). El modelo pareció quedarse colgado al intentar crear manualmente efectos de sonido de archivos WAV e insistió en requerir bibliotecas externas de React y algunas otras dependencias demasiado complicadas. El resultado simplemente no funcionó.
Benj realmente rompió las reglas y le dio a Gemini una segunda oportunidad, especificando que el juego debería usar HTML5. Cuando el modelo comenzó a escribir código nuevamente, también se quedó colgado al intentar crear efectos de sonido. Benj sugirió usar el marco WebAudio (que los otros agentes de codificación de IA parecían poder usar), pero el resultado no funcionó, lo cual puede ver en el enlace de arriba.
A diferencia de los otros modelos probados, Gemini CLI aparentemente usa un sistema híbrido de tres LLM diferentes para diferentes tareas (Gemini 2.5 Flash Lite, 2.5 Flash y 2.5 Pro estaban disponibles al nivel de la cuenta de Google que pagó Benj). Cuando haya completado su sesión de codificación y haya salido de la interfaz CLI, obtendrá una lectura de qué modelo hizo qué.
En este caso, no importó porque los resultados no funcionaron. Pero vale la pena señalar que los modelos de codificación Gemini 3 están disponibles para otros planes de suscripción que no fueron probados aquí. Por ese motivo, esta parte de la prueba podría considerarse «incompleta» para la CLI de Google.
Total: 0/10 (Incompleto)
veredicto final
OpenAI Codex gana este por puntos, en gran parte porque era el único modelo que incluía acordes como una opción de juego. Pero Claude Code también se distinguió por sus fuertes florituras de presentación y su rápido tiempo de generación. Mistral Vibe fue un importante paso atrás y Google CLI basado en Gemini 2.5 fue un completo fracaso en nuestra prueba única.
Si bien los codificadores experimentados definitivamente pueden obtener mejores resultados a través de una conversación interactiva de edición de código con un agente, estos resultados muestran cuán capaces pueden ser algunos de estos modelos, incluso con un mensaje muy breve en una tarea relativamente sencilla. Aún así, creemos que nuestra experiencia general con agentes de codificación en otros proyectos (más sobre esto en un artículo futuro) generalmente refuerza la idea de que actualmente funcionan mejor como herramientas interactivas que aumentan la habilidad humana en lugar de reemplazarla.





