Suavizando los bordes ásperos de la IA

Siga a los sospechosos habituales de IA sobre X —Andrew NG, Paige Bailey, Demis Hassabis, Thom Wolf, Santiago Valdarrama, etc.— y usted comienza a discernir patrones en los desafíos de IA emergentes y cómo los desarrolladores los están resolviendo. En este momento, estos profesionales prominentes exponen al menos dos fuerzas que enfrentan a los desarrolladores: increíbles ganancias de capacidad acosadas por los problemas de software demasiado familiar (y tercos). Los modelos siguen siendo más inteligentes; Las aplicaciones siguen rompiendo en los mismos lugares. La brecha entre la demostración y el producto duradero sigue siendo el lugar donde la mayoría de la ingeniería ocurre.

¿Cómo están rompiendo los equipos de desarrollo el impasse? Volviendo a lo básico.

Las cosas (agentes) se desmoronan

Andrew Ng ha estado golpeando en cierto punto Muchos constructores han aprendido a través de una experiencia dura: «Cuando los agentes de datos fallan, a menudo fallan en silencio, lo que le da respuestas a su sonido segura que están mal, y puede ser difícil descubrir qué causó la falla». Hace hincapié en la evaluación sistemática y la observabilidad para cada paso que toma un agente, no solo la precisión de extremo a extremo. Es posible que nos guste el término «codificación de ambas», pero los desarrolladores inteligentes están forzando el rigor de las pruebas unitarias, las huellas y las verificaciones de salud para los planes de agentes, las herramientas y la memoria.

En otras palabras, están tratando agentes como sistemas distribuidos. Usted instrumenta cada paso con Opentelemetry, mantiene pequeños conjuntos de datos «dorados» para evals repetibles, y ejecuta regresiones en planes y herramientas de la misma manera que lo hace API. Esto se vuelve crítico a medida que avanzamos más allá de las aplicaciones de juguetes y comenzamos a arquitectando sistemas de agente, donde Ng señala que los propios agentes se están utilizando para escribir y realizar pruebas Para mantener honestos a otros agentes. Es meta, pero funciona cuando el arnés de prueba se trata como un software real: versado, revisado y medido.

Santiago Valdarrama hace eco de la misma precaucióna veces sugiriendo un paso atrás. Su guía es refrescantemente poco glamorosa: resistir el impulso de convertir todo en un agente. Aunque puede ser «realmente tentador agregar complejidad sin razón,» paga para dejar de lado esa tentación. Si una función simple funcionará, use una función simple porque, como él dice, «las funciones regulares casi siempre ganan».

Corrige los datos, no solo el modelo

Antes de pensar en ajustar a tu modelo, debes arreglar la recuperación. Como sugiere Ng, la mayoría de las «malas respuestas» de Rag (Generación de recuperación de generación) Los sistemas se autoinfligen: el resultado de fragmentos descuidados, metadatos faltantes o una base de conocimiento desorganizada. No es un problema modelo; Es problema de datos.

Los equipos que ganan tratan el conocimiento como un producto. Construyen corpus estructurados, a veces utilizando agentes para elevar las entidades y las relaciones en un gráfico liviano. Califican sus sistemas de trapo como un motor de búsqueda: sobre frescura, cobertura y tasa de éxito contra un conjunto de preguntas dorados. Chunking no es solo una biblioteca predeterminada; Es una interfaz que debe diseñarse con jerarquías con nombre, títulos e IDS estables.

Y no olvides Json. Los equipos se mueven cada vez más de «texto libre y rezan» a las indicaciones para el esquema primero con estrictos validadores en el límite. Se siente aburrido hasta que sus analizadores dejan de romperse y sus herramientas dejan de fallecer. La salida restringida gira LLMS Desde pasantes conversadores hasta servicios que pueden llamar de manera segura a otros servicios.

Coloque los copilotos de codificación en las barandillas

El último empuje de OpenAi alrededor de GPT-5-Codex es menos «autocompletado» y más una cuestión de «robots» de IA que leen su repositorio, señalan errores y abren una solicitud de extracción, sugiere el cofundador de OpenAi Greg Brockman. En esa nota, ha sido Destacando la revisión del código automático en el Codex CLIcon ejecuciones exitosas incluso cuando se apuntan al «Repo» incorrecto «(encontró su camino), y la disponibilidad general de GPT-5-Codex en la API de respuestas. Ese es un nuevo nivel de competencia de repose.

Sin embargo, no está exento de complicaciones, y existe el riesgo de demasiada delegación. Como bromea valdarrama«Dejar que AI escriba todo mi código es como pagar a un sumiller para beber todo mi vino». En otras palabras, use la máquina para acelerar el código que estaría dispuesto a poseer; No exagere el juicio. En la práctica, esto significa que los desarrolladores deben apretar el bucle entre las diferencias sugeridas en AI y su CI (integración continua) y aplique pruebas en cualquier cambio generado por IA, bloqueando las fusiones en las construcciones rojas (Algo que escribí recientemente).

Todo esto apunta a otro recordatorio de que no estamos cerca de llegar al modo de piloto automático con genai. Por ejemplo, DeepMind de Google ha estado mostrando un «pensamiento» de Horizon Long más fuerte con Gemini 2.5 Deep. Eso es importante para los desarrolladores que necesitan modelos para encadenar a través de la lógica de varios pasos sin niños constantes. Pero no borra la brecha de confiabilidad entre una tabla de clasificación y su objetivo de nivel de servicio de tiempo de actividad.

Todo ese consejo es bueno para el código, pero también hay una ecuación presupuestaria involucrada, Como Tomasz Tunguz ha argumentado. Es fácil de olvidar, pero el medidor siempre se ejecuta en las llamadas API a los modelos fronterizos, y una característica que parece brillante en una demostración puede convertirse en un agujero negro financiero a escala. Al mismo tiempo, las aplicaciones sensibles a la latencia no pueden esperar a un modelo lento y costoso como GPT-4 para generar una respuesta simple.

Esto ha dado lugar a una nueva clase de ingeniería de IA centrada en la optimización de costo de rendimiento. Los equipos más inteligentes están tratando esto como una preocupación arquitectónica de primera clase, no como una ocurrencia tardía. Están construyendo enrutadores inteligentes o «cascadas de modelos» que envían consultas simples a modelos más baratos y más rápidos (como Haiku o Gemini Flash), y están reservando los modelos costosos y de alta potencia para tareas de razonamiento complejos. Este enfoque requiere una clasificación sólida de la intención del usuario por adelantado, un problema de ingeniería clásico ahora aplicado a LLM orquestación. Además, los equipos se están moviendo más allá de Redis básico para el almacenamiento en caché. La nueva frontera es el almacenamiento en caché semántico, donde los sistemas almacenan en caché el significado de la respuesta de un aviso, no solo el texto exacto, lo que les permite servir un resultado en caché para consultas futuras semánticamente similares. Esto convierte la optimización de costos en una práctica núcleo y disciplinada.

Un agujero negro supermasivo: seguridad

Y luego está la seguridad, que en la era de la IA generativa ha adquirido una nueva dimensión surrealista. Las mismas barandillas que colocamos en el código generado por IA deben aplicarse a la entrada del usuario, porque cada aviso debe tratarse como potencialmente hostil.

No solo estamos hablando de vulnerabilidades tradicionales. Estamos hablando de una inyección inmediata, donde un usuario malicioso engaña a un LLM para ignorar sus instrucciones y ejecutar comandos ocultos. Este no es un riesgo teórico; Está sucediendo, y los desarrolladores ahora están lidiando con el OWASP Top 10 para aplicaciones de modelos de idiomas grandes.

Las soluciones son una combinación de higiene de seguridad antigua y nueva. Significa rigurosamente sandboxing las herramientas que un agente puede usar, asegurando un privilegio mínimo. Significa implementar una validación de salida estricta y, lo que es más importante, la validación de la intención antes de ejecutar cualquier comando generado por LLM. No se trata solo de desinfectar cadenas; Se trata de construir un perímetro alrededor del razonamiento poderoso pero peligrosamente flexible de la modelo.

Estandarización en su camino?

Una de las victorias más tranquilas del año pasado ha sido la continua marcha de Protocolo de contexto del modelo y otros para convertirse en una forma estándar de exponer herramientas y datos a modelos. MCP no es sexy, pero eso es lo que lo hace tan útil. Promete interfaces comunes con menos scripts de pegamento. En una industria donde todo cambia a diario, el hecho de que MCP se haya quedado durante más de un año sin ser reemplazado es una hazaña tranquila.

Esto también nos da la oportunidad de formalizar el acceso de menor privilegio para la IA. Trate las herramientas de un agente como las API de producción: dales Scopes, cuotas y registros de auditoría, y requiere aprobaciones explícitas para acciones sensibles. Definir contratos de herramientas ajustadas y rotar credenciales como lo haría para cualquier otra cuenta de servicio. Es una disciplina de la vieja escuela para un problema de la nueva escuela.

De hecho, es el pragmatismo serio de estas mejores prácticas emergentes lo que apunta a la meta tendencia más grande. Ya sea que estemos hablando de pruebas de agentes, enrutamiento de modelos, validación rápida o estandarización de herramientas, el tema subyacente es el mismo: la industria de la IA finalmente está llegando al trabajo serio, a menudo poco glamoroso de convertir capacidades deslumbrantes en software duradero. Es la gran profesionalización de una disciplina una vez nicho.

El ciclo de bombo continuará persiguiendo las ventanas de contexto cada vez más largas y las nuevas habilidades de razonamiento, y eso está bien; Esa es la ciencia. Pero el valor comercial real está siendo desbloqueado por equipos que aplican las lecciones de ganas de décadas de ingeniería de software. Están tratando datos como un producto, API como un contrato, seguridad como un requisito previo y presupuestos como son reales. Resulta que el futuro de la construcción con IA se parece mucho menos a un espectáculo mágico y mucho más como un proyecto de software bien administrado. Y ahí es donde está el dinero real.

Suavizando los bordes ásperos de la IA

Team

Gustavo Bolívar Advierte al Pacto Histórico

Deja una respuesta Cancelar la respuesta

Recomendada

Chase cita luchas financieras, condiciones de juego inferiores para el rendimiento

Copa por equipos: Tommy Fleetwood gana el punto ganador mientras Gran Bretaña e Irlanda dominan el evento estilo Ryder Cup | Noticias de golf

Noticias populares

«EVOLARA: TU SEGUNDO VUELO»

15 lugares para visitar en la Antártida no puede permitirse perderse

Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

Sobre nosotras

Categoría

Mensajes recientes