
Agentes basados en la visión
Los agentes basados en visión tratan el navegador como un lienzo visual. Miran capturas de pantalla, las interpretan utilizando modelos multimodales y generan acciones de bajo nivel como «hacer clic (210,260)» o «escribir» Peter Pan «. Esto imita cómo un humano usaría una computadora: leer texto visible, ubicar botones visualmente y hacer clic donde sea necesario.
La ventaja es la universalidad: el modelo no necesita datos estructurados, sólo píxeles. La desventaja es la precisión y el rendimiento: los modelos visuales son más lentos, requieren desplazarse por toda la página y tienen problemas con cambios de estado sutiles entre capturas de pantalla (“¿Ya se puede hacer clic en este botón?”).
Agentes basados en DOM
Los agentes basados en DOM, por el contrario, operan directamente en el Modelo de objetos de documento (DOM), el árbol estructurado que define cada página web. En lugar de interpretar píxeles, razonan sobre representaciones textuales de la página: etiquetas de elementos, atributos, roles ARIA y etiquetas.




