
El problema central: contexto versus reglas
Las herramientas SAST tradicionales, como sabemos, están sujetas a reglas; inspeccionan código, código de bytes o binarios en busca de patrones que coincidan con fallas de seguridad conocidas. Si bien son efectivos, a menudo fallan cuando se trata de comprensión contextual, faltan vulnerabilidades en fallas lógicas complejas, dependencias de múltiples archivos o rutas de código difíciles de rastrear. Esta brecha es la razón por la cual sus tasas de precisión y el porcentaje de vulnerabilidades reales entre todos los hallazgos reportados siguen siendo bajos. En nuestro estudio empírico, la herramienta SAST ampliamente utilizada, Semgrepinformó una precisión de sólo el 35,7%.
Nuestro Combinación LLM-SAST está diseñado para cerrar esta brecha. Los LLM, previamente capacitados en conjuntos de datos de código masivos, poseen capacidades de reconocimiento de patrones para el comportamiento del código y un conocimiento de las dependencias del que carecen las reglas deterministas. Esto les permite razonar sobre el comportamiento del código en el contexto del código circundante, los archivos relevantes y toda la base del código.
Un proceso de dos etapas para la clasificación inteligente
Nuestro marco funciona como un proceso de dos etapas, aprovechando un núcleo SAST (en nuestro caso, Semgrep) para identificar riesgos potenciales y luego alimentando esa información a una capa impulsada por LLM para un análisis y validación inteligentes.




