
Las compañías que buscan construir modelos de IA más grandes se han visto cada vez más obstaculizadas por la falta de datos de capacitación de alta calidad. A medida que las empresas tecnológicas recorren la web para obtener más datos para alimentar sus modelos, podrían confiar cada vez más en datos de usuario potencialmente confidenciales. Un equipo de Google Research está explorando nuevas técnicas para que los modelos de lenguaje grandes (LLM) resultantes sean menos propensos a «memorizar» cualquiera de ese contenido.
Los LLM tienen salidas no deterministas, lo que significa que no puede predecir exactamente lo que dirán. Si bien la salida varía incluso para entradas idénticas, los modelos a veces regurgitan algo de sus datos de entrenamiento; si se capacita con datos personales, la salida podría ser una violación de la privacidad del usuario. En caso de que los datos con derechos de autor lleguen a los datos de capacitación (ya sea accidentalmente o a propósito), su apariencia en salidas puede causar un tipo diferente de dolor de cabeza para los desarrolladores. La privacidad diferencial puede evitar dicha memorización mediante la introducción de ruido calibrado durante la fase de entrenamiento.
Agregar privacidad diferencial a un modelo viene con inconvenientes en términos de precisión y requisitos de cálculo. Nadie se ha molestado en descubrir el grado en que altera las leyes de escala de los modelos de IA hasta ahora. El equipo trabajó desde la suposición de que el rendimiento del modelo se vería afectado principalmente por la relación de lote de ruido, lo que compara el volumen de ruido aleatorizado con el tamaño de los datos de entrenamiento originales.
Al ejecutar experimentos con diferentes tamaños de modelo y relaciones de lote de ruido, el equipo estableció una comprensión básica de las leyes de escala de privacidad diferencial, que es un equilibrio entre el presupuesto de cálculo, el presupuesto de privacidad y el presupuesto de datos. En resumen, más ruido conduce a salidas de menor calidad a menos que se compensan con un presupuesto de cálculo (FLOP) o un presupuesto de datos (tokens). El papel Detalla las leyes de escala para los LLM privados, lo que podría ayudar a los desarrolladores a encontrar una relación ideal de lote de ruido para que un modelo sea más privado.




