Hoy, Deepseek es una de las únicas empresas de IA líderes en China que no depende de los fondos de gigantes tecnológicos como Baidu, Alibaba o Bytedance.
Un joven grupo de genios ansiosos por demostrar su valía
Según Liang, cuando reunió el equipo de investigación de Deepseek, no estaba buscando ingenieros experimentados para construir un producto orientado al consumidor. En cambio, se centró en los estudiantes de doctorado de las mejores universidades de China, incluidas la Universidad de Pekín y la Universidad de Tsinghua, que estaban ansiosos por demostrar su valía. Muchos habían sido publicados en las principales revistas y ganaron premios en conferencias académicas internacionales, pero carecían de experiencia en la industria, según La publicación tecnológica china Qbitai.
«Nuestros puestos técnicos principales están ocupados principalmente por personas que se graduaron este año o en los últimos uno o dos años», Liang le dijo a 36Kr en 2023. La estrategia de contratación ayudó a crear una cultura de la empresa colaborativa donde las personas eran libres de usar amplios recursos informáticos para realizar proyectos de investigación poco ortodoxos. Es una forma muy diferente de operar desde compañías de Internet establecidas en China, donde los equipos a menudo compiten por los recursos. (Un ejemplo reciente: Bytedance acusó a un ex pasante—Un prestigioso ganador del premio académico, nada menos, para sabotear el trabajo de sus colegas para acumular más recursos informáticos para su equipo).
Liang dijo que los estudiantes pueden ser mejor para la investigación de alta inversión y baja finos de fines de lucro. «La mayoría de las personas, cuando son jóvenes, pueden dedicarse completamente a una misión sin consideraciones utilitarias», explicó. Su lanzamiento a los posibles contrataciones es que Deepseek fue creado para «resolver las preguntas más difíciles del mundo».
El hecho de que estos jóvenes investigadores estén casi completamente educados en China se suma a su impulso, dicen los expertos. «Esta generación más joven también encarna una sensación de patriotismo, particularmente mientras navegan por las restricciones de los EE. UU. Y los puntos de estrangulamiento en las tecnologías críticas de hardware y software», explica Zhang. «Su determinación de superar estas barreras refleja no solo la ambición personal, sino también un compromiso más amplio para avanzar en la posición de China como líder de innovación global».
Innovación nacida de una crisis
En octubre de 2022, el gobierno de los Estados Unidos comenzó a reunir controles de exportación que restringieron severamente a las compañías chinas de IA para acceder a chips de vanguardia como el H100 de NVIDIA. El movimiento presentó un problema para Deepseek. La firma había comenzado con una reserva de 10,000 H100, pero necesitaba más para competir con empresas como OpenAi y Meta. «El problema que enfrentamos nunca ha sido financiación, pero el control de exportación en chips avanzados», dijo Liang a 36Kr en una segunda entrevista en 2024.
Deepseek tuvo que encontrar métodos más eficientes para capacitar a sus modelos. «Optimizaron su arquitectura de modelos utilizando una batería de trucos de ingeniería: esquemas de comunicación conscientes entre chips, reduciendo el tamaño de los campos para ahorrar memoria y el uso innovador del enfoque de combinación de modelos», dice Wendy Chang, un ingeniero de software convertido en política Analista del Instituto Mercator de Estudios de China. «Muchos de estos enfoques no son nuevas ideas, pero combinarlas con éxito para producir un modelo de vanguardia es una hazaña notable».
Deepseek también ha logrado un progreso significativo en la atención latente de múltiples cabezas (MLA) y la mezcla de expertos, dos diseños técnicos que hacen que los modelos DeepSeek sean más rentables al requerir menos recursos informáticos para entrenar. De hecho, el último modelo de Deepseek es tan eficiente que requirió una décima parte del poder informático del modelo de Llama 3.1 comparable de Meta para entrenar, Según la institución de investigación, Epoch AI.
La voluntad de Deepseek de compartir estas innovaciones con el público le ha ganado una considerable buena voluntad dentro de la comunidad de investigación de IA Global. Para muchas compañías chinas de IA, desarrollar modelos de código abierto es la única forma de ponerse al día con sus homólogos occidentales, porque atrae a más usuarios y contribuyentes, lo que a su vez ayuda a los modelos a crecer. «Ahora han demostrado que los modelos de vanguardia se pueden construir usando menos, aunque aún mucho, el dinero y que las normas actuales de construcción de modelos dejan mucho espacio para la optimización», dice Chang. «Estamos seguros de ver muchos más intentos en esta dirección en el futuro».
La noticia podría significar problemas para los controles actuales de exportación de los Estados Unidos que se centran en crear cuellos de botella de recursos informáticos. «Las estimaciones existentes de la cantidad de alimentación informática de IA tienen China y lo que pueden lograr con ella, podrían volcarse», dice Chang.




