
A principios de esta semana, Bloomberg reportado que Google y Apple están cerca de llegar a un acuerdo anual de mil millones de dólares para una versión del modelo Gemini que impulsará el renovado Siri el próximo año.
Pero quizás más interesante que el precio sea un factor que realmente afectará la experiencia de todos: su arquitectura. He aquí un vistazo a cómo probablemente funcionará.
¿Son mucho 1,2 billones de parámetros?
De acuerdo a Bloomberg's informeGoogle proporcionará a Apple un modelo de parámetros de 1,2 billones, que residirá en los servidores Private Cloud Compute de Apple, impidiendo efectivamente que Google acceda a cualquiera de ellos. En cuanto a la privacidad, eso es genial.
En cuanto al tamaño, un modelo de 1,2 billones de parámetros no es nada despreciable. Sin embargo, una comparación directa con los últimos y mejores modelos de la competencia es todo un desafío.
Esto se debe a que en los últimos años, laboratorios de inteligencia artificial de frontera cerrada como OpenAI, Anthropic y Google han dejado de revelar los recuentos de parámetros de sus últimos modelos emblemáticos. Esto ha llevado a especulaciones muy diversas sobre el verdadero número de parámetros de ofertas como GPT-5, Gemini 2.5 Pro y Claude Sonnet 4.5. Algunos los sitúan por debajo del billón de parámetros, mientras que otros sugieren que alcancen unos pocos billones. En realidad, nadie lo sabe realmente.
Por otro lado, una cosa que la mayoría de estos enormes últimos modelos tienen en común es una arquitectura subyacente conocida como mezcla de expertos (MoE). De hecho, Apple ya emplea una versión de MoE en su modelo actual basado en la nubeque se rumorea que tiene 150 mil millones de parámetros.
El modelo Gemini de Siri probablemente utilizará una mezcla de expertos
En pocas palabras, MoE es una técnica que estructura un modelo con múltiples subredes especializadas llamadas «expertos». Para cada entrada, solo se activan unos pocos expertos relevantes, lo que da como resultado un modelo más rápido y más eficiente desde el punto de vista computacional.
En otras palabras, esto permite que los modelos MoE tengan recuentos de parámetros muy altos, manteniendo al mismo tiempo los costos de inferencia mucho más bajos que si el 100% de sus parámetros tuvieran que activarse para cada entrada.
Aquí hay otra cosa acerca de los modelos que adoptan el enfoque MoE: generalmente tienen una cantidad máxima de expertos activos y una cantidad máxima de parámetros activos para cada entrada, lo que resulta en algo como esto:
Un modelo con 1,2 billones de parámetros totales podría utilizar 32 expertos, con sólo 2 a 4 expertos activos por token. Esto significa que solo entre 75 y 150 mil millones de parámetros realmente están realizando cálculos en un momento dado, lo que le brinda la capacidad de un modelo masivo y al mismo tiempo mantiene costos computacionales similares a los de ejecutar un modelo mucho más pequeño.
Aquí hay un excelente video realizado por IBM que explica con más detalle cómo funciona MoE:
Para ser claros, no ha habido informes sobre la arquitectura del modelo que Google podría proporcionarle a Apple, en caso de que cierren el trato sobre su supuesta asociación. Pero con 1,2 billones de parámetros, es muy Es probable que requiera que el enfoque del Ministerio de Educación funcione de manera eficiente, dadas las alternativas disponibles en la actualidad.
Si ese tamaño será suficiente para mantener a Siri con tecnología Gemini competitiva con los modelos que estarán disponibles cuando se lance el próximo año, es una historia diferente.
Ofertas de accesorios en Amazon
FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.





