El esperado modelo de IA Gemini Pro de Google ha sido lanzado hoy por fin en Bard. A medias. Aunque Google asegura que su nuevo LLM Gemini es superior a GPT-4, tendremos que esperar al año que viene para poder usarlo. Google afirma que Gemini es su modelo de IA más flexible hasta la fecha, capaz de ejecutarse eficientemente en la nube en grandes centros de datos y también localmente en dispositivos móviles.

El despliegue de Gemini se desarrollará por fases, con versiones menos sofisticadas de Gemini llamadas «Nano» y «Pro» que se incorporarán inmediatamente al chatbot Bard de Google impulsado por IA y a su smartphone Pixel 8 Pro.

Ya se puede probar una versión simplificada de Gemini incapaz (todavía) de plantarle cara a ChatGPT 4

Lo que ya se puede probar es una versión más pequeña y con menos capacidades (y en inglés). Como te comentamos hace unos días, Google lanzará la versión de Gemini con más capacidad, llamada Ultra, a principios de 2024. La versión disponible hoy sólo le planta cara a GPT 3.5.

Según Google, el Gemini Pro lanzado hoy (y que ya puede usarse en Bard) es un competidor del modelo de IA GPT-3.5 de OpenAI, que ya tiene un año. Se supone que supera al modelo de OpenAI en seis de ocho pruebas comparativas.

Una versión aún más compacta, Nano (1,8B de parámetros y 3,25B de parámetros), está optimizada para el desarrollo de aplicaciones Android. Los modelos Nano se obtienen a partir de los modelos Gemini de mayor tamaño.

Estas son las diferentes versiones de Gemini

La empresa ha optimizado Gemini en tres tamaños diferentes:

  • Gemini Ultra es la versión más grande, dirigida a tareas de alta complejidad como la investigación científica y el análisis de datos. Se trata de la versión con mayor capacidad de cálculo.
  • Gemini Pro está diseñado para escalar en una amplia gama de aplicaciones. Se utilizará en productos de Google como la IA conversacional Bard y para potenciar las nuevas funciones del smartphone Pixel.
  • Gemini Nano es un modelo ligero que puede ejecutarse localmente en smartphones y otros dispositivos.

Pro y Nano están disponibles a través de Google Cloud, y Google afirma que funcionan con sus propios chips de inteligencia artificial TPU. Google no especifica los parámetros de los modelos más grandes. Al igual que los LLM de otros proveedores, Google afirma que Gemini sigue luchando contra las alucinaciones.

Se espera que la versión más grande de Gemini, Ultra, supere al GPT-4 de OpenAI en pruebas de referencia populares para la comprensión de texto e imágenes y la generación de código. Ultra se lanzará a principios de 2024 y también se integrará en una versión «avanzada» del chatbot Bard.Google Gemini vs Chat GPT

Los resultados de las pruebas de Google deben ser confirmados por terceros independientes. Deepmind ha ofrecido más resultados de pruebas comparativas que puede ver aquí.

Google Deepmind: «La evaluación de una amplia gama de puntos de referencia muestra que nuestro modelo Gemini Ultra, el más capaz, avanza el estado de la técnica en 30 de 32 de estos puntos de referencia, especialmente siendo el primer modelo en lograr un rendimiento humano-experto en el estudiado punto de referencia de exámenes MMLU, y mejorando el estado de la técnica en cada uno de los 20 puntos de referencia multimodales que examinamos».

Prodigio Multimodal

Como era de esperar, Gemini es multimodal, lo que significa que puede manejar texto, imágenes, audio, vídeo y código. Gemini no ofrece actualmente generación de imágenes, pero según la documentación técnica, esta función está disponible y probablemente se introducirá con el tiempo. A Gemini se le pueden pedir imágenes, texto o una combinación de ambos.

Mira el siguiente vídeo para quedarte impresionado con la capacidad de Gemini para reconocer e interactuar con información que le vamos mostrando:

¿Cómo será Google Gemini Ultra?

En resumen, la novedad verdaderamente importante (el LLM que, en teoría, sería mejor que Chat GPT 4) será la versión Ultra de Gemini que aparecerá a principios del año que viene.

  • Longitud de contexto: 32.000
  • Mecanismos de atención eficientes (por ejemplo, atención a múltiples consultas.
  • Entrada de audio mediante características del Modelo Universal del Habla.
  • Sin salida de audio
  • La codificación visual de los modelos Gemini se inspira en nuestros propios trabajos fundacionales sobre Flamingo.
  • Imágenes de salida mediante tokens de imagen discretos.
  • Ajuste fino supervisado (SFT) y aprendizaje por refuerzo mediante retroalimentación humana (RLHF)

Prueba Gemini Pro gratis en Google Bard

Google está integrando Gemini con Bard en dos fases. A partir de hoy, Bard utilizará una versión personalizada de Gemini Pro English que ofrece funciones mejoradas de comprensión, resumen, planificación y codificación. Gemini Pro English está disponible en más de 170 países y territorios, según Google.

Según Google, Gemini Pro superó a GPT-3.5 en seis de las ocho pruebas de referencia, incluidas Massive Multitask Language Understanding (MMLU) y GSM8K, que mide la capacidad de resolución de problemas matemáticos en la escuela primaria.

Puedes leer más información sobre Google Gemini en la web de Deepmind