¿Estás listo para Llama 2 long? Hace unos días te hablamos de Llama 2 en el artículo donde explicamos las nuevas funciones de inteligencia artificial de Meta para sus servicios de cara al consumidor Facebook, Instagram y WhatsApp. El anuncio ha dado la vuelta al mundo, y no es para menos: que la IA llegue a esas apps supondrá la universalización de su uso. Hasta tu madre va a charlar con un chatbot. Hoy, con mucho menos estruendo, Llama 2 vuelve a ser noticia.

Pero la mayor noticia de la empresa de Mark Zuckerberg puede haber llegado en forma de un artículo de ciencias de la computación publicado sin bombo ni platillo por investigadores de Meta en el sitio web de acceso abierto y sin revisión por pares arXiv.org.

(Relacionado: Cómo convertir texto en canción online gratis)

¿Qué es Llama 2 Long?

El artículo presenta Llama 2 Long, un nuevo modelo de inteligencia artificial basado en Llama 2, el modelo de código abierto de Meta publicado en verano, pero que ha sido sometido a un «preentrenamiento continuo a partir de Llama 2 con secuencias de entrenamiento más largas y en un conjunto de datos en el que los textos largos están sobremuestreados», según los investigadores-autores del artículo. La principal conclusión es que Llama 2 supera a Chat GPT y Claude en peticiones largas.

Como resultado, el nuevo modelo de IA alargada de Meta supera a algunos de los principales competidores en la generación de respuestas a peticiones de usuario largas (con un mayor número de caracteres), incluido el GPT-3.5 Turbo de OpenAI con una ventana de contexto de 16.000 caracteres, así como Claude 2 con su ventana de contexto de 100.000 caracteres.

(Relacionado: Las 7 claves para escribir un buen prompt en Chat GPT)

Cómo surgió LLama 2 Long

Como funciona Llama 2 long

Los investigadores de Meta tomaron el Llama 2 original disponible en sus diferentes tamaños de parámetros de entrenamiento (los valores de datos e información que el algoritmo puede cambiar por sí solo a medida que aprende, que en el caso de Llama 2 vienen en variantes de 7.000 millones, 13.000 millones, 34.000 millones y 70.000 millones) e incluyeron más fuentes de datos de texto más largos que el conjunto de datos de entrenamiento del Llama 2 original. Para ser exactos, otros 400.000 millones de tokens.

A continuación, los investigadores mantuvieron la arquitectura original de Llama 2 y sólo introdujeron una «modificación necesaria en la codificación posicional que es crucial para que el modelo atienda durante más tiempo».

Dicha modificación consistió en la codificación RoPE (Rotary Positional Embedding), un método de programación del modelo transformador subyacente a los LLM como Llama 2 (y LLama 2 Long), que básicamente mapea sus incrustaciones de tokens (los números utilizados para representar palabras, conceptos e ideas) en un gráfico tridimensional que muestra sus posiciones con respecto a otros tokens, incluso cuando se giran. Esto permite a un modelo producir respuestas precisas y útiles, con menos información (y, por tanto, menos almacenamiento informático ocupado) que otros enfoques.

¿Qué diferencias hay entre el Llama 2 original y Llama 2 long?

Los investigadores de Meta «redujeron el ángulo de rotación» de su codificación RoPE de Llama 2 a Llama 2 Long, lo que les permitió asegurarse de que los «tokens más distantes», los que aparecen más raramente o con menos relaciones con otros elementos de información, seguían incluidos en la base de conocimientos del modelo.

Utilizando el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), un método habitual de entrenamiento de modelos de IA en el que se recompensa a la IA por las respuestas correctas con supervisión humana para comprobarlas, y datos sintéticos generados por el propio chat de Llama 2, los investigadores pudieron mejorar su rendimiento en tareas habituales de LLM, como codificación, matemáticas, comprensión del lenguaje, razonamiento de sentido común y respuesta a las preguntas de un usuario humano.

Con unos resultados tan impresionantes en comparación con Llama 2 regular, Claude 2 de Anthropic y GPT-3.5 Turbo de OpenAI, no es de extrañar que la comunidad de IA de código abierto de Reddit, Twitter y Hacker News haya expresado su admiración y entusiasmo por Llama 2 desde la publicación del artículo a principios de esta semana: es una gran validación del enfoque de «código abierto» de Meta hacia la IA generativa, e indica que el código abierto puede competir con los modelos de código cerrado y «pagar para jugar» que ofrecen las empresas emergentes bien financiadas.