Latxa, la inteligencia artificial con ADN vasco que ya supera a ChatGPT

Latxa, la inteligencia artificial (IA) desarrollada en el Centro Vasco de Tecnología del Lenguaje (HiTZ) de la Universidad del País Vasco (UPV/EHU), entrenada sobre el mayor corpus público en euskera, es decir, con más de 4 millones de documentos y 1200 millones de palabras, ha superado ya al entrenamiento del mismísimo Chat GPT 3.5, la versión original de la IA generativa desarrollada por Open AI, que salió al mercado en noviembre de 2022 y ha revolucionado el mundo. Financiada con fondo públicos vasco, nacionales y europeos, se trata del mayor modelo de gran lenguaje (LLM) en Euskera, por primera vez para un modelo abierto de un idioma de pocos recursos digitales, supera la última versión (GPT-4) en competencia lingüística.

Tal y como explican desde la universidad pública vasca, Latxa (que en un tipo de ovino propio de Euskadi) un modelo de gran lenguaje o LLM en sus siglas en inglés es el tipo de inteligencia artificial que emplea técnicas de aprendizaje automático para comprender y generar lenguaje humano, pero que para ello debe entrenarse, ya que se basa en el conocimiento obtenido de conjuntos de datos masivos.

para entrenar a Latxa se han utilizado más de 4 millones de documentos y 1200 millones de palabras

Y eso es lo que han estado haciendo en el HiTZ de la UPV, entrenar a Latxa para convertirla en una «familia de modelos de lenguaje para el euskera», pero entrenada con el mayor corpus de textos de licencia libre, que dobla en tamaño a sus predecesores. Los corpus son una colección estructurada de textos escritos o grabaciones orales que se utilizan para entrenar y evaluar modelos de IA.

Además, también se han utilizado para su entrenamiento varios bancos de prueba sobre competencia lingüística, comprensión lectora, cultura general y exámenes profesionales. Según explica el director del centro HiTZ, Eneko Agirre, Latxa supera a la versión de ChatGPT original lanzado hace poco más de un año (ahora conocido como GPT 3.5), y por primera vez para un modelo abierto de un idioma de pocos recursos digitales, supera también la última versión (GPT-4) en competencia lingüística. «Cuando salió ChatGPT era inimaginable que se pudiera conseguir un modelo abierto que lo superara en euskera», recuerda Agirre.

El logro está en que esta IA con «ADN vasco» incluye el mayor modelo entrenado para cualquier idioma en España, y «refuerza el liderazgo del centro de investigación HiTZ en los modelos de lenguaje de gran tamaño», sostienen desde el centro. Latxa, está basado en los modelos «Llama» de Meta y reúnen entre 7 y 70 mil millones de parámetros. «Los LLMs de hoy en día tienen un impresionante rendimiento en idiomas con muchos recursos; por ejemplo, ChatGPT o Gemini en inglés o castellano. Pero en el caso del euskera y otros idiomas con pocos recursos digitales, su rendimiento es bastante inferior», explican.

Latxa supera a la versión de ChatGPT original lanzado hace poco más de un año (ahora conocido como GPT 3.5), y por primera vez para un modelo abierto de un idioma de pocos recursos digitales, supera también la última versión (GPT-4) en competencia lingüística

Este rendimiento inferior es el que aumenta la brecha tecnológica entre los idiomas que cuentan con muchos recursos y los que tiene menos, sobre todo en materia de herramientas digitales. Y por esa razón, desde el centro se han puesto manos a la obra hasta conseguir que la inteligencia artificial Latxa supere esos límites, y así crear una herramienta que fomente el desarrollo de investigaciones, innovaciones y productor «que funcionan en euskera«.

La nueva versión de Latxa ha sido entrenada sobre el mayor corpus público en euskera, que también se distribuye junto con los modelos de IA, que extiende el ya existente EusCrawl con otros corpus construidos en su mayoría sobre contenido público en internet. Según la UPV, en total son más de 4 millones de documentos y 1200 millones de palabras, que doblan en tamaño a los corpus existentes hasta el momento.

La IA vasca ha sido también evaluada con varios «bancos de prueba» sobre competencia lingüística, comprensión lectora, cultura general y exámenes profesionales. Agirre concluye que tras estas pruebas, en las que «hemos probado los modelos Llama del inglés, así como GPT-3.5 Turbo (equivalente al ChatGPT lanzado en noviembre de 2022) y GPT-4 Turbo (el mejor modelo que tiene OpenAI) y se ve claramente que el mejor modelo Latxa supera a los Llama y a GPT-3.5 Turbo en todos los casos de prueba».

Latxa, la inteligencia artificial con ADN vasco que ya supera a ChatGPT
las cifras de la inteligencia artificial (Ia) Latxa respecto a ChatGPT son espectaculares.

INTELIGENCIA ARTIFICIAL VASCA A LA ALTURA DE CHATGPT

Pero, además, Latxa supera también supera GPT-4 Turbo en competencia lingüística, por primera vez para un modelo abierto de idiomas con pocos recursos digitales, «pero no en el resto de bancos de prueba. Por último, es de subrayar que a medida que Latxa va creciendo en tamaño, los resultados también mejoran», señala el director de HiTZ.

Los «padres» de Latxa, Julen Etxaniz, Naiara Pérez y Oscar Sainz, están orgullosos de los resultados de su «criatura» pese a lo modestas que parecían sus posibilidades inicialmente. Para Etxaniz, el logro «es notable que hayamos conseguido resultados tan buenos con un corpus relativamente tan pequeño, porque abre la puerta a más mejoras según investiguemos en nuevas técnicas. Es un resultado muy prometedor, no solamente para el euskera, sino para el resto de lenguas con pocos recursos digitales«.

En este sentido, Naiara Pérez recuerda que lo conseguido abre vías para otros idiomas minoritarios, ya que «el euskera se encuentra en la posición 50 entre los idiomas del mundo según la cantidad de texto en Internet, y hay decenas de otras lenguas que tienen cantidades similares de texto, con lo que las técnicas aplicadas al euskera pueden también aplicarse a esos idiomas con resultados previsiblemente similares».

Es un resultado muy prometedor, no solamente para el euskera, sino para el resto de lenguas con pocos recursos digitales. las técnicas aplicadas al euskera pueden también aplicarse a esos idiomas con resultados previsiblemente similares»

Oscar Sainz pone el foco en que Latxa ha superado a GPT-4 Turbo en competencia lingüística pero no en el resto de pruebas, lo que sugiere que las capacidades de la IA generativa en un idioma concreto no están determinadas solo por su capacidad lingüística, «lo que abre la puerta a mejorar resultados en inteligencia artificial en idiomas con pocos recursos digitales como el euskera, según se desarrollen mejores modelos abiertos para el inglés. Con la creciente competencia en este área, bastaría con esperar a modelos abiertos mejores que Llama y entonces podríamos entrenar un Latxa que supere a GPT-4«.

No obstante, desde el centro de la UPV advierten que su IA no está preparada ni pensada para ser utilizada por el público en general, porque su modelo es básico, es decir, que no se ha afinado en cuanto a instrucciones o preferencias, aunque su software se publica en abierto porque los modelos Latxa son esenciales para construir herramientas exitosas que utilicen tecnología lingüística para el euskera.

Latxa, la inteligencia artificial con ADN vasco que ya supera a ChatGPT
Logo de la inteligencia artificial en euskera, Latxa.

«Publicamos estos modelos abiertos, para que el personal técnico experto los utilice para desarrollar productos o para que ajuste el modelo a las aplicaciones que le interesen». Todavía trabajan en que IA sea fácil de usar, por lo que trabajan para desarrollar modelos capaces de seguir instrucciones de los usuarios y construir modelos «conversacionales en euskera con una calidad similar al castellano o al inglés», según explican desde HiTZ.

En cualquier caso, desde el centro vasco afirman que el modelo de 70B de Latxa es el mayor entrenado «de cualquier idioma en el Estado y refuerza el liderazgo del centro de investigación HiTZ en los modelos de lenguaje de gran tamaño», dice su director.

Esta inteligencia artificial en euskera se ha desarrollado en el marco del proyecto IKER-GAITU financiado por el Gobierno Vasco, en colaboración con el proyecto ILENIA financiado por el Ministerio para la Transformación Digital y de la Función Pública y por el Plan de Recuperación, Transformación y Resiliencia, financiado con los fondos NextGenerationEU. HiTZ ha utilizado su propia infraestructura de cómputo de alto rendimiento (HPC), y los modelos finales se han entrenado en el superordenador Leonardo de CINECA, dentro del EuroHPC Joint Undertaking.