El nuevo modelo de lenguaje capaz de generar descripciones detalladas de imágenes.
El nuevo modelo de lenguaje capaz de generar descripciones detalladas de imágenes.

King Abdullah de la Universidad de Ciencia y Tecnología, de Arabia Saudita, ha desarrollado MiniGPT-4, un modelo de lenguaje de gran tamaño de código abierto, que utiliza la tecnología de decodificación de lenguaje avanzado llamado Vicuna para realizar tareas complejas de visión y lenguaje. MiniGPT-4 es capaz de generar descripciones detalladas de imágenes, crear sitios web a partir de bocetos escritos a mano y resolver problemas basados en imágenes.

Este modelo ha sido diseñado para explorar la hipótesis de que el rendimiento excepcional del GPT-4 se debe a un modelo de lenguaje de gran tamaño avanzado. Según los investigadores, MiniGPT-4 presenta habilidades similares a las del GPT-4, como la capacidad de generar descripciones detalladas de imágenes y la creación de sitios web a partir de bocetos escritos a mano.

El equipo de investigación de KAUST ha utilizado la componente de visión pre-entrenada de BLIP-2 para MiniGPT-4 y ha agregado una sola capa de proyección para alinear las características visuales codificadas con el modelo de lenguaje Vicuna. Según el estudio, entrenar una capa de proyección puede alinear eficientemente las características visuales con los modelos de lenguaje. Además, MiniGPT-4 solo necesita aproximadamente 5 millones de pares de imágenes y texto para entrenar una capa de proyección, lo que lo hace altamente eficiente en términos de cálculo.

El equipo también destacó que entrenar MiniGPT-4 utilizando pares de imágenes y texto de baja calidad puede generar frases repetitivas y oraciones fragmentadas. Para superar esta limitación, MiniGPT-4 necesita ser entrenado con un conjunto de datos de alta calidad y bien alineado para mejorar la coherencia y naturalidad del lenguaje generado.

En resumen, MiniGPT-4 parece ser una prometedora herramienta de generación multimodal debido a sus notables habilidades y su alta eficiencia computacional. El modelo, el código y el conjunto de datos pre-entrenados están disponibles para cualquier interesado en usarlo.


Libro recomendado sobre inteligencia artificial:

Cómo Ganar Dinero por Internet con Inteligencia Artificial