Nvidia ha presentado NVLM 1.0, una familia de modelos IA de lenguaje multimodales, capaz de realizar razonamientos de codificación en función de elementos gráficos como tablas, describir detalladamente de una imagen y producir guías paso a paso.
NVLM 1.0 es una familia de modelos de lenguaje grande multimodales (LLM) de clase de frontera que lograría resultados de vanguardia en tareas de lenguaje-visión.
Según Nvidia, rivaliza con los modelos propietarios líderes (por ejemplo, GPT-4o) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2). Después del entrenamiento multimodal, NVLM 1.0 mostraría una precisión mejorada en tareas de solo texto en comparación con su columna vertebral LLM.
Te puede interesar: ¿ChatGPT podría dejarnos sin agua en un futuro? Estos son los costos ambientales de chatbots
“Estamos poniendo a disposición de la comunidad los pesos del modelo y el código de entrenamiento en Megatron-Core. Comparamos NVLM 1.0 con los principales LLM multimodales de acceso abierto”.
Nvidia afirma que los resultados demuestran que NVLM 1.0 logra un rendimiento a la par de los modelos líderes tanto en tareas de visión-lenguaje como de solo texto.
Específicamente, el modelo 72B logra el OCRBench y VQAv2 más altos hasta ahora. NVLM superaría o estaría a la par con GPT-4o en todos los puntos de referencia clave, incluidos MathVista, OCRBench, ChartQA y DocVQA, excepto MMMU.
“Comparamos LLM multimodal con su LLM principal en tareas de solo texto. Llama 3-V 70B y 405B no muestran degradación en tareas de solo texto, ya que sus columnas vertebrales LLM se congelan durante el entrenamiento multimodal”.
Comparado con el modelo líder InternVL 2, el modelo NVLM-1.0 72B demuestraría mejoras significativas con respecto a su estructura de texto en las pruebas de referencia de codificación y matemáticas de solo texto, con un aumento de la precisión promedio de 4,3 puntos después del entrenamiento multimodal.
“Los resultados muestran que el NVLM-1.0 72B multimodal, que supera a Gemini 1.5 Pro, también es muy convincente para resolver tareas de solo texto (por ejemplo, matemáticas, codificación, razonamiento)”.
Además demuestra capacidades versátiles en varias tareas multimodales al utilizar conjuntamente OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad de codificación.
Te puede interesar: Copilot, la IA de Microsoft tendrá voz y visión y estará disponible en Windows, iOS y Android ¿Más humana que nunca?
Por ejemplo, entender el humor detrás del meme “abstracto vs. papel”, reconocer las etiquetas de un texto para cada imagen y usar el razonamiento para comprender por qué yuxtaponer “lo abstracto” (etiquetado con un lince de aspecto feroz) y “el papel” (etiquetado con un gato doméstico) es gracioso.
NVLM también realiza la localización con precisión para responder de manera efectiva a preguntas sensibles a la ubicación, como “¿Cuál es la diferencia entre los objetos izquierdo, medio y derecho en la imagen?”.
Sumado a que es capaz de realizar razonamiento matemático y codificación en función de información visual, como tablas y pseudocódigo escrito a mano.
El modelo NVLM-1.0-D 72B puede resolver problemas matemáticos proporcionando un razonamiento matemático paso a paso. Representamos ecuaciones en látex para facilitar su lectura.
Nvidia Corporation es una empresa de software y fabless con sede en California, que diseña unidades de procesamiento de gráficos (GPU), interfaz de programación de aplicaciones (API) para ciencia de datos y computación de alto rendimiento, así como unidades de sistema en chip (SoC) para la computación móvil y el mercado automotriz.
“Los procesadores de Nvidia son el nuevo petróleo en el sector tecnológico. La tendencia crecerá a medida que más entidades y consumidores se adapten a la Cuarta Revolución Industrial en marcha”, pronostica Daniel Ives, analista de la firma privada de servicios financieros Wedbush Securities.
Imagen: Archivo ENTER.CO