Nvidia lanza modelo IA que entiende humor de memes “superando a GPT-4o”

octubre 3, 2024

Nvidia ha presentado NVLM 1.0, una familia de modelos IA de lenguaje multimodales, capaz de realizar razonamientos de codificación en función de elementos gráficos como tablas, describir detalladamente de una imagen y producir guías paso a paso.

NVLM 1.0 es una familia de modelos de lenguaje grande multimodales (LLM) de clase de frontera que lograría resultados de vanguardia en tareas de lenguaje-visión.

Según Nvidia, rivaliza con los modelos propietarios líderes (por ejemplo, GPT-4o) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2). Después del entrenamiento multimodal, NVLM 1.0 mostraría una precisión mejorada en tareas de solo texto en comparación con su columna vertebral LLM.

Te puede interesar: ¿ChatGPT podría dejarnos sin agua en un futuro? Estos son los costos ambientales de chatbots

“Estamos poniendo a disposición de la comunidad los pesos del modelo y el código de entrenamiento en Megatron-Core. Comparamos NVLM 1.0 con los principales LLM multimodales de acceso abierto”.

Nvidia afirma que los resultados demuestran que NVLM 1.0 logra un rendimiento a la par de los modelos líderes tanto en tareas de visión-lenguaje como de solo texto.

Específicamente, el modelo 72B logra el OCRBench y VQAv2 más altos hasta ahora. NVLM superaría o estaría a la par con GPT-4o en todos los puntos de referencia clave, incluidos MathVista, OCRBench, ChartQA y DocVQA, excepto MMMU.

“Comparamos LLM multimodal con su LLM principal en tareas de solo texto. Llama 3-V 70B y 405B no muestran degradación en tareas de solo texto, ya que sus columnas vertebrales LLM se congelan durante el entrenamiento multimodal”.

Comparado con el modelo líder InternVL 2, el modelo NVLM-1.0 72B demuestraría mejoras significativas con respecto a su estructura de texto en las pruebas de referencia de codificación y matemáticas de solo texto, con un aumento de la precisión promedio de 4,3 puntos después del entrenamiento multimodal.

“Los resultados muestran que el NVLM-1.0 72B multimodal, que supera a Gemini 1.5 Pro, también es muy convincente para resolver tareas de solo texto (por ejemplo, matemáticas, codificación, razonamiento)”.

Además demuestra capacidades versátiles en varias tareas multimodales al utilizar conjuntamente OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad de codificación.

Te puede interesar: Copilot, la IA de Microsoft tendrá voz y visión y estará disponible en Windows, iOS y Android ¿Más humana que nunca?

Por ejemplo, entender el humor detrás del meme “abstracto vs. papel”, reconocer las etiquetas de un texto para cada imagen y usar el razonamiento para comprender por qué yuxtaponer “lo abstracto” (etiquetado con un lince de aspecto feroz) y “el papel” (etiquetado con un gato doméstico) es gracioso.

NVLM también realiza la localización con precisión para responder de manera efectiva a preguntas sensibles a la ubicación, como “¿Cuál es la diferencia entre los objetos izquierdo, medio y derecho en la imagen?”.

Sumado a que es capaz de realizar razonamiento matemático y codificación en función de información visual, como tablas y pseudocódigo escrito a mano.

El modelo NVLM-1.0-D 72B puede resolver problemas matemáticos proporcionando un razonamiento matemático paso a paso. Representamos ecuaciones en látex para facilitar su lectura.

Nvidia Corporation es una empresa de software y fabless con sede en California, que diseña unidades de procesamiento de gráficos (GPU), interfaz de programación de aplicaciones (API) para ciencia de datos y computación de alto rendimiento, así como unidades de sistema en chip (SoC) para la computación móvil y el mercado automotriz.

“Los procesadores de Nvidia son el nuevo petróleo en el sector tecnológico. La tendencia crecerá a medida que más entidades y consumidores se adapten a la Cuarta Revolución Industrial en marcha”, pronostica Daniel Ives, analista de la firma privada de servicios financieros Wedbush Securities.

Imagen: Archivo ENTER.CO

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Nvidia lanza modelo IA que entiende humor de memes “superando a GPT-4o”

Te puede interesar: ¿ChatGPT podría dejarnos sin agua en un futuro? Estos son los costos ambientales de chatbots

Te puede interesar: Copilot, la IA de Microsoft tendrá voz y visión y estará disponible en Windows, iOS y Android ¿Más humana que nunca?

Digna Irene Urrea

Relacionados

Google lanza generador de videos con IA, ¿cómo funciona y qué cambia para los creadores?

Así es Ironwood, el nuevo “cerebro” de Google que promete transformar la forma en que trabajamos

¿Es justo usar el estilo Ghibli con IA? Lo que no se dice sobre estas imágenes virales

ONU revela que la IA está en pocas manos: 100 empresas concentran la inversión y 118 países no participan

María Victoria Quiñones, la jueza colombiana que usa IA de Microsoft en su tribunal: “La justicia que no espera”

Apple Intelligence ya habla español y llega a Colombia con iOS 18.4

Lo más leído de la semana

¿Tu carro vale menos de la mitad? Estas son las marcas que pierden más valor con el tiempo

El 95% del código será generado por IA, pero los ingenieros de software no desaparecerán: el CTO de Microsoft explica por qué

Nubank lanza un nuevo préstamo para nuevos trabajadores, ¿cómo acceder y dónde está disponible?

¿Si uso las llaves bancarias me cobran el 4×1000? ¿Puedo usar la misma llave en dos bancos?

Así puedes descargar libros gratis de Google Drive y otras plataformas legales

Estrenos destacados de abril en Netflix, Prime Video, Disney+ y el resto del streaming

OpenAI retira GPT-4 de ChatGPT ¿Desde cuándo aplica y qué cambia?

Así son los nuevos iconos tridimensionales de Microsoft diseñados para Office

Archivos

Nvidia lanza modelo IA que entiende humor de memes “superando a GPT-4o”

Te puede interesar: ¿ChatGPT podría dejarnos sin agua en un futuro? Estos son los costos ambientales de chatbots

Te puede interesar: Copilot, la IA de Microsoft tendrá voz y visión y estará disponible en Windows, iOS y Android ¿Más humana que nunca?

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos