El CEO de Meta, Mark Zuckerberg, anunció el lanzamiento de ImageBind, que además de tener sentidos, puede entenderlos y procesarlos como lo hace el ser humano. La inteligencia artificial, comprende no solo imágenes, textos y audio, sino también profundidad, térmica y movimiento espacial.
El modelo de inteligencia artificial es capaz de vincular información de seis modalidades. “El modelo aprende un único espacio de representación integrado o compartido, no sólo para texto, imagen- video y audio, sino también para sensores que registran unidades de medición de profundidad (3D), térmicas (radiación infrarroja) e inerciales (IMU), que calcular el movimiento y la posición”, explica el comunicado.
ImageBind equipa a las máquinas con una comprensión de un todo u holística que por ejemplo, puede conectar “los objetos en una foto con cómo sonarán, su forma 3D, qué tan cálidos o fríos están y cómo se mueven”.
De acuerdo con Meta la IA “puede superar a los modelos especializados anteriores entrenados individualmente para una modalidad en particular, como se describe en nuestro documento. Pero lo más importante es que ayuda a avanzar en la IA al permitir que las máquinas analicen mejor muchas formas diferentes de información juntas”.
Es decir, al usar ImageBind, Make-A-Scene se podrían crear imágenes a partir de audio, como crear una imagen basada en los sonidos de una selva tropical o un mercado bullicioso.
Además tendría la capacidad de ser más preciso al reconocer, conectar y moderar contenido, y de impulsar el diseño creativo, cómo generar medios más ricos de manera más fluida y crear funciones de búsqueda multimodal más amplias.
Te puede interesar: Microsoft presenta una API de chat para monetizar experiencias de chat impulsadas por IA
El gigante tecnologico explica que ImageBind es un modelo multimodal que se une a una serie reciente de herramientas de IA de código abierto.
“Esto incluye modelos de visión por computadora como DINOv2, un nuevo método que no requiere ajuste fino, entrenamiento de modelos de visión por computadora de alto rendimiento, y Segment Anything (SAM), un modelo de segmentación universal que puede segmentar cualquier objeto en cualquier imagen, en función de cualquier indicación del usuario”.
Con este nuevo modelo, Zuckerberg, abre las compuertas para que los investigadores intenten desarrollar nuevos sistemas holísticos (completos), como la combinación de sensores 3D e IMU para diseñar o experimentar mundos virtuales inmersivos.
Pero ahí no queda todo, la IA podría proporcionar una forma rica de explorar recuerdos: buscar imágenes, videos, archivos de audio o mensajes de texto usando una combinación de texto, audio e imagen:
- Imagen para recuperar audio
- Audio para recuperar imágenes
- Texto para recuperar imágenes y audio
- Audio e imágenes para recuperar imágenes relacionadas
- Audio para generar una imagen
El objetivo de la compañía, es que además de las seis modalidades investigadas y trabajadas por Meta, la idea según Zuckerberg es “la introducción de nuevas modalidades que vinculan tantos sentidos como sea posible, como el tacto, el habla, el olfato y las señales de IRMf del cerebro, permitirán modelos de IA más ricos centrados en el ser humano”.
Imagen: geralt