Apple e investigadores de la Universidad de California en Santa Bárbara, han desarrollado, MGIE, un sistema de IA que combina Modelos de Lenguaje de gran escala y modelos de difusión para la edición de imágenes guiada por instrucciones. En la actualidad, las herramientas de diseño, a pesar de la considerable demanda, su operación requiere conocimientos previos. Para mejorar la controlabilidad y accesibilidad, la edición de imágenes guiada por texto ha ganado popularidad en estudios recientes. Sin embargo, las limitaciones en las descripciones y máscaras específicas afectan la efectividad de estos modelos en la edición basada en instrucciones.Según el documento de Apple, MGIE se aplica a diferentes aspectos de edición, como modificación al estilo de Photoshop, optimización global de fotos y alteración local de objetos. Los resultados experimentales muestran que la IA mejora significativamente la edición de imágenes basada en instrucciones, con instrucciones expresivas razonables en métricas automáticas y evaluación humana.
Imágenes: Bard, la IA de Google permitirá generar imágenes fotorrealistas y tendrá doble verificación de respuestas
En comparación con otros enfoques, la nueva IA supera consistentemente en diferentes configuraciones . Se demuestra que las instrucciones expresivas con percepción visual son beneficiosas en la optimización global y la edición local. La guía de MLLM se muestra útil al alinearse mejor con las imágenes de entrada y objetivo, proporcionando orientación explícita y correlacionada para la edición.Además de las métricas automáticas, se realiza una evaluación humana para estudiar las instrucciones expresivas generadas y los resultados de la edición de imágenes. La guía precisa se considera informativa y alineada con el objetivo deseado, evitando explicaciones incorrectas o no relacionadas. MGIE se destaca en términos de calidad de instrucciones expresivas, demostrando ser una herramienta efectiva para la edición de imágenes basada en instrucciones.Es decir, MGIE sobresale por su capacidad para llevar a cabo una amplia variedad de ediciones de imágenes, desde simples ajustes de color hasta transformaciones complejas de objetos. Realiza tareas como recorte, cambio de tamaño y rotación de imágenes, así como en ajustes de brillo, contraste y equilibrio de color, todo ello a partir de indicaciones simples de texto. Al ser de código abierto, MGIE es fácilmente accesible a través de GitHub, con recursos adicionales como un cuaderno de demostración y una versión interactiva en Hugging Face Spaces, lo que lo convierte en una opción cómoda para diversas aplicaciones de edición de imágenes.