OpenAI lanzó GPT-4o, su modelo más avanzado para la generación de imágenes; la compañía promete cambiar el diseño digital y la producción visual, permitiendo a los usuarios crear imágenes detalladas y personalizadas con mayor facilidad y precisión.
A diferencia de modelos anteriores, GPT-4o presenta mejoras significativas en la representación de texto dentro de las imágenes, la reproducción de detalles complejos y la capacidad de ajuste a las especificaciones de los usuarios.
Este modelo es capaz de interpretar descripciones con mayor exactitud, facilitando la generación de contenido visual para distintos propósitos, desde diseño gráfico hasta ilustración y publicidad.
GPT-4o es capaz de mantener la coherencia de los elementos dentro de una imagen, sin embargo, todavía enfrenta desafíos en la representación precisa de caracteres no latinos y en la edición de partes específicas de una imagen sin alterar otras secciones. OpenAI está trabajando activamente para mejorar estos aspectos y optimizar la experiencia del usuario.
¿Cómo funciona?
El modelo funciona mediante un sistema de generación a partir de texto, en el que los usuarios pueden describir lo que desean ver, incluyendo detalles como relación de aspecto, colores exactos y elementos específicos. A pesar de su capacidad mejorada, las imágenes pueden tardar hasta un minuto en renderizarse, dado el nivel de detalle que el modelo es capaz de producir.
Además, GPT-4o introduce mejoras en la representación de gráficos complejos y en la edición de imágenes generadas. Sin embargo, la precisión en la modificación de elementos específicos sigue siendo un desafío, lo que puede llevar a errores en la edición de textos dentro de las imágenes o en la coherencia de rostros editados.
Uno de los aspectos clave en el desarrollo de GPT-4o ha sido la implementación de estrictas medidas de seguridad. Todas las imágenes generadas incluyen metadatos C2PA, que permiten identificar su origen y garantizar transparencia. Asimismo, se han reforzado las restricciones para evitar la generación de contenido inapropiado, incluyendo deepfakes y material sensible.
OpenAI también ha desarrollado un sistema de búsqueda interna para verificar si una imagen fue creada con GPT-4o. Este mecanismo refuerza la seguridad y ayuda a prevenir el uso indebido de la tecnología en la manipulación de imágenes.
Disponibilidad
GPT-4o ya está disponible para usuarios Plus, Pro, Team y Free dentro de ChatGPT, y se espera que en las próximas semanas también esté habilitado para clientes Enterprise y Edu. Además, los desarrolladores pronto podrán acceder a la API para integrar la generación de imágenes en sus propias aplicaciones y plataformas.
Para aquellos que prefieren la experiencia de DALL·E, OpenAI mantiene una versión independiente disponible a través de una cuenta dedicada. Con esta estrategia, la compañía busca ofrecer opciones flexibles para distintos perfiles de usuarios.
Imagen: OpenAI