Cerebras Systems, una startup estadounidense de inteligencia artificial anunció el lanzamiento de una serie de siete modelos de lenguaje grande (LLM) similares a GPT que podrán ser usados de manera gratuita por la comunidad investigadora y científica.
La compañía que tiene sede en Silicon Valley, entrenó los siete modelos en 16 sistemas CS-2 en la supercomputadora Cerebras Andromeda AI, incluidos modelos de lenguaje más pequeños de 111 millones de parámetros a un modelo más grande de 13 mil millones de parámetros.
Startup explica que por lo general entrenar siete modelos GPT con parámetros de 111 millones puede tardar meses, sin embargo, con la supercomputadora Andromeda fueron capaces de hacerlo en pocas semanas, ya que esta cuenta con una velocidad “increíble” de los sistemas Cerebras CS-2 que componen el hardware de IA y la capacidad de la arquitectura de flujo de peso del sistema para eliminar el dolor de la computación distribuida.
The AI industry is becoming increasingly closed. We believe in fostering open access to the most advanced models. Cerebras-GPT is being released under the Apache 2.0 license, allowing royalty-free use for research or commercial applications. (2/5) pic.twitter.com/IYI4dROx9Q
— Cerebras Systems (@CerebrasSystems) March 28, 2023
“Pocas organizaciones son capaces de entrenar modelos verdaderamente a gran escala. Aún menos lo han hecho en hardware de IA dedicado. Lanzar siete modelos GPT completamente entrenados a la comunidad de código abierto muestra cuán eficientes pueden ser los clústeres de los sistemas Cerebras CS-2 y cómo pueden resolver rápidamente los problemas de IA de mayor escala, problemas que generalmente requieren cientos o miles de GPU, explica Sean Lie, cofundador y arquitecto jefe de software en Cerebras.
¿Qué se puedes hacer con los siete modelos de lenguaje grande?
De acuerdo con la compañía, los modelos preentrenados proporcionan una alta precisión para un ajuste fino. “Al aplicar una cantidad modesta de datos personalizados, cualquiera puede crear aplicaciones potentes y específicas de la industria con un trabajo mínimo. Los diversos tamaños de los modelos y los puntos de control que los acompañan permiten a los investigadores de IA crear y probar nuevas optimizaciones y flujos de trabajo que benefician ampliamente a la comunidad”, reseña el comunicado.
Además, el código abierto de Cerebras-GPT, está listo para ser utilizado y reproducido por cualquier persona.
Por sus parte, Karl Freund, consultor de chips en Cambrian AI, explicó a Reuters, que los modelos más grandes no siempre significada que sean mejor; por ejemplo cuando OpenAI lanzó ChatGPT, este cuenta con 175 millones de parámetros y puede producir poesía e investigación, sin embargo, los modelos más pequeños se pueden implementar en teléfonos o parlantes inteligentes, mientras que los más grandes se ejecutan en PC o servidores.
“Se han publicado algunos artículos interesantes que muestran que (un modelo más pequeño) puede ser preciso si lo entrenas más. Así que hay una compensación entre más grande y mejor entrenado”, señaló Freund
Los siete modelos Cerebras-GPT ya están disponibles en Hugging Face y Cerebras Model Zoo en GitHub bajo la licencia Apache 2.0.