OpenAI vuelve a triunfar e inquietar con nueva IA que convierte el texto en vídeo

OpenAI, creadora de ChatGPT, ha vuelto a sorprender al mundo y a adelantarse al presentar un nuevo modelo de Inteligencia Artificial (IA) capaz de convertir cualquier texto descriptivo en un vídeo. Ya no hace ninguna falta un enorme esfuerzo de producción, gestión de actores y otros técnicos y de rodaje para hacer piezas televisivas, publicitarias o cinematográficas con tan solo un buen guionista al teclado y la IA, llamada Sora, que acaba de poner en el mercado.

La compañía en la que el gigante Microsoft ha invertido hasta 13.000 millones de dólares (12.091 millones de euros), ha estado trabajando en un nuevo software que puede generar vídeos, por el momento de un minuto de duración, basados solo en las indicaciones previamente introducidas mediante un texto explicativo, según ha anunciado la compañía creadora y comercializadora de la exitosa IA generativa ChatGPT.

OpenAI vuelve a triunfar con nueva IA que convierte el texto en vídeo — OpenAI ha conseguido impresionantes niveles de realismo en su IA para hacer vídeos.

SORA, LA NUEVA CINEASTA DE OPENAI

La herramienta tiene un atractivo nombre femenino, Sora, muy parecido al famoso y sugestivo nombre del asistente de voz de Apple, el pionero, llamado Siri. Por el momento solo los trabajadores, ingenieros y comunicadores expertos en IA tienen acceso a la maravillosa herramienta, que en tan solo un día ha recogido todo tipo de elogios y admiraciones. La han podido probar los llamados «equipos rojos», profesionales encargados de identificar fallos en el sistema de inteligencia artificial, así como para que lo utilicen y lo valoren artistas visuales, diseñadores y cineastas. De esta manera OpenAI puede obtener todo tipo de comentarios sobre el modelo, según ha confirmado la compañía este mismo jueves.

Sora puede animar una imagen fija, tal y como ha explicado la compañía que dirige Sam Altman a través del blog oficial

La empresa, que ha vuelto a sorprender al mundo entero, y esta vez no es por un culebrón de decisiones tomadas en su consejo de administración, como el protagonizado por la compañía el pasado mes de noviembre, ha explicado lo que es capaz de hacer esta maravilla del software. «Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo, y puede incluso crear múltiples tomas dentro de un solo vídeo», explicaron.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Además de generar videos a partir de indicaciones de texto, Sora puede animar una imagen fija, tal y como ha explicado la compañía que dirige Sam Altman a través del blog oficial. El software de generación de vídeo ha aparecido como producto después de la primera apuesta de IA generativa, el ya famoso ChatGPT, que se lanzó a finales de 2022 y generó revuelo en torno a esta tecnología por su capacidad para redactar correos electrónicos y escribir códigos, poemas, artículos y hasta reportajes.

La nueva IA creadora de vídeo también es capaz de «generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo«, según OpenAI. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.

Sora es un trabajo en progreso, y la compañía se ha cubierto las espaldas al explicar que el modelo todavía puede confundir los detalles espaciales de un mensaje y tener dificultades para seguir una trayectoria de cámara específica. En concordancia con los tiempos, en los que muchas de estas grandes compañías se están comprometiendo para luchar contra la desinformación, las fakes news, OpenAI se ha apresurado a advertir que también estaba desarrollando herramientas que pueden ayudar a discernir si un video ha sido o no generado por Sora, o por manos humanas.

ÉXITO DE OPENAI EN TAN SOLO UN DÍA

Las reacciones de los afortunados que componen ese «equipo rojo» que ya ha podido trastear con Sora no han esperado ni 24 horas para aclamarla sin paliativos, y hablan de resultados impresionantes, «con un realismo no visto hasta ahora«. Y las redes sociales han ardido en elogios, aunque también han mostrado la preocupación de muchos usuarios que temen la merma de capacidad creativa humana que herramientas como esta pueden generar.

Ante la controversia que la mera existencia de Sora va a acarrear, igual que ha ocurrido con las capacidades de ChatGPT, Open AI ha reconocido que va a involucrar «a políticos, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología».

La compañía entiende lo inevitable y se excusa de antemano al explicar que «a pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo».

a pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella.

No obstante, la mayor parte de los que la han probado han celebrado también que haya aparecido apenas unas horas antes Gemini 1.5, el modelo de IA generativa de Google con un millón de tokens que pretendía aventajar a ChatGPT-4 Turbo, también de OpenAI. Al mostrar al mundo a Sora, la novedad de Google se ha quedado atrás en cuanto a interés.

El gigante de las redes sociales, Meta, corporación matriz de Facebook e Instagram, ya había sacado a la luz su propia propuesta de generación de imágenes en movimiento mediante el software. El año pasado reforzó su modelo llamado Emu para agregar dos funciones basadas en inteligencia artificial que pueden editar y generar videos a partir de indicaciones de texto. Meta también busca competir con Microsoft, Google y Amazon en el universo de la IA generativa, la novedad tecnológica más celebrada durante el último año que se encuentra en un momento de rápida transformación.