Sora es la nueva Inteligencia Artificial desarrollada por Open IA que ha sido entrenada para crear vídeos realistas con múltiples personajes, escenarios
EUROPA PRESS / REDACCIÓN TELECINCO
OpenAI ha presentado Sora, una Inteligencia Artificial (IA) generativa capaz de crear vídeos realistas de hasta 60 segundos a partir de instrucciones de texto. El resultado detallado, incorpora movimientos de cámara complejos, múltiples personajes con emociones, que pone los pelos de punta por los riesgos de que pueda ser utilizada como herramienta de desinformación.
La tecnológica estadounidense pretende con Sora continuar avanzando en las capacidades de la IA, entrenando modelos que ayuden a las personas a resolver problemas que requieran interacción con el mundo real. Para ello, ha estado enseñando a la IA a comprender y simular el mundo físico en movimiento.
MÁS
- Mark Zuckerberg entrena junto a su hija a una inteligencia artificial: toca un tema de Taylor Swift con la guitarra
- La Inteligencia Artificial no sabe ponerse romántica ni en San Valentín: «Te amo más que a la sal en mi gazpacho»
- ChatGPT podrá recordar los datos de conversaciones previas
OpenAI ha presentado Sora, su nuevo modelo de IA de texto a vídeo, con el que permite la creación de vídeos realistas de hasta un minuto de duración a partir de las indicaciones de texto que le suministre el usuario, según ha informado la compañía en su web y en X (antigua Twitter),
Para la creación de los vídeos, los usuarios deberán escribir una serie de instrucciones explicando a la IA qué características tiene que incluir la escena, así como los personajes y las acciones que llevarán a cabo, el entorno, el clima, y los movimientos de cámara que se deban recrear.PUBLICIDAD
Indicaciones para que Sora cree un vídeo: Primer plan de parpadeo mujer de 24 años en Marrakech
Uno de los vídeos de ejemplo de las capacidades de Sora, que ha compartido OpenAI, tiene las siguientes indicaciones: primer plano del parpadeo del ojo de una mujer de 24 años, de pie en Marrakech durante el atardecer, película cinematográfica rodada en 70mm, profundidad de campo, colores vivos, cinematográfico.
La compañía dirigida por Sam Altman ha subrayado que el modelo de IA puede realizar escenas tan precisas, porque comprende lo que el usuario solicita en sus indicaciones de texto, pero además es capaz de comprender cómo existen esas cosas en el mundo físico.
Siguiendo esta línea, se ha de tener en cuenta su amplio conocimiento del lenguaje, lo que permite que Sora interprete todas las indicaciones de texto con «precisión», por ejemplo, creando personajes realistas que expresan «emociones vibrantes».
Sora es capaz de generar un vídeo a partir de una imagen fija existente; la IA puede animaar este contenido de la imagen con precisión y sin perder detalle, así como alargar la duración de un vídeo existente o completar algunos fotogramas.
En cuanto a su funcionamiento, Sora genera un vídeo a partir de otros vídeos que, según OpenAI, parecen «ruido estático». De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas. Asimismo, al igual que los modelos GPT, utiliza una «arquitectura de transformador» con la que, según la compañía, se desbloquea un rendimiento de escalado superior. Concretamente, las imágenes del vídeo se representan como «colecciones de unidades de datos más pequeñas», a las que se refiere como parches. Así, cada parche es el equivalente a un token en GPT.