Google presents LUMIERE
A Space-Time Diffusion Model for Video Generation
paper page: https://t.co/DhKlssgtGU
Demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing… pic.twitter.com/ySgcHrQ2Cg
— AK (@_akhaliq) January 24, 2024
(ANSA) - Google, insieme al Weizmann Institute of Science e all'Università di Tel Aviv, ha sviluppato un nuovo modello di intelligenza artificiale per la creazione di video a partire da foto e istruzioni testuali. Si chiama Lumiere, un chiaro omaggio ai fratelli francesi inventori della macchina da presa e del proiettore cinematografico. La novità di Lumiere IA, dal punto di vista tecnologico, è nella qualità con cui il software riesce a ricreare lo spostamento dei soggetti all'interno del filmato.
Programmi come Stable Diffusion spesso mostrano imperfezioni dovute alla difficoltà di mantenere una certa coerenza nel rendere animate immagini statiche. A tal proposito, Google ha sviluppato un'architettura chiamata "Space-Time U-Net", una rete spazio-temporale, che genera tutto il video in un unico passaggio, senza creare cioè delle sequenze intermedie, che presenterebbero possibili incoerenze con le azioni precedenti e quelle successive. Il grosso del lavoro è svolto dall'intelligenza artificiale generativa che sceglie il movimento migliore dopo averne analizzati diversi, basandosi sul vasto database a cui hanno accesso i modelli di Big G, per restituire un video plausibile.
Un esempio è quando inseriamo in Lumiere la foto di un peluche chiedendo al programma di farlo camminare da un punto A al punto B. Creando un'unica sequenza spazio-temporale, l'IA genera un filmato in cui ogni attività è strettamente legata l'un l'altra, con sintonia maggiore. Il modello video di Lumiere è stato addestrato su un set di dati di 30 milioni di video, insieme alle relative didascalie di testo. Al momento non è un software aperto al pubblico ma solo un progetto sperimentale di ricerca.