Meta ha creato DALL-E per i video, ed è allo stesso tempo inquietante e sorprendente

30 Settembre 2022

Meta ha svelato un folle modello di intelligenza artificiale che consente agli utenti di trasformare le loro descrizioni digitate in video. Il sistema si chiama Make-A-Video ed è l’ultimo di una tendenza di contenuti generati dall’IA sul web.

Il sistema accetta brevi descrizioni come “un robot che cavalca un’onda nell’oceano” o “pesce pagliaccio che nuota attraverso la barriera corallina” e genera dinamicamente una breve GIF della descrizione. Ci sono anche tre diversi stili di video tra cui scegliere: surreale, realistico e stilizzato.

Primo piano della pittura a pennello di un artista su una tela

Secondo un post su Facebook del CEO di Meta, Mark Zuckerberg, tradurre il testo scritto in video è molto più difficile a causa del modo in cui il video richiede movimento:

“È molto più difficile generare video che foto perché oltre a generare correttamente ogni pixel, il sistema deve anche prevedere come cambieranno nel tempo. Make-A-Video risolve questo problema aggiungendo uno strato di apprendimento non supervisionato che consente al sistema di comprendere il movimento nel mondo fisico e applicarlo alla tradizionale generazione da testo a immagine”.

Una giovane coppia che cammina sotto una pioggia battente

Il team di ricerca sull’intelligenza artificiale di Meta ha scritto un documento che descrive come funziona il sistema e in che modo differisce dagli attuali metodi da testo a immagine (T2I). A differenza di altri modelli in linguaggio macchina, il metodo Text-to-Video (T2V) di Meta non utilizza coppie testo-video predefinite. Ad esempio, non accoppia “uomo che cammina” con un video di un vero uomo che cammina.

Se questo suona molto come DALL-E, la popolare applicazione T2I, non saresti lontano. Altre applicazioni T2I sono state implementate da quando DALL-E ha guadagnato popolarità. TikTok ha rilasciato ad agosto un filtro chiamato AI Greenscreen che genera immagini in stile pittura in base alle parole digitate.

Un soffice bradipo bambino con un cappello lavorato a maglia arancione che cerca di capire un laptop da vicino uno schermo di illuminazione da studio altamente dettagliato che si riflette nei suoi occhi

I contenuti generati dall’intelligenza artificiale sono diventati piuttosto interessanti negli ultimi anni. La tecnologia deepfake , tecniche di apprendimento automatico per sostituire il volto di una persona con un’altra, viene persino utilizzata dagli studi di effetti visivi per spettacoli ad alto budget come The Mandalorian .

A luglio, il Times ha riferito erroneamente di una donna ucraina nel bel mezzo della guerra Russia-Ucraina. Il problema è che non era reale .

La minaccia dell’IA probabilmente non è una vera minaccia , ma progetti come DALL-E e Make-A-Video sono esplorazioni divertenti in alcune delle possibilità interessanti.