Proprio ora, il re dei video AI ha un grande aggiornamento! Duro contro Sora, Will Smith mangia i noodles in modo più delizioso

OpenAI ha recentemente lanciato con grande entusiasmo il modello di generazione video Sora 2. A breve distanza, anche Veo 3.1 di Google ha introdotto oggi un importante aggiornamento.

Nello specifico, l'aggiornamento di Google questa volta prevede due livelli.

Il primo è un miglioramento funzionale . La funzione di editing video è stata potenziata e gli utenti possono ora apportare modifiche più dettagliate alle clip e avere un controllo più preciso sull'immagine finale.

Ancora più importante, per la prima volta Google ha aggiunto l'audio alle funzionalità "Ingredienti in video", "Fotogrammi in video" ed "Estendi", rendendo l'audio parte del processo creativo.

Il secondo è il progresso a livello di modello.

Veo 3.1, rilasciato oggi, ha apportato notevoli miglioramenti in due indicatori chiave: la comprensione delle parole chiave e la qualità audiovisiva, rendendo la conversione da immagine a video più naturale e fluida.

Letture correlate  Il nuovo re dei video sull'intelligenza artificiale è una sensazione globale e Will Smith può finalmente mangiare i noodles come si deve (con tante dimostrazioni dal mondo reale)

Come tutti sappiamo, Veo 3 ha già molte capacità di editing: può guidare la generazione dei personaggi attraverso immagini di riferimento, riempire il contenuto centrale con i primi e gli ultimi due fotogrammi e continuare a estendere in base alla fine del video.

Veo 3.1 aggiunge il supporto audio a tutte queste funzionalità esistenti, consentendo agli utenti di creare scenari più completi. Queste funzionalità sono ancora in fase sperimentale e Google afferma che continuerà a ottimizzarle e a svilupparle in base al feedback degli utenti.

Ora gli utenti possono utilizzare queste funzionalità in questo modo:

1. Utilizzare più immagini di riferimento per definire personaggi, oggetti e stile; la funzione "Materiale in video" genererà la scena finale in base a questi materiali.

2. In alternativa, è possibile specificare un fotogramma iniziale e uno finale e lasciare che la funzione "Da fotogramma a video" generi una transizione fluida al centro, il che è particolarmente utile per i progetti che richiedono transizioni artistiche.

3. Se si desidera generare un video più lungo, la funzione "Estendi" può generare contenuti più lunghi di un minuto, continuando a generare in base al paragrafo precedente per mantenere la continuità della storia.

Vale la pena ricordare che in precedenza la conversione da testo a video di Veo 3 supportava solo l'output su schermo orizzontale a 720p, ma poiché il video su schermo verticale è diventato il formato più diffuso per i contenuti Internet, Veo 3.1 ora può generare anche video 16:9 sia orizzontali che verticali, il che è più in linea con le attuali abitudini di consumo dei contenuti.
Per affinare la creatività spesso sono necessarie ripetute iterazioni.

Dal lancio di Flow a maggio di quest'anno, gli utenti hanno creato oltre 275 milioni di video nell'app. Dopo aver tenuto conto del feedback degli utenti, sono nate due nuove funzionalità di editing di Flow proprio per questo scopo:

"Inserisci nuovi elementi" consente agli utenti di aggiungere contenuti in qualsiasi momento e Flow gestisce automaticamente ombre e luci, facendo sì che le nuove parti si fondano naturalmente nell'immagine originale;

La funzione "Rimuovi oggetto" (disponibile a breve) consente di rimuovere elementi non necessari, mentre Flow ricostruisce automaticamente lo sfondo per mantenere la coerenza. La combinazione di questi due strumenti rende il processo di editing video più flessibile.

Il modello Veo 3.1 è ora disponibile per gli sviluppatori tramite l'API Gemini, per gli utenti aziendali tramite Vertex AI e per gli utenti normali tramite l'app Gemini. Nuove funzionalità sono disponibili sia nell'API Gemini che in Vertex AI.

Abbiamo sperimentato e generato 3 degli scenari applicativi più pratici di Veo.

Il viaggio nel tempo in prima persona, il taglio della frutta tramite ASMR, il monitoraggio del metallo, la visione notturna tramite trampolino per conigli e altri video diventati virali qualche tempo fa sono stati tutti generati utilizzando Veo 3.

▲Generato da Veo 3, prompt word: telecamera da 50 mm, primo piano di un limone in vetro giallo tagliato orizzontalmente su una tavola di legno. Anche l'interno del frutto è in vetro con un po' di glitter sciolto. L'intera scena è illuminata dall'alto con una luce soffusa.

Ad esempio, in questo esempio di creazione di un limone di vetro, il prompt richiede "un limone fatto di vetro giallo, tagliato orizzontalmente, con un interno di vetro e glitter fusi all'interno, e delicatamente illuminato dall'alto".

L'output del Veo 3 è utilizzabile, ma il Veo 3.1 riproduce i "glitter che si sciolgono" con maggiore precisione.

Nello scenario dell'e-commerce, abbiamo chiesto direttamente di generare una pubblicità di prodotto. Tenete presente che un tipico spot televisivo dura solo dai 15 ai 30 secondi per trasmettere informazioni sul brand.

Generato da Sora 2. Prompt: genera un annuncio di e-commerce basato sulle seguenti informazioni sul prodotto, tra cui una visualizzazione realistica del prodotto, dettagli sulla rotazione 3D, confronto degli scenari di utilizzo e sottotitoli di accompagnamento. Smartwatch X2, durata della batteria di 7 giorni, ¥ 1299. Smartwatch, resistenza all'acqua fino a 50 metri, monitoraggio della salute (ECG, sonno)

Sora 2 fornisce spiegazioni audio in cinese delle informazioni sui prodotti, dimostrando una migliore comprensione. Veo 3.1, invece, si limita a fornire musica, il che non è così completo come Sora 2. Tuttavia, a giudicare dalla qualità delle immagini, la presentazione visiva di Veo 3.1 è più avanzata e commerciale.

▲Generato da Veo 3.1

Abbiamo provato anche la generazione anime e questa volta le prestazioni di Veo 3.1 sono state piuttosto nella media.

▲Generato da Sora 2, prompt: Nello stile dell'animazione dello Studio Ghibli, un ragazzo e il suo cane corrono su una pittoresca collina erbosa. Sullo sfondo si vede un villaggio in lontananza e nel cielo fluttuano bellissime nuvole.

Chiaramente, i dati di addestramento di Veo 3.1 non sono sufficientemente ricchi in quest'area, e sono ancora ben lontani dal sofisticato stile di animazione dello Studio Ghibli. Il cane che scompare inspiegabilmente è un classico esempio di errore dell'intelligenza artificiale.

▲Generato da Veo 3.1

X La demo del test di Will Smith che mangia noodles, condivisa dal netizen @aisearchio, ha portato la texture complessiva a un livello superiore, con una fluidità dei movimenti e dettagli di luci e ombre notevolmente migliorati, nonché espressioni ricche senza collassare.

Nel complesso, Veo 3.1 è sufficientemente utilizzabile per generare contenuti di qualità fotografica e di livello commerciale, e la sua capacità di interpretare i dettagli è notevolmente migliorata. Tuttavia, c'è ancora ampio margine di miglioramento nella riproduzione accurata di stili specifici, come l'animazione e l'illustrazione, che richiedono rigidi vincoli di stile.
Tuttavia, da Veo 3 a Veo 3.1 e da Sora a Sora 2, la velocità di iterazione dei modelli di generazione video ha superato ogni immaginazione.

Man mano che questi strumenti di generazione video basati sull'intelligenza artificiale si evolvono da strumenti professionali ad applicazioni di massa, ogni contenuto presente nella tua cerchia di amici, nelle piattaforme di video brevi e persino nelle fonti di notizie potrebbe essere generato dall'intelligenza artificiale.

Ciò significa anche che ogni contenuto che vedrai in futuro richiederà un ulteriore passaggio di conferma, che provenga da riprese reali o dalla generazione di intelligenza artificiale.

Autore: Mo Chongyu

Link al video nell'articolo: https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA

#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFaner: iFaner (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

iFanr | Link originale · Visualizza commenti · Sina Weibo