L’intelligenza artificiale di Google ha appena ricevuto orecchie

10 Aprile 2024

Google

I chatbot AI sono già in grado di “vedere” il mondo attraverso immagini e video. Ma ora Google ha annunciato le funzionalità audio-voce come parte del suo ultimo aggiornamento a Gemini Pro . In Gemini 1.5 Pro, il chatbot può ora "ascoltare" i file audio caricati nel suo sistema e quindi estrarre le informazioni di testo.

L'azienda ha reso disponibile questa versione LLM come anteprima pubblica sulla sua piattaforma di sviluppo Vertex AI. Ciò consentirà a un numero maggiore di utenti focalizzati sull'azienda di sperimentare la funzionalità ed espandere la sua base dopo un'implementazione più privata a febbraio, quando il modello è stato annunciato per la prima volta. Originariamente veniva offerto solo a un gruppo limitato di sviluppatori e clienti aziendali.

1. Scomporre e comprendere un video lungo
Ho caricato l'intera gara di schiacciate dell'NBA di ieri sera e ho chiesto quale schiacciata avesse il punteggio più alto.
Gemini 1.5 è stato incredibilmente in grado di trovare la schiacciata perfetta specifica da 50 e i dettagli solo dalla sua comprensione del video contestuale lungo! pic.twitter.com/01iUfqfiAO
— Rowan Cheung (@rowancheung) 18 febbraio 2024

Google ha condiviso i dettagli sull'aggiornamento durante la conferenza Cloud Next , che si sta attualmente svolgendo a Las Vegas. Dopo aver definito Gemini Ultra LLM che alimenta il suo chatbot Gemini Advanced il modello più potente della sua famiglia Gemini, Google ora chiama Gemini 1.5 Pro il suo modello generativo più capace. L'azienda ha aggiunto che questa versione consente un apprendimento migliore senza ulteriori modifiche al modello.

Gemini 1.5 Pro è multimodale in quanto può interpretare diversi tipi di audio in testo, inclusi programmi TV, film, trasmissioni radiofoniche e registrazioni di teleconferenze. È anche multilingue in quanto può elaborare l'audio in diverse lingue. Il LLM potrebbe anche essere in grado di creare trascrizioni da video; tuttavia, la sua qualità potrebbe essere inaffidabile, come menzionato da TechCrunch .

Quando è stato annunciato per la prima volta, Google ha spiegato che Gemini 1.5 Pro utilizzava un sistema di token per elaborare i dati grezzi. Un milione di token equivalgono a circa 700.000 parole o 30.000 righe di codice. In formato multimediale, equivale a un'ora di video o circa 11 ore di audio.

Ci sono state alcune demo di anteprima private di Gemini 1.5 Pro che dimostrano come LLM sia in grado di trovare momenti specifici in una trascrizione video. Ad esempio, l'appassionato di intelligenza artificiale Rowan Cheung ha ottenuto l'accesso anticipato e ha spiegato in dettaglio come la sua demo ha trovato un'esatta ripresa dell'azione in una gara sportiva e ha riassunto l'evento, come si vede nel tweet incorporato sopra.

Tuttavia, Google ha notato che altri early adopter, tra cui United Wholesale Mortgage, TBS e Replit, stanno optando per casi d'uso più focalizzati sull'impresa, come la sottoscrizione di mutui, l'automazione del tagging dei metadati e la generazione, la spiegazione e l'aggiornamento del codice.