Ecco come Facebook ha insegnato il suo portale A.I. pensare come un regista di Hollywood

Portale Facebook + recensione
Dan Baker / Digital Trends

Quando Mark Zuckerberg costruì la prima versione di Facebook nella sua stanza del dormitorio del college ad Harvard, la immaginò come una finestra che avrebbe permesso alle persone di guardare le vite degli altri utenti. Se Google era un motore di ricerca di informazioni, Facebook, al contrario, era un motore di ricerca per le persone. Quindici anni dopo, Facebook ha portato questa ambizione al livello successivo. Creando Portal and Portal +, la sua linea di altoparlanti intelligenti con schermo potenziato, lanciata nel novembre 2018, il gigante dei social media ha creato una finestra molto più letterale, consentendo agli utenti di Facebook di effettuare videochiamate l'un l'altro.

Gli altoparlanti intelligenti del portale letteralizzano anche un altro sogno su Facebook. Dove Facebook è stato, in sostanza, un motore di ricerca per le persone, il portale in realtà li fa cercare: con una macchina fotografica itinerante da 12 megapixel, che vanta un campo di 140 gradi di vista, che ti segue in giro per la stanza per vedere cosa si sta facendo . Come affermano le tendenze digitali nella nostra recensione , "se sei occupato a spostarti in cucina mentre chiedi alla nonna come preparare le sue famose polpette, puoi tenerti occupato mentre ascolti le sue parole".

Qual è esattamente la tecnologia intelligente che guida il portale? In che modo, secondo Facebook, la sfida di rendere normale la chat video è tanto personale quanto sedersi per una vera conversazione? La risposta implica una notevole intelligenza artificiale – e un tocco umano aggiunto.

Portale Facebook + recensione
Dan Baker / Digital Trends

Rendere le telecamere più intelligenti

Fin dall'inizio, Facebook sapeva che il nucleo della sua esperienza sul portale sarebbe stato il cosiddetto sistema "Smart Camera". L'idea della Smart Camera era di andare oltre il tipo di scatto statico che servizi come Skype ci hanno offerto per anni e di svolgere un ruolo più creativo nel processo. Proprio come un regista o un cineasta sa quando impiegare un campo lungo o quando eseguire uno zoom in primo piano, così Facebook ha sfidato i suoi ingegneri a imitare questa stessa capacità con Portal.

Per dare a questa fotocamera il tocco umano necessario, Facebook ha lavorato con i registi per capire il modo migliore per distillare la loro saggezza in intuizioni apprese a macchina. In un caso, ha chiesto loro di dimostrare come avrebbero potuto girare una scena in cui era impossibile catturare tutte le informazioni rilevanti da un angolo fisso.

In un altro, gli ingegneri di Facebook hanno esaminato i diversi elementi fotografici che gli operatori di fotocamere hanno la priorità per le riprese verticali e orizzontali. Queste osservazioni formarono la base di modelli di software che tentano di infondere a Portal alcune delle stranezze decisionali che normalmente attribuiremmo alla creatività umana.

"Volevamo creare un'esperienza di videochiamata a mani libere che rimuova le sensazioni di distanza fisica ed è più come uscire insieme", ha spiegato Eric Hwang, uno degli ingegneri di Portal, a Digital Trends.

Il sistema risultante, che secondo Facebook ha impiegato "meno di due anni" per creare da zero, consente a Portal di prendere decisioni progettate per migliorare il flusso di una conversazione. In un post sul blog appena pubblicato , vengono descritte alcune delle illustrazioni del perché questo potrebbe essere necessario. Ad esempio, se sei in una stanza affollata, piena di persone che interagiscono tra loro, deve scegliere quando seguire un individuo fuori dal frame o quando eseguire lo zoom indietro per accogliere nuovi soggetti.

Gli ingegneri del software di Facebook Eric Hwang (seduto inizialmente in poltrona) e Arthur Cavalcanti dimostrano il tracking e l'inquadratura cinematografica del portale.

Allo stesso modo, deve imparare a gestire le mutevoli situazioni di luce in tempo reale. Che cosa fai se il soggetto è sdraiato in una stanza buia, coperto per metà da una coperta, ma ci sono bambini che corrono sullo sfondo e causano la sfocatura del movimento? Portal pesa tutte queste informazioni in meno di un batter d'occhio e cerca di determinare il miglior risultato. (Se si desidera controllare manualmente su chi si concentra, ora è anche possibile ).

Sfide tecniche

Da un punto di vista tecnico, un paio di cose rendono la tecnologia di Portal impressionante. Il primo è che può fare tutto questo senza l'uso di una vera telecamera in movimento. All'inizio del processo di sviluppo, gli ingegneri di Portal hanno provato i prototipi che utilizzavano una fotocamera motorizzata, orientata verso i soggetti. Tuttavia, questo è stato deciso contro il fatto che ha causato un ritardo e un punto di potenziale guasto meccanico. Invece, Portal comprende un obiettivo estremamente grandangolare in cui tutte le decisioni di movimento e di modifica sono fatte interamente in digitale.

In secondo luogo, il team che lavorava su Portal ha trovato un modo per raggiungere i suoi processi decisionali senza dover fare affidamento sul cloud computing. Secondo Hwang, la potenza di calcolo computazionale è tutta raggiunta nel dispositivo.

Evoluzione del portale di Facebook
I primi prototipi del portale si basavano su un motore per spostare fisicamente la telecamera. Ingegneria di Facebook

"Catturare tutti in una cornice video non è un problema di ingegneria, dal momento che molti ingegneri possono farlo con gli avanzamenti della visione dei computer di oggi", ha affermato. "L'innovazione consiste nel catturare le persone o le persone rilevanti in tempo reale, sul dispositivo, utilizzando solo il piccolo chip mobile all'interno del portale come potenza di elaborazione. Di solito questi tipi di attività AI richiedono server dedicati e di grandi dimensioni. [Abbiamo] superato quell'ostacolo comprimendo complessi modelli di visione del computer fino a quando non potevano adattarsi al chip che usiamo per Portal e continuano a funzionare in modo accurato e affidabile. "

Per fare ciò, Portal attinge all'investimento a lungo termine di Facebook nell'intelligenza artificiale. Utilizza un sistema di rilevamento di posa 2D che funziona a 30 fotogrammi al secondo. L'intenzionalità di queste pose aiuta il Portale a prendere decisioni continue su ciò che i suoi soggetti stanno facendo – e quando potrebbe aver bisogno di eseguire una panoramica o zoom digitale di conseguenza. Utili
zza inoltre la ricerca sulle telecamere di profondità sviluppate da Facebook Reality Labs come parte degli sforzi della realtà virtuale del gigante dei social media.

Un mercato in crescita

Facebook è convinto che sia su un vincitore con Portal. È facile vedere da dove viene la sua sicurezza. In questo momento, il mercato degli altoparlanti intelligenti è in piena espansione. Sebbene sia largamente dominata dal leader di mercato Amazon, sta crescendo di oltre il 100 percento anno su anno . Questa è una buona notizia per le aziende tecnologiche alla ricerca della prossima grande novità in un momento di appiattimento delle vendite di smartphone.

Portale Facebook + recensione
Dan Baker / Digital Trends

Mentre Facebook è stato l'ultimo dei quattro giganti della tecnologia (Amazon, Alphabet, Facebook e Apple) a saltare sul carro, è ancora una delle prime ondate di altoparlanti intelligenti incentrati sullo schermo come dispositivo di comunicazione.

"Il portale è l'unico prodotto sul mercato del suo genere", ha affermato Hwang. "Oggi, altoparlanti e display intelligenti sono costruiti attorno a informazioni e commercio. Il portale è stato creato per rendere più facile la connessione con le persone che contano di più: i nostri migliori amici e familiari. E Portal è incentrato sul collegamento delle persone – parte della missione di Facebook – che attualmente non è ben servita dal mercato dei dispositivi domestici ".

Sfide della privacy in anticipo?

Allora, cosa ci si ferma fermando Facebook? Bene, potenzialmente la privacy. Gli utenti si sono dimostrati sorprendentemente disposti ad accettare gadget "sempre in ascolto" da aziende come Google con un interesse particolare nei dati degli utenti. Ma un dispositivo che ti guarda e ti ascolta è ancora più invasivo. Inoltre, la reputazione di Facebook è ancora in sofferenza dopo lo scandalo Cambridge Analytica dello scorso anno .

Pochi giorni prima della pubblicazione di questo articolo, il Washington Post ha riferito che Facebook sta negoziando un accordo da record da un miliardo di dollari con l'FTC per i suoi reati di riservatezza. Con una crescente reazione da parte di molti ex utenti, è ancora da rivelare se Facebook ha un colpo stile Amazon Echo sulle sue mani – o un flop stile Amazon Fire Phone.

Facebook ci ha assicurato che non ascolta, visualizza o conserva il contenuto delle videochiamate del portale, che sono inoltre crittografate per evitare l'intercettazione. Il fatto che l'intelligenza artificiale di Portal scada localmente sul dispositivo, e non sui server di Facebook, significa anche che questa informazione non lascia la tua casa. I comandi vocali vengono inviati all'azienda solo dopo aver pronunciato "Hey Portal" e gli utenti possono eliminare la cronologia vocale nel Registro attività di Facebook in qualsiasi momento.

Ma non c'è modo di aggirare il fatto che esiste ancora un certo grado di raccolta dei dati. "Anche se non ascoltiamo, guardiamo o conserviamo il contenuto delle videochiamate del Portal o usiamo queste informazioni per indirizzare gli annunci, elaboriamo alcune informazioni sull'utilizzo dei dispositivi per capire come viene utilizzato Portal e per migliorare il prodotto", Note di Facebook. (L'informativa sulla privacy di Portal può essere letta qui .)

Portal offre una tecnologia molto intelligente con implicazioni enormi per il futuro della chat video. Non c'è dubbio che l'azienda è riuscita a ottenere qualcosa di molto impressionante dal punto di vista tecnologico. Ma se sia in grado di convincere i potenziali clienti che questa è una soluzione di cui hanno bisogno nella loro vita, alla fine si rivelerà il vero risultato.

( Fonte )