Il riconoscimento vocale è fantastico, ma come è diventato così buono?
La tecnologia di riconoscimento vocale ha una ricca storia di sviluppo che l’ha portata a ciò che è oggi. È al centro della vita moderna e ci dà la possibilità di svolgere compiti semplicemente parlando con un dispositivo. Quindi, come si è evoluta questa sorprendente tecnologia nel corso degli anni? Diamo un’occhiata.
1952: Il sistema Audrey
Il primo passo nel riconoscimento vocale è avvenuto nei primi anni ’50. I Bell Laboratories sviluppò la prima macchina in grado di comprendere la voce umana nel 1952 e fu chiamata Audrey System. Il nome Audrey era una sorta di contrazione della frase Riconoscimento automatico delle cifre. Sebbene questa fosse una grande innovazione, presentava alcune importanti limitazioni.
Soprattutto, Audrey poteva riconoscere solo le cifre numeriche 0-9, senza parole. Audrey dava un feedback quando l’oratore pronunciava un numero accendendo 1 lampadina su 10, ciascuna corrispondente a una cifra.
Sebbene potesse comprendere i numeri con una precisione del 90%, Audrey era confinata a un tipo di voce specifico. Questo è il motivo per cui l’unica persona che lo avrebbe davvero usato era HK Davis, uno degli sviluppatori. Quando veniva pronunciato un numero, l’oratore doveva attendere almeno 300 millisecondi prima di pronunciare il successivo.
Non solo era limitato nella funzionalità, ma era anche limitato nell’utilità. Non c’era molto bisogno di una macchina che potesse capire solo i numeri. Un possibile utilizzo era comporre i numeri di telefono, ma era molto più veloce e più facile comporre i numeri a mano. Sebbene Audrey non abbia avuto un’esistenza aggraziata, rappresenta ancora una grande pietra miliare nella realizzazione umana.
1962: la scatola da scarpe IBM
Un decennio dopo Audrey, IBM ha provato a sviluppare un sistema di riconoscimento vocale. Alla Fiera Mondiale del 1962, IBM ha mostrato un sistema di riconoscimento vocale chiamato Showbox. Come Audrey, il suo compito principale era comprendere le cifre 0-9, ma poteva anche comprendere sei parole: più, meno, falso, totale, subtotale e spento.
Shoebox era una macchina matematica che poteva fare semplici problemi di aritmetica. Per quanto riguarda il feedback, invece delle luci, Shoebox è riuscita a stampare i risultati su carta. Ciò lo rendeva utile come calcolatrice, anche se l’oratore doveva comunque fare una pausa tra ogni numero/parola.
1971: identificazione automatica delle chiamate di IBM
Dopo Audrey e Shoebox, altri laboratori in tutto il mondo hanno sviluppato la tecnologia di riconoscimento vocale. Tuttavia, non decollò fino agli anni ’70, quando nel 1971 IBM portò sul mercato la prima invenzione del suo genere. Si chiamava il sistema di identificazione automatica delle chiamate. È stato il primo sistema di riconoscimento vocale utilizzato tramite il sistema telefonico.
Gli ingegneri avrebbero chiamato e sarebbero stati collegati a un computer a Raleigh, nella Carolina del Nord. Il chiamante pronuncerebbe quindi una delle 5.000 parole nel suo vocabolario e otterrebbe una risposta “parlata” come risposta.
1976: Arpia
All’inizio degli anni ’70, il Dipartimento della Difesa degli Stati Uniti si interessò al riconoscimento vocale. DARPA (Defence Advanced Research Projects Agency) ha sviluppato il programma Speech Understanding Research (SUR) nel 1971. Questo programma ha fornito finanziamenti a diverse aziende e università per aiutare la ricerca e lo sviluppo per il riconoscimento vocale.
Nel 1976, grazie al SUR, la Carnegie Mellon University sviluppò l’Harpy System. Questo è stato un grande passo avanti nella tecnologia di riconoscimento vocale. I sistemi fino a quel momento erano in grado di comprendere parole e numeri, ma Harpy era unico in quanto poteva comprendere frasi complete.
Aveva un vocabolario di circa 1.011 parole, che, secondo una pubblicazione diB. Lowerre e R. Reddy , equivaleva a più di un trilione di frasi possibili diverse. La pubblicazione afferma quindi che Harpy poteva capire le parole con una precisione del 93,77%.
Gli anni ’80: il metodo Markov nascosto
Gli anni ’80 sono stati un momento cruciale per la tecnologia di riconoscimento vocale, poiché questo è il decennio in cui la tecnologia di riconoscimento vocale, poiché questo è stato il decennio in cui è stato introdotto il metodo Markov nascosto (HMM). La principale forza trainante dietro HMM è la probabilità .
Ogni volta che un sistema registra un fonema (il più piccolo elemento del discorso), c’è una certa probabilità di quello che sarà il prossimo. HMM utilizza queste probabilità per determinare quale fonema verrà probabilmente dopo e formerà le parole più probabili. La maggior parte dei sistemi di riconoscimento vocale oggi utilizza ancora l’HMM per comprendere il parlato.
Gli anni ’90: il riconoscimento vocale raggiunge il mercato dei consumatori
Sin dalla concezione della tecnologia di riconoscimento vocale, ha intrapreso un viaggio per trovare uno spazio nel mercato consumer. Negli anni ’80, IBM ha presentato un prototipo di computer in grado di eseguire la dettatura vocale. Tuttavia, è stato solo all’inizio degli anni ’90 che le persone hanno iniziato a vedere applicazioni come questa nelle loro case.
Nel 1990, Dragon Systems ha introdotto il primo software di dettatura vocale. Si chiamava Dragon Dictate ed è stato originariamente rilasciato per Windows. Questo programma da 9.000 dollari è stato rivoluzionario per portare la tecnologia di riconoscimento vocale alle masse, ma c’era un difetto. Il software utilizzava la dettatura discreta , il che significa che l’utente deve fare una pausa tra ogni parola affinché il programma le raccolga.
Nel 1996, IBM ha nuovamente contribuito al settore con Medspeak. Anche questo era un programma di dettatura vocale, ma non soffriva di dettatura discreta come ha fatto Dragon Dictate. Invece, questo programma potrebbe dettare un discorso continuo, il che lo ha reso un prodotto più avvincente.
2010: Una ragazza di nome Siri
Nel corso degli anni 2000, la tecnologia di riconoscimento vocale è esplosa in popolarità. È stato implementato in più software e hardware che mai e un passo cruciale nell’evoluzione del riconoscimento vocale è stato Siri, l’assistente digitale. Nel 2010, una società di nome Siri ha introdotto l’assistente virtuale come app iOS.
A quel tempo, Siri era un software impressionante che poteva dettare ciò che l’oratore stava dicendo e dare una risposta istruita e spiritosa. Questo programma è stato così impressionante che Apple ha acquisito la società quello stesso anno e ha dato a Siri una piccola revisione, spingendola verso l’assistente digitale che conosciamo oggi.
È stato attraverso Apple che Siri ha ottenuto la sua voce iconica (voce di Susan Benett) e una serie di nuove funzionalità. Utilizza l’elaborazione del linguaggio naturale per controllare la maggior parte delle funzioni del sistema.
Gli anni 2010: i 4 grandi assistenti digitali
Allo stato attuale, quattro grandi assistenti digitali dominano il riconoscimento vocale e il software aggiuntivo.
- Siri è presente in quasi tutti i prodotti Apple: iPhone, iPod, iPad e la famiglia di computer Mac.
- Google Assistant è presente nella maggior parte degli oltre 3 miliardi di dispositivi Android sul mercato. Inoltre, gli utenti possono utilizzare i comandi su molti servizi Google , come Google Home.
- Amazon Alexa non ha una piattaforma dedicata in cui vive, ma è comunque un assistente di spicco. È disponibile per essere scaricato e utilizzato su dispositivi Android, dispositivi Apple. e persino selezionare laptop Lenovo
- Bixby è la voce più recente nell’elenco degli assistenti digitali. È l’assistente digitale locale di Samsung ed è presente tra i telefoni e i tablet dell’azienda.
Una storia parlata
Il riconoscimento vocale ha fatto molta strada dai tempi di Audrey. Sta facendo grandi guadagni in più campi; ad esempio, secondo Clear Bridge Mobile , il campo medico ha beneficiato dei chatbot a comando vocale durante la pandemia nel 2020. Dalla capacità di comprendere solo i numeri alla comprensione di diverse varianti di frasi complete, il riconoscimento vocale si sta rivelando uno dei più utili tecnologie della nostra epoca moderna.