Il mercato delle trascrizioni da voce a testo è in crescita, con applicazioni che spaziano tra le industry più diverse. Ma quali sono le killer feature sulle quali concentrare l’attenzione nei prossimi due o tre anni? Ve ne proponiamo alcune.

Accuratezza del riconoscimento vocale

Per le trascrizioni di audio nelle lingue più diffuse (es. inglese) si è raggiunta un'accuratezza che in alcuni scenari si avvicina a quella umana, con valori prossimi al 95% (quindi con WER – word error rate - del 5%). Pertanto, chi si occupa di tecnologia di riconoscimento vocale dovrà portare gli stessi standard di accuratezza sulle altre lingue, assicurandosi di raggiungere livelli più che soddisfacenti per realtà (imprese e di conseguenza clienti finali) sempre più multinazionali e multilingua.
Oltre a tali capability, i player dovranno includere nell’offerta soluzioni volte a migliorare la qualità dell'output fornito ai loro clienti che spaziano dall'identificazione delle lingue parlate fino alla speaker diarization (approfondita più avanti), garantendo che i livelli di accuratezza promessi si concretizzino davvero nel momento in cui si applicheranno al mondo reale. Un esempio che spesso si dà per scontato è la capacità di fornire un output di trascrizione di qualità in caso di ambienti rumorosi, di conversazioni di parlato spontaneo o ancora di un audio registrato su dispositivi di bassa qualità.

Individuare chi dice cosa

La speaker diarization viene utilizzata per identificare le voci di singole persone in file audio/multimediali registrati su canale singolo: si rilevano i "parlatori unici" assegnando un’etichetta a ciascuno di essi e associandola alle porzioni di testo corrispondenti nella trascrizione.
Questa attività rappresenta una vera e propria sfida per i sistemi automatizzati: un singolo speaker può variare tono e modo di parlare a seconda dell'umore, di un’esitazione, dell'enfasi che vuole dare alle parole, del rumore circostante e di numerose altre variabili, dunque ricondurre tutte le sue sfumature a un’unica etichetta, differenziandolo dagli altri, non è così scontato come potrebbe apparire.

Identificazione automatica della lingua parlata

Automatizzare in real-time lo step di identificazione della lingua parlata prima di avviare il processo di trascrizione (attività che altrimenti avverrebbe con selezione manuale del language pack corretto) consente alle aziende la gestione semplificata dei processi di business in contesti multilingua, evitando che il patrimonio vocale vada perso o che sia disponibile troppo tardi.

Personalizzazione dei modelli acustici e del linguaggio

La disponibilità di tecnologie proprietarie rappresenta il volano per ottenere le migliori performance di trascrizione automatica. L’adattamento di modelli acustici e del linguaggio, specifici per il contesto di riferimento, consente di trascrivere l’audio in testo da una vasta gamma di input (telefonico, broadcast, …), ottenendo elevati standard qualitativi, nonché di superare gli ostacoli del riconoscimento vocale dovuti a particolari ambienti acustici e a terminologie specifiche di dominio (es. nomi di strutture, prodotti, brand, acronimi in uso presso il cliente).
La capacità di mettere a punto tali modelli consente di garantire output più adeguati e precisi, a differenza dell’adozione di sistemi general purpose. Ma il percorso va affinato, anche attraverso una più stretta collaborazione tra utenti e fornitori, a partire dalla condivisione di dati e fino al raggiungimento (progressivo e incrementale) di output realmente efficaci.

Estensione delle capability degli Assistenti Virtuali

Data la grande attenzione verso il mondo degli assistenti virtuali e il loro crescente utilizzo su smartphone e altri dispositivi, è fondamentale aumentare l’accuratezza anche in particolari contesti e scenari applicativi (es. supporto per blocco carte di credito, prenotazione visite mediche, …).
I consumatori si aspettano che i loro assistenti virtuali li comprendano, indipendentemente dal loro accento, dialetto o lingua, anche in caso di frasi non sempre facilmente contestualizzabili.

Speech-to-text e machine translation nella lingua di destinazione

Una necessità tipica delle aziende che operano a livello globale è quella di utilizzare un linguaggio comune, univoco e riconoscibile che le rappresenti, a prescindere dal paese in cui le comunicazioni (istituzionali o interne all’azienda stessa) verranno veicolate. In tale scenario, è necessario disporre di strumenti evoluti che permettono una trascrizione immediata dalla lingua del parlatore a quella dell’ascoltatore.
Le soluzioni per una comunicazione multilingua devono poi permettere elevati livelli di accuratezza e una ridotta latenza.