Report sui metodi di riconoscimento del parlatore

Davide Zavattaro

1. Il problema dell’identificazione forense

Al giorno d’oggi la sensibilità delle Forze dell’Ordine e della Magistratura verso l’importanza delle “Scienze Forensi” e del ricorso a queste per la soluzione di particolari casi giudiziari è ai massimi livelli. Questo non può essere solamente attribuito al contributo dei media (che, eventualmente, ne rappresenta solo una conseguenza) ma, soprattutto, è dovuto all’apprezzamento dei risultati che quotidianamente vengono conseguiti, frutto del progresso tecnico e scientifico nonché del crescente livello di qualificazione degli operatori. D’altro canto è oggi chiaro che non è sufficiente avere in mano un buon accertamento tecnico per definire rigidamente la posizione processuale di un soggetto ma è necessario che esso superi indenne l’esame della “cross examination” durante il dibattimento. Ciò implica per l’esperto l’osservazione di protocolli, la conoscenza dettagliata delle tecniche analitiche e di indagine, dell’impiego dei materiali e della letteratura internazionale sulla specifica materia. Lo scopo dell’esperto non è quello di ‘giudicare’ un soggetto scrivendo una “sentenza scientifica” ma, piuttosto, quello di fornire al giudice gli elementi necessari per giudicare serenamente e oggettivamente la posizione della persona in questione(1). Al riguardo non dimentichiamo la forte spinta internazionale (cfr. sentenza Daubert vs. Merrel Dow Pharmaceuticals Inc., 509 US 579, 1993) per cui si sollecitano gli esperti a non concludere le proprie relazioni tecniche con risposte categoriche ma a fornire sempre una stima dell’errore (error rate). Sull’argomento la posizione dominante in Europa è dettata dall’ENFSI (European Network of Forensic Science): si propone di presentare i dati in versione statistica-bayesiana, in modo che risultino esplicite sia la probabilità di riconoscimento (cioè il grado di compatibilità tra la traccia anonima e la medesima caratteristica del sospettato) sia la probabilità di falsa identificazione (la probabilità che un’altra persona, innocente, possa produrre analoga traccia), ciò che viene definito con il nome di likelihood ratio. In altre parole il rapporto di queste due probabilità rappresenta il fattore tecnico che consente di passare dalle probabilità di colpevolezza “a priori” (note agli inquirenti e al giudice) a quelle “a posteriori” (cioè quelle che considerano anche l’incidenza del risultato dell’esame tecnico) che saranno l’elemento fondamentale per l’emissione di un verdetto(2).Le scienze forensi, in tutti i propri settori, si stanno orientando verso questo formato di risposta, malgrado il processo di trasformazione non sia semplice, stanti le difficoltà di ordine culturale (in quanto gli esperti anziani sono tendenzialmente restii all’idea di adeguarsi ad un moderno concetto di “statistica forense” che richiede, oltre allo studio, anche un cambiamento metodologico) e soprattutto pratico, perché non tutte le discipline hanno sviluppato efficaci strumenti matematici e, cosa più grave, approntato database in grado di rappresentare adeguatamente i fenomeni di studio adeguandoli ad una popolazione di riferimento significativa.
 
2. Il riconoscimento del parlatore

Tra le indagini tecnico-scientifiche che possono condurre all’identità di un soggetto troviamo anche quelle sulla voce. L’importanza di questo tipo di investigazione risiede soprattutto nella tipicità di alcuni reati, per i quali è necessaria, appunto, la voce e dove, peraltro, risulta inusuale il ritrovamento di altri elementi d’indagine, pensiamo alle rivendicazioni di attentati, alle richieste di riscatto, alle estorsioni… Tra l’altro l’ampia e crescente diffusione degli apparati portatili di comunicazione favorisce la scelta di questo tipo di contatto tra persone.Risulta dunque evidente l’indispensabilità della messa a punto di tecniche di analisi della voce che consentano non solo l’individuazione del responsabile ma, soprattutto, siano sufficientemente robusti nei confronti degli attacchi dalle parti durante il dibattimento. Questo articolo si prefigge il compito di esporre e confrontare i metodi esistenti, da quelli tradizionali ai più recenti, utilizzati in Europa e nel mondo, per affrontare questo tema. a. Problematiche relative al riconoscimento del parlatore La difficoltà principale per un approccio di tipo scientifico è dato dalla intrinseca variabilità della voce che, unita a quella introdotta dalle condizioni di registrazione, rende il problema decisamente complesso.Riguardo al fattore “intrinseca variabilità” è necessario spendere alcune parole: la voce è soggetta a continue alterazioni non solo per l’aumentare dell’età o per l’insorgere di patologie specifiche dell’apparato respiratorio (più precisamente parleremo di variazioni “di lungo periodo” del sistema rino-laringo-faringeo), ma anche per cause “di breve periodo” come un’anomala respirazione momentanea, l’assunzione di droghe, alcool o per improvvisi sbalzi umorali del parlatore.Queste variazioni influiscono anche sulle componenti più prettamente fisiche della voce come è stato dimostrato, per esempio, per la frequenza di vibrazione delle corde vocali che dipende anche dall’intensità della voce e dalla tensione delle corde stesse.Da tutto ciò si evince che all’interno di uno stesso individuo (intraparlatore) esiste una duplice variabilità che non può essere trascurata in fase di confronto. Essa è duplice in quanto vi è la componente a breve termine, di natura occasionale (solitamente transitoria) e quella sistematica dovuta all’invecchiamento fisiologico degli organi e delle membrane, talvolta affetti da patologie croniche. Oltre alle variazioni intrinseche, dovute alla sorgente del segnale audio, si devono considerare anche quelle introdotte dal sistema strumentale di registrazione del suono in tutte le sue componenti, cioè dal microfono, dal canale di trasmissione, dall’apparecchio di registrazione ed infine dal supporto di registrazione.Ogni elemento del sistema introduce infatti modifiche al segnale originale. Tali variazioni possono risultare trascurabili o meno in funzione della qualità dei materiali, delle condizioni generali di configurazione del sistema di registrazione e, generalmente, la qualità finale del prodotto sarà determinata dalle caratteristiche del peggior componente. Queste sono solo alcune delle ragioni per cui risulta necessario porre dei limiti “ab initio” alla possibilità di comparare voci. Al giorno d’oggi, per la comparazione della voce a fini forensi coesistono, di fatto, tecniche sia linguistiche sia acustico-strumentali. Le seconde hanno condotto all’elaborazione di programmi di analisi di tipo semi-automatico, che sono di ausilio all’operatore nella identificazione, o totalmente automatici, in cui l’operatore introduce esclusivamente il file audio e imposta il database di confronto; il sistema elabora l’informazione e fornisce direttamente il risultato calcolando un rapporto di verosimiglianza. Lo stato dell’arte sulle tecniche di riconoscimento del parlatore riflette la sensibilità internazionale sull’argomento; alcuni Paesi quali Francia, Italia e Spagna, colpiti fin dagli anni ’70 dal terrorismo sono stati tra i pionieri della ricerca nel settore; altri quali gli stessi Stati Uniti hanno iniziato solo recentemente, investendo ingenti risorse per la mutata sensibilità, causata anche dai noti fatti dell’11 settembre 2001. Stante la multidisciplinarità del settore, la ricerca in molti Paesi è incentrata oggi sulle interazioni e sulle possibili integrazioni tra diverse tecniche per ottenere la maggior quantità di dati indipendenti utili alla risoluzione del problema comparazione(3).Benché tutte le tecniche abbiano dei limiti nell’applicabilità, ricordiamo tuttavia che questi sono diversi; alcune caratteristiche del segnale possono precludere un tipo di analisi ma non un altro e viceversa; inoltre, quando è possibile l’esecuzione di tutte le metodiche note, si possono ottenere risultati decisamente più precisi. Nella stragrande maggioranza degli Istituti di Scienze Forensi già oggi si applica un approccio ibrido (denominato combined), che tiene conto sia degli aspetti strumentali che di quelli linguistici. Il problema è solo quello di amalgamare con cognizione di causa i dati, valutando opportunamente quelli indipendenti da quelli che non lo sono e non possono, quindi, essere contemplati più volte. Attualmente chi utilizza sistemi semi-automatici o automatici (con database di riferimento) è in grado di fornire la probabilità di falsa identificazione o la likelihood ratio, esprimendo valori che però non tengono in considerazione le risultanze emerse dagli esami linguistici che, a tutt’oggi, sono rimaste di carattere qualitativo. Peraltro nella maggior parte dei laboratori europei, proprio per la diversa estrazione culturale, gli esami linguistici sono effettuati da persone differenti, con professionalità diverse rispetto a chi esegue le misure sulle frequenze di emissione vocalica. Inoltre, problema non indifferente, molte tecniche non sono esportabili fuori dai confini nazionali, in quanto richiedono una precisa e attenta conoscenza della lingua.  b. Le principali tecniche: analisi fonetico-linguistica Analizziamo brevemente le peculiarità della voce che sono oggetto d’esame, menzionando aspetti:-  Fonetici: acquisiti con l’educazione e consolidati nel tempo, caratterizzano le persone per le modalità dei processi di articolazione e collegamento dei suoni. Rappresentano un fattore seminconscio(4), sostanzialmente stabile nel parlato spontaneo, e scarsamente variabile nel medio termine (la pronuncia dei fonemi, per es. nóve anziché nòve, trè anziché tré ecc…, dipende dal patrimonio culturale ‘consolidato’). La sovrapponibilità delle mappature delle produzioni fonetiche tra individui è stringente per qualsiasi giudizio di compatibilità;-  Semantico-Lessicali: incidono sull’identità e il significato del messaggio pronunciato in relazione ai suoni emessi o alla scelta di vocaboli operata (parola/significato, secondo un codice semantico), forniscono informazioni di carattere prevalentemente socio-linguistico, con riferimento alla zona geografica di appartenenza ed al livello culturale raggiunto dal soggetto. Particolari interiezioni possono invece avere valenza identificativa, in funzione della rarità delle medesime (le persone che costantemente iniziano il discorso con “però” sono decisamente più comuni di quelle che iniziano con “per il vero”); -  Prosodici: riguardano l’andamento (temporale e intonativo) dell’esposizione frastica, possono essere connessi con il carattere della persona e/o con l’ambiente di sviluppo/lavoro. Gli aspetti intonazionali sono i più condizionati dallo stato emotivo, tuttavia altri aspetti temporali possono risultare estremamente stabili rispetto alle emozioni e quindi maggiormente utilizzabili; tra queste citiamo la velocità di articolazione(5), ma utile è anche l’analisi delle pause (piene e vuote) nonché del respiro;-  Foniatrici: riguardano le modalità di emissione acustica dei suoni dovute alle condizioni morfo-fisiologiche della parte superiore dell’apparato respiratorio. Rappresentano la categoria generalmente meno controllabile dal cervello e più oggettivamente legata alla biometria dell’individuo. Sono i responsabili delle frequenze fonatorie emesse, e rappresentano di fatto l’oggetto degli esami strumentali.L’esame fonetico-linguistico, pertanto, prevede l’analisi delle elencate peculiarità (in particolare dei primi tre punti) che produrranno una sorta di ‘carta d’identità’ del parlatore. La disamina dei parametri comporta tempi lunghi di rilevazione e richiede un adeguato livello di preparazione, nonché di esperienza, dell’operatore.Sono ammesse anche le cosiddette “prove uditive”, che consistono nella creazione di un file audio contenente le frasi pronunciate dall’anonimo seguite dalle medesime espresse dal sospettato; l’accostamento diretto suggerisce più ascolti immediati, favorendo le condizioni per un confronto percettivo basato sulla memoria a breve termine.Gli esami fonetico-linguistici sono svolti dagli esperti/fonetisti di tutto il mondo: essi tuttavia non offrono un risultato statistico quantificabile(6) e l’eventuale positività comporta, di fatto, una condizione necessaria non sufficiente per sostenere un’identificazione. c. Tecniche di analisi strumentali di tipo semi-automatico La voce viene analizzata da un punto di vista fisico, poiché riconosciuta come sistema di onde acustiche che genera suoni complessi, derivando il risultato sonoro dalla combinazione di più fenomeni:-  il passaggio di aria attraverso la glottide che, a seconda della posizione delle corde vocali, genera rumore ma può produrre anche un treno d’onde;-  il seguente passaggio attraverso un condotto acustico che, fungendo da cassa di risonanza, modula il segnale entrante; -  la variabilità nel tempo della morfologia del condotto vocalico, che permette l’emissione dei diversi suoni.Per lo studio di un’onda complessa come il suono vocale l’analisi strumentale è condotta sullo spettro del segnale (rappresentazione della scomposizione del suono nelle proprie componenti in frequenza) nel tratto dove è presente una vocale.Tra i vari suoni emessi da un parlante sono infatti le vocali ad essere misurabili con maggiore precisione(7). Poiché i risultati delle analisi così condotte sono riproducibili (e la riproducibilità è il pilastro di ogni affermazione scientifica), ne segue che questa metodologia riveste un importante grado di attendibilità. Oggetti della misura, vocale per vocale, sono tipicamente quattro frequenze, quella cosiddetta “fondamentale” (la più bassa, correlata alla vibrazione delle corde vocali) e le prime tre “formanti” (risonanze del tratto vocale, vedi figura 1). Figura 1 - Spettro di una vocale ‘a’ maschile: le barre indicano le prime tre formanti. Per classificare una voce, stante le citate variabilità, bisognerà effettuare più misure per singola vocale e studiare quindi una distribuzione (rappresentata da una funzione continua) per ogni variabile misurata. Generalmente si utilizzano 16 variabili e questo lascia comprendere la complessità del tipo di esame e della successiva elaborazione dei dati che, tuttavia, ha il vantaggio di fornire un’interpretazione statistica anche per quanto riguarda la probabilità di falsa identificazione, stante l’esistenza di un database che rappresenta la popolazione italiana per ognuna delle variabili misurate(8).Questo genere di analisi, sviluppata a partire dagli anni ’90, ha soppiantato le tecniche più tradizionali legate ai cosiddetti ‘sonogrammi’ (esplose negli anni ’70) e viene comunemente svolta non solo in Italia, ma anche in molte Nazioni europee quali la Russia, i Paesi Baltici ed altri, nonché in Nazioni sudamericane di lingua spagnola o portoghese (Argentina e Brasile). Lavorando su 16 variabili si possono ottenere probabilità di falsa identificazione anche inferiori a 1:10000.d. Tecniche di analisi totalmente automatiche Con la disponibilità di computer sempre più potenti, a partire dal nuovo millennio sono stati introdotti sistemi di riconoscimento vocale di tipo totalmente automatico. Tralasciando in questa sede gli aspetti più prettamente tecnici(9), ci concentreremo sulla struttura e sulla filosofia operativa. Il “motore” di questa tipologia di sistema è standard ed è basato su alcune decine di parametri acustici che vengono automaticamente estratti ed elaborati statisticamente a partire da un enorme numero di spettri. Gli spettri sono generalmente campionati ogni 10 millisecondi (pertanto per una conversazione di un minuto il sistema ne calcolerà 6000). Con questo tipo di struttura le informazioni raccolte non sono relative alle sole vocali ma a tutto il parlato; è inoltre possibile valutare anche le variazioni dei parametri nel tempo (coefficienti “delta”). Per effettuare i confronti è tuttavia necessario poter disporre di un database di voci rappresentativo della popolazione, in quanto è necessario calcolare la probabilità che la voce anonima appartenga al sospettato piuttosto che ad un qualsiasi individuo della popolazione, con la possibilità quindi di ottenere un rapporto di verosimiglianza (likelihood ratio), in linea con quanto proposto a livello internazionale in termini di presentazione dei risultati.L’operatore, pertanto, interviene solo in due fasi: nella selezione del materiale audio da fornire allo strumento (anonimo e sospettato) e nella scelta del database di riferimento. Questi sistemi#(10), come vedremo, hanno degli indubbi vantaggi rispetto ai precedenti (per es.: velocità, oggettività…) ma, per contro, ammettono nuovi limiti (al di là di quelli meramente tecnici come la troppa sensibilità verso il canale di trasmissione), uno tra tutti: manca una universale accettazione da parte dei Tribunali. La principale critica è nella mancanza del controllo dell’operatore. Non piace l’idea che sia una “scatola nera” a fornire un esito (anche perché nel contraddittorio non si può operare una cross examination su uno strumento!), inoltre presentano generalmente error rate superiori rispetto ad altri metodi(11)#. I programmi di analisi automatica, soprattutto per la loro rapidità, sono invece largamente impiegati nelle analisi “preventive”, per scremare da numerose intercettazioni quel numero ridotto che possa poi essere utile per le indagini: in pratica quello che accade nella dattiloscopia con il sistema AFIS o in balistica con IBIS. è in ogni caso richiesta una verifica da parte dell’esperto che non può, di fatto, essere completamente sostituito da una macchina.
 
3. Confronti tra tecniche

Scopo di questo paragrafo è mostrare pregi e difetti delle tre tecniche esposte, non tanto per stilare una sorta di classifica di merito quanto, piuttosto, per orientare l’indagine investigativa sulla metodologia più opportuna a seconda delle condizioni di applicabilità determinate dal caso in trattazione. Un altro scopo è quello di verificare le condizioni di integrabilità tra le tecniche, in maniera da massimizzare la valenza degli elementi d’indagine evitando, per contro, che l’impiego contemporaneo di più sistemi si risolva in un’inutile ripetizione di dati ridondanti.
Per sintetizzare le risultanze emerse dall’indagine comparativa(12) tra le tecniche, le valutazioni sono riportate nella tabella 1:


4. Discussione e conclusioni

Il confronto tra le caratteristiche e le prestazioni mostra chiaramente come non vi sia un metodo migliore in senso assoluto. In effetti nessuno di questi riesce a trattare con completezza ogni caratteristica della voce (e a fornire un adeguato “peso” valutativo) e, quindi, aspetti ‘trascurati’ da un metodo possono essere meglio descritti da un altro ma, soprattutto, quando una tipologia d’approccio non può essere utilizzata per i limiti intrinseci, ne esiste un’altra capace di fornire informazioni. Se da un lato, quindi, già oggi presso molti Istituti la scelta del metodo è effettuata pragmaticamente sulla base delle condizioni operative, dall’altro sono in corso attività di ricerca per integrare i sistemi in modo da ottenere risultati migliori in un unico responso. Il metodo che pare essere più “chiuso”, quindi meno integrabile, è quello di tipo totalmente automatico perché, in teoria, analizza tutte le particolarità della voce, i fonemi, le vocali, il respiro, ecc…; il problema è che non è in grado di fornire una valutazione separata del peso statistico di ogni caratteristica e, mediando un po’ su tutte, non raggiunge quell’accuratezza che si otterrebbe dalla separazione delle variabili. In altri termini, una particolarità rara di un parlatore italiano (es.: non riuscire a pronunciare la consonante ‘c’ dolce) non verrebbe trattata con “particolare attenzione” da un sistema automatico, perché questo dato verrebbe “diluito” insieme a tutte le altre caratteristiche, mentre in un esame di tipo fonetico-linguistico il dato in questione assumerebbe un’importanza primaria. I sistemi semi-automatici, invece, lavorando solo sulle vocali, sembrano più facilmente integrabili con le tecniche fonetiche e linguistiche, perché gli oggetti delle misure sono sicuramente più circoscrivibili, rendendo più semplice la ricerca di eventuali interdipendenze rispetto a nuovi parametri. Se i diversi parametri fossero indipendenti tra loro, sarebbe possibile un’analisi statistica più semplice e non ambigua (per non dire falsa). Gli esami di tipo linguistico, invece, sono stati e restano un importante punto di riferimento in quanto forniscono un ricco serbatoio di informazioni; ma se non sarà possibile formalizzare un loro impiego in base ad uno schema logico-matematico che porti a risultati statistici quantitativi, vi è il rischio di una inutilizzabilità in dibattimento, come accaduto negli USA. Ecco perché al giorno d’oggi molte équipes sono attive nella ricerca, in particolare, di quelle variabili di tipo linguistico che, una volta dimostrata la loro indipendenza dagli altri parametri derivanti dalle analisi strumentali, consentano un’acquisizione oggettiva e siano storicizzabili in database, in altre parole siano trattabili matematicamente; tra questi, per esempio, citiamo la velocità di articolazione che, per la lingua italiana, risulta sufficientemente discriminativa da rappresentare un sicuro valore aggiunto, come mostrato dagli studi più recenti(18).L’evoluzione scientifica e tecnologica dell’ultimo decennio ha dunque consentito lo sviluppo di nuove metodologie per l’analisi della voce, più potenti rispetto al passato e, soprattutto, in linea con i dettami forensi internazionali in termini di applicabilità, affidabilità e gestione dell’errore.La panoramica esposta ha mostrato come le tecniche sviluppate siano capaci di superare le limitazioni che solitamente affliggono il segnale “reale”; si è visto che è possibile ottenere risultati anche in tempi assai ristretti (sebbene sia ancora prematuro affermare che questi possano superare una cross-examination in dibattimento) e si sono anche compresi gli aspetti interdisciplinari che intervengono nelle analisi di riconoscimento.Avendo chiari i limiti di funzionamento e la relativa attendibilità dei risultati, si è quindi oggi in grado di fornire soluzioni differenziate a seconda della tipologia del caso in trattazione (lingua straniera, segnale disturbato, linea telefonica…). Lo sforzo attuale rimane dunque quello di valutare le possibili integrazioni tra le tecniche, pesando scientificamente (o meglio statisticamente) i contributi offerti dall’impiego di ogni singolo parametro, in maniera da poter affrontare, di volta in volta, ogni specifico caso reale ritagliando la soluzione più completa.



(*) - Maggiore dei Carabinieri, Comandante della Sezione Corsi del Reparto Addestramento del Racis.
(1) - D. Zavattaro, L’identificazione e il problema dell’interpretazione del dato scientifico. Riflessi dibattimentali. Rassegna dell’Arma dei Carabinieri, vol. 4 - 2001.
(2) - Per approfondimenti cfr.: C.G.G. Aitken, Statistics and the evaluation of evidence for forensic scientists, John Wiley & Sons -1997.
(3) - La sola Guardia Civil spagnola ha investito quasi un milione di euro per la realizzazione di un software di tipo automatico nell’ultimo quadriennio.
(4) - Quindi ragionevolmente robusto anche nei casi di alterazione volontaria della voce.
(5) - Cfr.: H.J. Kunzel, Some general phonetic and forensic aspects of speaking tempo: Forensic Linguistic: The University of Birmingham - University Press -, 4 (1)-1997, pagg. 48-83.
(6) - Perché ad oggi non è disponibile un database dei parametri linguistici nazionali.
(7) - Perché per un tempo sufficientemente lungo (50-60 millisecondi) il tratto vocale può essere considerato stazionario, quindi lo spettro rappresenta una sorta di fotografia della sola vocale pronunciata.
(8) - Per approfondimenti: A. Federico and A. Paoloni, Bayesian decision in the speaker recognition by acoustic parametrization of voice samples over telephone lines in Proc. EUROSPEECH, pagg. 2307-2310, 1993.
(9) - Per approfondimenti: Didier Meuwly, Andrzej Drygajlo, Forensic Speaker Recognition Based on a Bayesian Framework and Gaussian Mixture Modelling (GMM) - 2001 a Speaker Odyssey - Creta 18-22 giugno 2001- atti.
(10) - Sviluppati e impiegati in Spagna, Francia, Svizzera e, in parte, negli USA e in Russia. In fase di test in altri Paesi, tra i quali l’Italia.
(11) - Vds.: Schmidt-Nielsen, A. & Crystal, T.H. (1998), Human vs. Machine Speaker Identification with Telephone Speech, Proceedings ICSLP ’98.
(12) - I dati sono tratti dai meeting del gruppo di lavoro ENFSI “Forensic Speech & Audio Analysis”.
(13) - Non esiste un vero limite: più è abbondante il materiale a disposizione e più sarà possibile trovare elementi di comparazione.
(14) - Intesa per una comparazione di soli due brani, già selezionati e pretrattati, uno anonimo e uno in verifica.
(15) - L’Equal Error Rate è la misura delle prestazioni del sistema quando viene “tarato” sul livello di equiprobabilità di accettazione di un falso positivo rispetto all’accettazione di un falso negativo.
(16) - Non dappertutto: negli U.S.A., per esempio, non è valutato come “metodo scientifico” perché non soddisfa i requisiti della sentenza Daubert.
(17) - Probabilità di Falsa Identificazione, Probabilità di Falsa Reiezione.
(18) - Vds.: A. Federico, L. Mori, A. Paoloni, D. Zavattaro, Articulation rate: work in progress; in 7° meeting ENFSI “Forensic Speech & Audio Analysis Working Group”, Toledo, maggio 2004 - atti.