Reconeixement de locutor

El reconeixement de locutor pertany a la branca de la intel·ligència artificial i consisteix en la identificació automàtica d'una persona a través de la seva veu. El fet de poder distingir un locutor d'un altre està relacionat majoritàriament amb les característiques fisiològiques i els hàbits lingüístics de cadascun d'ells. El reconeixement comporta un processament d'àudio que permet extreure aquest conjunt de trets inherents al locutor i la posterior cerca de possibles coincidències mitjançant un procés de reconeixement de patrons.

Arquitectura del sistemaModifica

 
Arquitectura d'un sistema de reconeixedor de locutor

Un sistema de reconeixement de locutor està format per dues seccions: entrenament i test. Tot i compartir una estructura similar quant als mòduls que les conformen tenen una funció ben diferenciada.

  • La secció d'entrenament té la finalitat d'enregistrar locutors mitjançant un micròfon per tal d'extreure les seves característiques i guardar-les a la base de dades.
  • La secció de test se centra a enregistrar a un locutor i extreure'n les característiques per poder comparar-les amb les que es troben emmagatzemades a la base de dades. Finalment, després d'obtenir possibles coincidències, el sistema presenta al locutor susceptible de ser el cercat.

Adquisició de dadesModifica

L'adquisició de dades és essencial tant per a la part d'entrenament com la de test. Per poder introduir locutors al sistema és necessari un transductor acústic-elèctric, ja que la veu es propaga en forma d'ones i per tal de poder extreure'n característiques és necessari transformar la pressió sonora en un senyal elèctric i així poder procedir a la seva digitalització. El tipus de micròfon, la freqüència de mostreig i la quantització realitzada a la captació de l'àudio haurà d'adequar-se a l'amplada de banda de la veu i les seves característiques. Hi ha factors externs al locutor com l'elecció dels paràmetres anteriors, la relació senyal soroll (SNR) de les mostres enregistrades o la utilització de micròfons amb diferents corbes de resposta de freqüència que poden influir negativament en el resultat.

Extracció de característiquesModifica

 
Potència d'àudio amb MPEG-7

Un cop digitalitzat, l'àudio es processa per tal d'extreure el llistat de característiques triades, les quals s'anomenen descriptors d'àudio. Aquests descriptors contenen les característiques acústiques del senyal que utilitzarà el classificador per comparar-los amb el llistat emmagatzemat a la base de dades. Les característiques a analitzar poden ser diverses però se solen utilitzar els descriptors d'àudio de baix nivell a causa de la naturalesa de la font. Aquests descriptors presenten un baix nivell d'abstracció i es limiten a descriure característiques espectrals, paramètriques i temporals del senyal d'àudio.

Per tal de poder associar les característiques dels descriptors als arxius d'àudio corresponents s'utilitzen les metadades, dades sobre dades. Un dels estàndards utilitzats per a aquesta tasca és l'estàndard MPEG-7, el qual permet la gestió d'aquestes metadades, facilitant així l'accés a aquesta informació a l'hora de la cerca.

ClassificacióModifica

 
Sistema de reconeixement obert vs. tancat

El mòdul classificador té accés tant a la part d'entrenament com a la de test. Aquest mòdul fa de pont entre ambdues parts encarregant-se de comparar els vectors de característiques a cercar amb els vectors dels models de locutor que conté la base de dades. La seva tasca computacional consisteix a trobar coincidències i com a resultat extreu una sèrie de probabilitats dels locutors a la base de dades susceptibles de ser el cercat. Els resultats poden tenir diferents tipus de sortida depenent de la configuració del sistema.

Sistema tancatModifica

Un sistema tancat dóna per suposat que el locutor que es vol identificar es troba ja emmagatzemat a la base de dades. El locutor amb més probabilitats a la sortida del classificador, que comparteix més característiques amb el locutor a cercar, serà la sortida resultant del sistema.

Sistema obertModifica

Un sistema obert és més complex, ja que el locutor que es vol identificar no està necessàriament a la base de dades. El classificador ha de tenir en compte no només la més alta probabilitat, sinó que també ha d'establir si la semblança és suficient per a donar un positiu. Si les probabilitats d'un model de locutor es consideren suficients per a suposar una coincidència es presenta al candidat com a resultat de la cerca, en cas contrari la sortida és "locutor desconegut".

AplicacionsModifica

El desenvolupament de tecnologies encarregades de reconèixer automàticament a una persona mitjançant la seva veu ha experimentat un creixent interès en els darrers anys a causa de les seves múltiples aplicacions. Taula pag34 pfc + altres exemples

Identificació i autenticacióModifica

  • La identificació de locutor consisteix a trobar la seva identitat. Com que el locutor a cercar pot estar registrat a la base de dades o no estar-ho, s'acostuma a utilitzar un sistema obert, doncs en cas de no estar a la base de dades la identificació no seria possible i el locutor hauria de considerar-se desconegut.
  • En el cas de l'autenticació s'utilitza un sistema tancat, perquè en aquest cas el locutor dóna la seva identitat i per tal de verificar-ho és necessari accedir al seu model de veu guardat a la base de dades. Hi ha dues possibles sortides per a aquest sistema, la correspondència entre el locutor i qui diu ser o la no correspondència.

BibliografiaModifica

  • PFC MªPia Muñoz Trallero. Escola d'Enginyeria de Terrassa (ETT). UNiversitat Politècnica de Catalunya. Terrassa, Maig 2010
  • Tesi Mireia Farrús i Cabeceran. TALP Research Center, Speech Processing Group. Universitat Politècnica de Catalunya. Barcelona, July 2008

Enllaços externsModifica