BLEU (BiLingual Evaluation Understudy, en català «estudi d'avaluació bilingüe») és un mètode d'avaluació de traduccions automàtiques. Una traducció té una millor qualitat com més semblant és respecte d'una referència, que se suposa correcta. BLEU es pot calcular utilitzant més d'una traducció de referència. Això permet una millor robustesa en la mesura enfront d'altres traduccions lliures realitzades per humans.

BLEU es calcula normalment a nivell de frases i troba la precisió en n-grames entre la traducció del sistema i la referència. Nogensmenys, s'utilitza una precisió modificada a fi de solucionar certes deficiències en la mesura.

Definició matemàtica

modifica

Precisió modificada

modifica

La precisió de n-grames entre dues frases és:

 

Tanmateix, la precisió sola no és una mesura adequada per a calcular la semblança entre dues frases, com es pot veure a continuació:

Exemple de mala traducció amb una alta precisió
Candidata the the the the the the
Referència The cat is on the table

En aquest cas tindríem una precisió de  . Per això s'ha de tenir en compte el nombre màxim d'ocurrències d'un n-grama en la frase de referència, sent aquest el límit a l'hora de comptabilitzar les aparicions en la frase candidata. Amb això en compte la precisió modificada seria de  .

Penalització per brevetat

modifica

Si les frases a comparar tenen una llargada molt diferent, no podem afirmar que siguin semblants. Si la frase candidata és més llarga que la referència, aquest aspecte es veu reflectit en la fórmula de precisió modificada. Hi haurà molts n-grames en la frase candidata que no apareixeran en la frase de referència per la qual cosa la precisió serà més petita. Això no ocorre quan la frase de referència és molt més curta, tal com es pot observar en el següent exemple:

Exemple de mala traducció amb alta precisió
Candidata the the
Referència The cat is on the table


La precisió modificada seria de   i no reflectiria la semblança entre les dues frases. Per això s'introdueix un penalitzador per brevetat de les frases candidates.

 

on   és la llargada de la frase candidate i   la llargada de la frase de referència

Càlcul definitiu de BLEU

modifica

Per al càlcul de BLEU s'utilitza la mitjana geomètrica per als N n-grames que s'hagin d'emprar. Cada n-grama tindrà un pes   tal que  .

La tria més habitual i la recomanada a l'article original és  .

Rendiment

modifica

Sovint s'ha reportat que BLEU correlaciona bé amb les avaluacions humanes,[1][2][3] i roman un punt de referència per a qualsevol nova mètrica d'avaluació. Hi ha però unes quantes crítiques que s'hi han expressat. S'ha constatat que malgrat que en principi sigui capaç d'avaluar traduccions de qualsevol llengua, BLEU no pot tractar amb llengües sense límits de paraules en la seva forma present.[4]

S'ha argumentat que encara que BLEU tingui avantatges significatius, no hi ha cap garantia que un increment de BLEU indiqui una millora en la qualitat de la traducció.[5]

  1. ^ Papineni, K., et al. (2002)
  2. ^ Coughlin, D. (2003)
  3. ^ Doddington, G. (2002)
  4. ^ Denoual, E. and Lepage, Y. (2005)
  5. ^ Callison-Burch, C., Osborne, M. and Koehn, P. (2006)

Referències

modifica

Vegeu també

modifica