Usuari:Leptictidium/Sistema de traducció

El sistema de traducció EVA és un sistema desenvolupat per Leptictidium per facilitar la traducció d'articles de la Viquipèdia al català. Actualment pot traduir de quatre llengües diferents: el castellà (funcionalitat avançada), el francès, l'italià, el portuguès (funcionalitat bàsica) i l'anglès (funcionalitat gairebé nul·la, en fase de desenvolupament).

Com es va crear?

La columna vertebral del sistema es va crear mitjançant el MemoQ, un programa de traducció assistida per ordinador. El MemoQ és programari de propietat, però la base de dades és obra meva i en conservo els drets d'autor, de la mateixa manera que tindria els drets d'autor d'una novel·la escrita amb el MS Word o d'un dibuix fet amb l'MS Paint. En cas que vulgueu aprofitar el sistema per crear un bot traductor, demaneu-me que us enviï la base de dades en format CSV.

Quins avantatges té?

El gran avantatge d'aquest sistema sobre coses com el Google Translate o el traductor de textos de la Generalitat de Catalunya és que s'actualitza a una freqüència molt elevada: cada vegada que se li mana traduir un text. Així doncs, quan un revisor humà detecta un error de traducció, es corregeix immediatament i ja no torna a cometre el mateix error mai més.

Com funciona?

Bàsicament, es tracta d'una taula d'equivalències castellà-català molt extensa. Així doncs, per exemple:

  • hace → «fa»
  • mucho → «molt»
  • frío → «fred»

Evidentment, una simple substitució paraula per paraula podria ser problemàtica en alguns casos. Exemple A:

  • hace → «fa»
  • mucho → «molt»
  • calor → «calor»
  • hace mucho calor → «fa molt calor» (frase incorrecta en català)

És per això que el sistema també fa servir cadenes de text més llargues. Exemple B:

  • hace → «fa»
  • mucho calor → «molta calor» (cadena de text de dues paraules)
  • hace mucho calor → «fa molta calor» (frase correcta en català)

També es pot fer amb cadenes de text de tres o més paraules. Exemple C:

  • su pequeño tamaño → «la seva petita mida»

en lloc d'una substitució paraula per paraula, que donaria:

  • su → «el seu»
  • pequeño → «petit»
  • tamaño → «mida»
  • su pequeño tamaño → «el seu petit mida» (frase incorrecta en català)

La regla d'or és que, quan sigui possible elegir entre dues cadenes de text o més, el sistema sempre escull la més llarga (ja que és la que copsa millor el context).

Ja ha fet traduccions?

Sí. porto des del 2009 utilitzant el sistema per traduir articles, cada vegada amb menys necessitat de corregir errors. El 2012, l'article «Canvi fonètic «f → h» del castellà», traduït pel sistema, va aconseguir la distinció d'article bo després d'una avaluació per part d'Arnaugir i Barcelona.

Per a un exemple més recent, vegeu l'article «QDOS».

Què queda per fer?

El sistema té moltes dificultats a l'hora d'interpretar la viquisintaxi. De fet, el 95% de les correccions que queden per fer avui en dia consisteixen a arreglar claudàtors sense tancar, una barra vertical eliminada que destrossa tota una plantilla… Trobar una solució automàtica a aquest problema és una de les màximes prioritats.

Un altre gran pas endavant seria trobar una manera d'adaptar les plantilles que fan servir a altres viquipèdies. No n'hi ha prou amb traduir-ne el nom i els paràmetres, ja que sovint tenen noms completament diferents. Potser podríem demanar a Arnaugir que comparteixi els coneixements adquirits amb l'ArnauBot, que catalanitza plantilles de referències…

L'última cosa important seria afegir una funcionalitat que mirés les categories que té l'article original, busqués les categories equivalents de la Viquipèdia en català i les posés a l'article traduït. Tanmateix, això ja queda molt per sobre dels meus escassos coneixements de programació.

Alguna pregunta més?

Si teniu algun dubte, desitgeu ajudar a arreglar els problemes que queden o simplement voleu saber-ne més, deixeu un missatge a la pàgina de discussió de Leptictidium.