Bitextor és una aplicació lliure de codi obert que té com a objectiu la generació de memòries de traducció a partir de llocs web multilingües, que són utilitzats com a corpus base. Bitextor ha estat publicat sota llicència GNU GPL v2.

Bitextor

Tipusprogramari Modifica el valor a Wikidata
Més informació
Lloc webbitextor.readthedocs.io (anglès) Modifica el valor a Wikidata
SourceForgebitextor Modifica el valor a Wikidata

GitHub: bitextor/bitextor

L'aplicació descarrega tots els fitxers HTML del lloc web indicat per l'usuari. Aleshores, realitza un preprocessament per a convertir-los a un format coherent i adequat per a les següents etapes. Seguidament, s'hi aplica un conjunt d'heurístiques (principalment basades en l'estructura d'etiquetes HTML i la longitud de les cadenes de text) per a fer parelles de fitxers que seran considerats com a candidats a contenir el mateix text en diferents idiomes. A partir d'aquests candidats, es generen les memòries de traducció en format TMX mitjançant la llibreria LibTagAligner, que utilitza les etiquetes HTML i la longitud dels blocs de text (també) per a realitzar l'alineament.

L'objectiu d'aquesta eina és el de facilitar l'obtenció de corpus multilingüe a partir d'Internet. Bitextor va ser desenvolupat, en un principi, per a facilitar el procés d'entrenament d'aplicacions de traducció automàtica i, concretament, la de la plataforma Apertium.

Vegeu també modifica

Enllaços externs modifica