Corpus lingüístic

Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades.[1] En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua».[2]

Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a l'estudi d'una llengua. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions d'ocurrències de mots. Els corpus de referència contenen un gran volum de dades lingüístiques que permeten obtenir dades representatives per analitzar qualsevol aspecte d'una llengua.

En català, destaca el Corpus Textual Informatitzat de la Llengua Catalana (CTILC) desenvolupat per l'Institut d'Estudis Catalans, amb més de 52 milions de mots i consultable en línia des del 2005. Es tracta d'un corpus diacrònic (les mostres són textos escrits entre 1833 i 1988) a partir del qual s'està desenvolupant el Diccionari Descriptiu de la Llengua Catalana.[1] Per a l'anglès Cobuild n'és un altre exemple.[3]

La subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres es diu «lingüística de corpus». Aquest tipus d'aproximació xoca amb l'enfocament generativista chomskià que tendeix a estudiar la llengua en partir de la premissa que els humans tenen un coneixement innat de la llengua, la gramàtica universal, i que el repertori d'aquests coneixements és infinit. Chomsky proposa prendre com a mostra un parlant ideal amb competència lingüística en la llengua objecte d'estudi.

Aquesta subdisciplina, donat el volum de dades que utilitza, normalment s'associa amb la lingüística computacional, segons aquesta última s'apropa a les aplicacions de Processament de llenguatge natural.

Aquesta disciplina es va iniciar el 1967 quan Henry Kucera i Nelson Francis van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió d'ocurrències de paraules, seleccionades d'una àmplia varietat de fonts.

Aplicacions del corpus lingüístic modifica

La utilització del corpus lingüístic des d'un punt de vista de processament informàtic, permet crear diferents productes lingüístics, com ara l'elaboració de gramàtiques o de diccionaris de tots tipus: explicatius, etimològics o històrics.

Però no sols serveix per a l'elaboració de diccionaris o gramàtiques, sinó que també té gran utilitat a l'hora de fer estudis dialectològics. Altres usos de corpus lingüístic es relacionen amb les anàlisis de textos o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.[4]

Referències modifica

  1. 1,0 1,1 «Corpus lingüístic». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
  2. «corpus.2». Gran Diccionari de la Llengua Catalana. Barcelona: Grup Enciclopèdia Catalana.
  3. Joaquim Rafel i Fontanals, Joan Soler i Bou, El processament del corpus I: la lingüística empírica. Universitat Oberta de Catalunya, Barcelona, 2010
  4. Martí Antonin, María Antonia; Alonso Martín, Juan Alberto. Les tecnologies del llenguatge. Editorial UOC, 2001. ISBN 9788484292661 [Consulta: 8 desembre 2010]. 

Vegeu també modifica

Enllaços externs modifica