Corpus de Canterbury

referència per a provar compressors de dades

El Corpus de Canterbury és una col·lecció de fitxers pensada per fer servir com a Benchmark per provar algoritmes de compressió sense pèrdua. Es va crear l'any 1997 a l'Universitat de Canterbury per reemplaçar el corpus de Calgary. Els fitxers van ser seleccionats basant-se en la seva capacitat de proporcionar resultats de rendiment representatius.[1]

Infotaula de format de fitxerCorpus de Canterbury
Tipuscorpus de compressió de dades Modifica el valor a Wikidata
Versió inicial1997 Modifica el valor a Wikidata
Més informació
Lloc webcorpus.canterbury.ac.nz Modifica el valor a Wikidata

Continguts modifica

En la seva forma més utilitzada, el corpus consisteix en 11 fitxers, seleccionats de diferentes classes de documents,[2] ocupant un total de 2.810.784 bytes.

Mida (bytes) Nom de l'arxiu Descripció
152.089 alice29.txt Text en anglès
125.179 asyoulik .txt Shakespeare
24.603 cp.html Codi Font HTML
11.150 fields.c Codi Font C
3.721 grammar.lsp Codi Font LISP
1.029.744 kennedy.xls Full de càlcul Excel
426.754 lcet10.txt Redacció tècnica
481.861 plrabn12.txt Poesia ( El paradís perdut )
513.216 ptt5 Conjunt de proves del CCITT
38.240 suma Executable SPARC
4.227 xargs.1 Pàgina de manual de GNU

La Universitat de Canterbury també ofereix els següents corpus. És possible que s'afegeixin fitxers addicionals, per tant els resultats han de ser reportats per cada fitxer individual.[3]

  • El Corpus Artifical, un conjunt de fitxers amb dades "artificials" dissenyat per provocar comportaments patològics o escenaris del pitjor cas.
  • El Corpus Gran, un conjunt de fitxers grans (mida megabyte). Conté un genoma de E. coli, una còpia de la Bíblia del rei Jaume, i el llibre de CIA World Factbook
  • El Corpus Miscel·lani. Conté un milió de dígits de pi

Referències modifica

  1. Ian H. Witten. Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann, 1999, p. 92. ISBN 9781558605701. 
  2. Salomon, David. Data Compression: The Complete Reference. Fourth. Springer, 2007, p. 12. ISBN 9781846286032. 
  3. «The Canterbury Corpus: Descriptions». corpus.canterbury.ac.nz.

Vegeu també modifica