WARC (format de fitxer)

mètode per combinar diversos recursos digitals en un fitxer d'arxiu agregat juntament amb informació relacionada
No s'ha de confondre amb ARC (file format).

El format d'arxiu WARC (Web Archive) especifica un mètode per combinar diversos recursos digitals en un fitxer d'arxiu agregat juntament amb informació relacionada. El format WARC és una revisió del format de fitxer ARC_IA d'⁣Internet Archive que s'ha utilitzat tradicionalment per emmagatzemar "exploracions web" com a seqüències de blocs de contingut recollits de la World Wide Web. El format WARC pretén generalitzar un format per donar suport millor a les necessitats de recollida, accés i intercanvi de les organitzacions d'arxiu. A més del contingut principal registrat en el moment, la revisió inclou contingut secundari relacionat, com ara metadades assignades, esdeveniments de detecció duplicats abreujats (vegeu §7.6 "revisita") i transformacions posteriors. El format WARC s'inspira en fluxos HTTP/1.0, amb una capçalera similar i l'ús de CRLF com a delimitadors, el que el fa molt propici per a les implementacions de rastrejadors.[1][2][3][4][5] [6][7][8]

Infotaula de format de fitxerWARC (format de fitxer)
Tipusweb archive file format (en) Tradueix, format de fitxer i format de contenidor digital Modifica el valor a Wikidata
Extensiówarc Modifica el valor a Wikidata
MIMEapplication/warc Modifica el valor a Wikidata
EstàndardWARC Format 1.1 specification (en) Tradueix i WARC Format 1.0 specification (en) Tradueix Modifica el valor a Wikidata
Més informació
Wiki del format de fitxerWARC Modifica el valor a Wikidata
LocFDDfdd000236 Modifica el valor a Wikidata
PRONOMfmt/289, fmt/1355 i fmt/1281 Modifica el valor a Wikidata

Especificat per primera vegada el 2008, WARC és ara reconegut per la majoria dels sistemes de biblioteques nacionals com l'estàndard a seguir per a l'arxiu de pàgines web.

Programari

modifica
  • Arxivador web Heritrix amb Java
  • GNU Wget (des de la versió 1.14)
  • Conifer, abans Webrecorder
  • StormCrawler
  • Nutch
  • libarchive

Referències

modifica
  1. Allegrezza, Stefano «Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving». Digitalia, vol. 2015, 21-04-2016, pàg. 49–61.
  2. «ARC_IA, Internet Archive ARC file format». www.digitalpreservation.gov, 14-02-2008. [Consulta: 9 maig 2015].
  3. Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael «The WARC File Format». , 05-07-2008 [Consulta: 29 abril 2021].
  4. «WARC, Web ARChive file format». www.digitalpreservation.gov, 31-08-2009. [Consulta: 9 maig 2015].
  5. Scrivano, Giuseppe. «GNU wget 1.14 released». GNU wget 1.14 released. Free Software Foundation, Inc., August 6, 2012. [Consulta: February 25, 2016].
  6. «application/warc». [Consulta: 17 març 2018].
  7. «Information and documentation -- WARC file format». [Consulta: 16 març 2018].
  8. «Introduction». SourceForge. [Consulta: 5 març 2015].

Enllaços externs

modifica