Google Ngram Viewer

El Google Ngram Viewer o Google Books Ngram Viewer és un motor de cerca en línia que representa les freqüències de qualsevol conjunt de cadenes de cerca utilitzant un recompte anual de n -grams que es troben en fonts impreses publicades entre 1500 i 2019 als corpus de text de Google en anglès, xinès (simplificat), alemany, hebreu, italià, rus o espanyol. També hi ha alguns corpus especialitzats en anglès, com l'anglès americà, l'anglès britànic i la ficció anglesa.[1]

Exemple de consulta Ngram

El programa pot cercar una paraula o una frase, incloses les faltes d'ortografia o un galimaties. Els n -grams coincideixen amb el text dins del corpus seleccionat, opcionalment utilitzant l'ortografia sensible a majúscules (que compara l'ús exacte de les lletres majúscules), i, si es troben en 40 llibres o més, es mostren com a gràfic. . El Google Ngram Viewer admet cerques de parts de parla i comodins .[1] S'utilitza habitualment en recerca.[2][3]

Història modifica

El programa va ser desenvolupat per Jon Orwant i Will Brockman i va ser llançat a mitjans de desembre de 2010. Es va inspirar en un prototip anomenat Bookworm creat per Jean-Baptiste Michel i Erez Aiden de l'Observatori Cultural de Harvard, Yuan Shen del MIT i Steven Pinker.[4]

L'Ngram Viewer es va basar inicialment en l'edició de 2009 del Google Books Ngram Corpus. A Juliol 2020 , el programa admet corpus de 2009, 2012 i 2019.

Funcionament i restriccions modifica

Les comes delimiten els termes de cerca introduïts per l'usuari, indicant cada paraula o frase separada a trobar. L'Ngram Viewer retorna un gràfic de línies gràfics.

Com a ajustament per haver publicat més llibres durant alguns anys, les dades es normalitzen, a nivell relatiu, pel nombre de llibres publicats en cada any.

A causa de les limitacions de la mida de la base de dades Ngram, només les coincidències que es troben en almenys 40 llibres s'indexen a la base de dades.

Corpora modifica

Els corpora utilitzats pel cercador estan compostos per total_counts, 1-grams, 2-grams, 3-grams, 4-grams, i 5-grams arxius per a cada idioma. El format de cada fitxer té el format tab-separated data. Cada línia té el següent format [5]

  • total_counts file
    year TAB match_count TAB page_count TAB volume_count NEWLINE
  • Versió 1 ngram file (generated in July 2009)
    ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE
  • Versió 2 ngram file (generated in July 2012)
    ngram TAB year TAB match_count TAB volume_count NEWLINE

El Google Ngram Viewer utilitza match_count per produir el gràfic.

Per exemple, la paraula "Wikipedia" del fitxer versió 2 de N-gram en anglès està arxivada com: [6]

ngram any match_count volume_count
Wikipedia 1904 1 1
Wikipedia 1912 11 1
Wikipedia 1924 1 1
Wikipedia 1925 11 1
Wikipedia 1929 11 1
Wikipedia 1943 11 1
Wikipedia 1946 11 1
Wikipedia 1947 11 1
Wikipedia 1949 11 1
Wikipedia 1951 11 1
Wikipedia 1953 22 2
Wikipedia 1955 11 1
Wikipedia 1958 1 1
Wikipedia 1961 22 2
Wikipedia 1964 22 2
Wikipedia 1965 11 1
Wikipedia 1966 15 2
Wikipedia 1969 33 3
Wikipedia 1970 129 4
Wikipedia 1971 44 4
Wikipedia 1972 22 2
Wikipedia 1973 1 1
Wikipedia 1974 2 1
Wikipedia 1975 33 3
Wikipedia 1976 11 1
Wikipedia 1977 13 3
Wikipedia 1978 11 1
Wikipedia 1979 112 12
Wikipedia 1980 13 4
Wikipedia 1982 11 1
Wikipedia 1983 3 2
Wikipedia 1984 48 3
Wikipedia 1985 37 3
Wikipedia 1986 6 4
Wikipedia 1987 13 2
Wikipedia 1988 14 3
Wikipedia 1990 12 2
Wikipedia 1991 8 5
Wikipedia 1992 1 1
Wikipedia 1993 1 1
Wikipedia 1994 23 3
Wikipedia 1995 4 1
Wikipedia 1996 23 3
Wikipedia 1997 6 1
Wikipedia 1998 32 10
Wikipedia 1999 39 11
Wikipedia 2000 43 12
Wikipedia 2001 59 14
Wikipedia 2002 105 19
Wikipedia 2003 149 53
Wikipedia 2004 803 285
Wikipedia 2005 2964 911
Wikipedia 2006 9818 2655
Wikipedia 2007 20017 5400
Wikipedia 2008 33722 6825


El gràfic de Google Ngram Viewer basat en les dades presentades a dalt es troba aquí .

Limitacions modifica

El conjunt de dades ha estat criticat per la seva confiança en l'OCR inexacte, una sobreabundància de literatura científica i per incloure un gran nombre de textos amb data i categorització incorrecta.[7][8] A causa d'aquests errors, i perquè no es controla el biaix [9] (com ara la creixent quantitat de literatura científica, que fa que altres termes apareguin disminuir en popularitat), és arriscat utilitzar aquest corpus per estudiar el llenguatge o provar teories. . Com que el conjunt de dades no inclou metadades, pot ser que no reflecteixi un canvi lingüístic o cultural general [10] i només pot indicar aquest efecte.

S'han proposat directrius per fer recerca amb dades de Google Ngram que aborden molts dels problemes comentats anteriorment.[11]

Problemes d'OCR modifica

El reconeixement òptic de caràcters, o OCR, no sempre és fiable i és possible que alguns caràcters no s'escanegin correctament. En particular, errors sistèmics com la confusió de s i f en textos anteriors al segle XIX (a causa de l'ús de la s llarga, que era semblant en aparença a f ) poden causar biaix sistèmic. Tot i que Google Ngram Viewer afirma que els resultats són fiables a partir de 1800, un OCR deficient i les dades insuficients fan que les freqüències donades per a idiomes com el xinès només siguin precises a partir de 1970, i les parts anteriors del corpus no mostren cap resultat per a termes comuns., i dades d'alguns anys que contenen més del 50% de soroll.[12][13]

Referències modifica

  1. 1,0 1,1 «Google Books Ngram Viewer info page».
  2. Greenfield, Patricia M. (en anglès) Psychological Science, 24, 9, setembre 2013, pàg. 1722–1731. DOI: 10.1177/0956797613479387. ISSN: 0956-7976. PMID: 23925305.
  3. Younes, Nadja; Reips, Ulf-Dietrich (en anglès) International Journal of Psychology, 53, octubre 2018, pàg. 53–62. DOI: 10.1002/ijop.12428. PMID: 28474338.
  4. The RSA. «Steven Pinker – The Stuff of Thought: Language as a window into human nature», 04-02-2010.
  5. «Google Books Ngram Viewer». Google.
  6. googlebooks-eng-all-1gram-20120701-w.gz at http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
  7. Google Ngrams: OCR and Metadata Arxivat 2016-04-27 a Wayback Machine.. ResourceShelf, 19 December 2010
  8. Nunberg, Geoff. «Humanities research with the Google Books corpus», 16-12-2010. Arxivat de l'original el 10 març 2016.
  9. Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain PLOS ONE, 10, 10, 07-10-2015, pàg. e0137041. arXiv: 1501.00960. Bibcode: 2015PLoSO..1037041P. DOI: 10.1371/journal.pone.0137041. PMC: 4596490. PMID: 26445406 [Consulta: free].
  10. Koplenig, Alexander 2017-04-01, 32, 1, 02-09-2015, pàg. 169–188. DOI: 10.1093/llc/fqv037. ISSN: 2055-7671.
  11. Younes, Nadja; Reips, Ulf-Dietrich (en anglès) PLOS ONE, 14, 3, 22-03-2019, pàg. e0213554. Bibcode: 2019PLoSO..1413554Y. DOI: 10.1371/journal.pone.0213554. ISSN: 1932-6203. PMC: 6430395. PMID: 30901329 [Consulta: free].
  12. Google n-grams and pre-modern Chinese. digitalsinology.org.
  13. When n-grams go bad. digitalsinology.org.

Bibliografia modifica

  • Lin, Yuri; Michel, Jean-Baptiste; Aiden, Erez Lieberman; Orwant, Jon; Brockman, Will; 1 (PDF) Proceedings of the 50th Annual Meeting [Jeju, Republic of Korea], 2, juliol 2012, pàg. 169–174. 2390499. «Whitepaper presenting the 2012 edition of the Google Books Ngram Corpus»

Enllaços externs modifica