Google Ngram Viewer

El Google Ngram Viewer o Google Books Ngram Viewer és un motor de cerca en línia que representa les freqüències de qualsevol conjunt de cadenes de cerca utilitzant un recompte anual de n -grams que es troben en fonts impreses publicades entre 1500 i 2019 als corpus de text de Google en anglès, xinès (simplificat), alemany, hebreu, italià, rus o espanyol. També hi ha alguns corpus especialitzats en anglès, com l'anglès americà, l'anglès britànic i la ficció anglesa.^[1]

El programa pot cercar una paraula o una frase, incloses les faltes d'ortografia o un galimaties. Els n -grams coincideixen amb el text dins del corpus seleccionat, opcionalment utilitzant l'ortografia sensible a majúscules (que compara l'ús exacte de les lletres majúscules), i, si es troben en 40 llibres o més, es mostren com a gràfic. . El Google Ngram Viewer admet cerques de parts de parla i comodins .^[1] S'utilitza habitualment en recerca.^[2]^[3]

Història

El programa va ser desenvolupat per Jon Orwant i Will Brockman i va ser llançat a mitjans de desembre de 2010. Es va inspirar en un prototip anomenat Bookworm creat per Jean-Baptiste Michel i Erez Aiden de l'Observatori Cultural de Harvard, Yuan Shen del MIT i Steven Pinker.^[4]

L'Ngram Viewer es va basar inicialment en l'edició de 2009 del Google Books Ngram Corpus. A Juliol 2020^[update] , el programa admet corpus de 2009, 2012 i 2019.

Funcionament i restriccions

Les comes delimiten els termes de cerca introduïts per l'usuari, indicant cada paraula o frase separada a trobar. L'Ngram Viewer retorna un gràfic de línies gràfics.

Com a ajustament per haver publicat més llibres durant alguns anys, les dades es normalitzen, a nivell relatiu, pel nombre de llibres publicats en cada any.

A causa de les limitacions de la mida de la base de dades Ngram, només les coincidències que es troben en almenys 40 llibres s'indexen a la base de dades.

Corpora

Els corpora utilitzats pel cercador estan compostos per total_counts, 1-grams, 2-grams, 3-grams, 4-grams, i 5-grams arxius per a cada idioma. El format de cada fitxer té el format tab-separated data. Cada línia té el següent format ^[5]

total_counts file
year TAB match_count TAB page_count TAB volume_count NEWLINE
Versió 1 ngram file (generated in July 2009)
ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE
Versió 2 ngram file (generated in July 2012)
ngram TAB year TAB match_count TAB volume_count NEWLINE

El Google Ngram Viewer utilitza match_count per produir el gràfic.

Per exemple, la paraula "Wikipedia" del fitxer versió 2 de N-gram en anglès està arxivada com: ^[6]

ngram	any	match_count	volume_count
Wikipedia	1904	1	1
Wikipedia	1912	11	1
Wikipedia	1924	1	1
Wikipedia	1925	11	1
Wikipedia	1929	11	1
Wikipedia	1943	11	1
Wikipedia	1946	11	1
Wikipedia	1947	11	1
Wikipedia	1949	11	1
Wikipedia	1951	11	1
Wikipedia	1953	22	2
Wikipedia	1955	11	1
Wikipedia	1958	1	1
Wikipedia	1961	22	2
Wikipedia	1964	22	2
Wikipedia	1965	11	1
Wikipedia	1966	15	2
Wikipedia	1969	33	3
Wikipedia	1970	129	4
Wikipedia	1971	44	4
Wikipedia	1972	22	2
Wikipedia	1973	1	1
Wikipedia	1974	2	1
Wikipedia	1975	33	3
Wikipedia	1976	11	1
Wikipedia	1977	13	3
Wikipedia	1978	11	1
Wikipedia	1979	112	12
Wikipedia	1980	13	4
Wikipedia	1982	11	1
Wikipedia	1983	3	2
Wikipedia	1984	48	3
Wikipedia	1985	37	3
Wikipedia	1986	6	4
Wikipedia	1987	13	2
Wikipedia	1988	14	3
Wikipedia	1990	12	2
Wikipedia	1991	8	5
Wikipedia	1992	1	1
Wikipedia	1993	1	1
Wikipedia	1994	23	3
Wikipedia	1995	4	1
Wikipedia	1996	23	3
Wikipedia	1997	6	1
Wikipedia	1998	32	10
Wikipedia	1999	39	11
Wikipedia	2000	43	12
Wikipedia	2001	59	14
Wikipedia	2002	105	19
Wikipedia	2003	149	53
Wikipedia	2004	803	285
Wikipedia	2005	2964	911
Wikipedia	2006	9818	2655
Wikipedia	2007	20017	5400
Wikipedia	2008	33722	6825

El gràfic de Google Ngram Viewer basat en les dades presentades a dalt es troba aquí .

Limitacions

El conjunt de dades ha estat criticat per la seva confiança en l'OCR inexacte, una sobreabundància de literatura científica i per incloure un gran nombre de textos amb data i categorització incorrecta.^[7]^[8] A causa d'aquests errors, i perquè no es controla el biaix ^[9] (com ara la creixent quantitat de literatura científica, que fa que altres termes apareguin disminuir en popularitat), és arriscat utilitzar aquest corpus per estudiar el llenguatge o provar teories. . Com que el conjunt de dades no inclou metadades, pot ser que no reflecteixi un canvi lingüístic o cultural general ^[10] i només pot indicar aquest efecte.

S'han proposat directrius per fer recerca amb dades de Google Ngram que aborden molts dels problemes comentats anteriorment.^[11]

Problemes d'OCR

El reconeixement òptic de caràcters, o OCR, no sempre és fiable i és possible que alguns caràcters no s'escanegin correctament. En particular, errors sistèmics com la confusió de s i f en textos anteriors al segle XIX (a causa de l'ús de la s llarga, que era semblant en aparença a f ) poden causar biaix sistèmic. Tot i que Google Ngram Viewer afirma que els resultats són fiables a partir de 1800, un OCR deficient i les dades insuficients fan que les freqüències donades per a idiomes com el xinès només siguin precises a partir de 1970, i les parts anteriors del corpus no mostren cap resultat per a termes comuns., i dades d'alguns anys que contenen més del 50% de soroll.^[12]^[13]

Referències

↑ ^1,0 ^1,1 «Google Books Ngram Viewer info page».
↑ Greenfield, Patricia M. (en anglès) Psychological Science, 24, 9, setembre 2013, pàg. 1722–1731. DOI: 10.1177/0956797613479387. ISSN: 0956-7976. PMID: 23925305.
↑ Younes, Nadja; Reips, Ulf-Dietrich (en anglès) International Journal of Psychology, 53, octubre 2018, pàg. 53–62. DOI: 10.1002/ijop.12428. PMID: 28474338.
↑ The RSA. «Steven Pinker – The Stuff of Thought: Language as a window into human nature», 04-02-2010.
↑ «Google Books Ngram Viewer». Google.
↑ googlebooks-eng-all-1gram-20120701-w.gz at http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
↑ Google Ngrams: OCR and Metadata Arxivat 2016-04-27 a Wayback Machine.. ResourceShelf, 19 December 2010
↑ Nunberg, Geoff. «Humanities research with the Google Books corpus», 16-12-2010. Arxivat de l'original el 10 març 2016.
↑ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain PLOS ONE, 10, 10, 07-10-2015, pàg. e0137041. arXiv: 1501.00960. Bibcode: 2015PLoSO..1037041P. DOI: 10.1371/journal.pone.0137041. PMC: 4596490. PMID: 26445406 [Consulta: free].
↑ Koplenig, Alexander 2017-04-01, 32, 1, 02-09-2015, pàg. 169–188. DOI: 10.1093/llc/fqv037. ISSN: 2055-7671.
↑ Younes, Nadja; Reips, Ulf-Dietrich (en anglès) PLOS ONE, 14, 3, 22-03-2019, pàg. e0213554. Bibcode: 2019PLoSO..1413554Y. DOI: 10.1371/journal.pone.0213554. ISSN: 1932-6203. PMC: 6430395. PMID: 30901329 [Consulta: free].
↑ Google n-grams and pre-modern Chinese. digitalsinology.org.
↑ When n-grams go bad. digitalsinology.org.

Bibliografia

Lin, Yuri; Michel, Jean-Baptiste; Aiden, Erez Lieberman; Orwant, Jon; Brockman, Will; 1 (PDF) Proceedings of the 50th Annual Meeting [Jeju, Republic of Korea], 2, juliol 2012, pàg. 169–174. 2390499. «Whitepaper presenting the 2012 edition of the Google Books Ngram Corpus»

Enllaços externs

Google Ngram Viewer - Lloc web oficial

[Google_Books_Ngram_Viewer-1] 1,0 ^1,1 «Google Books Ngram Viewer info page».

[2] Greenfield, Patricia M. (en anglès) Psychological Science, 24, 9, setembre 2013, pàg. 1722–1731. DOI: 10.1177/0956797613479387. ISSN: 0956-7976. PMID: 23925305.

[3] Younes, Nadja; Reips, Ulf-Dietrich (en anglès) International Journal of Psychology, 53, octubre 2018, pàg. 53–62. DOI: 10.1002/ijop.12428. PMID: 28474338.

[4] The RSA. «Steven Pinker – The Stuff of Thought: Language as a window into human nature», 04-02-2010.

[5] «Google Books Ngram Viewer». Google.

[6] s-eng-all-1gram-20120701-w.gz at http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

[7] Google Ngrams: OCR and Metadata Arxivat 2016-04-27 a Wayback Machine.. ResourceShelf, 19 December 2010

[8] Nunberg, Geoff. «Humanities research with the Google Books corpus», 16-12-2010. Arxivat de l'original el 10 març 2016.

[:0-9] Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain PLOS ONE, 10, 10, 07-10-2015, pàg. e0137041. arXiv: 1501.00960. Bibcode: 2015PLoSO..1037041P. DOI: 10.1371/journal.pone.0137041. PMC: 4596490. PMID: 26445406 [Consulta: free].

[10] Koplenig, Alexander 2017-04-01, 32, 1, 02-09-2015, pàg. 169–188. DOI: 10.1093/llc/fqv037. ISSN: 2055-7671.

[11] Younes, Nadja; Reips, Ulf-Dietrich (en anglès) PLOS ONE, 14, 3, 22-03-2019, pàg. e0213554. Bibcode: 2019PLoSO..1413554Y. DOI: 10.1371/journal.pone.0213554. ISSN: 1932-6203. PMC: 6430395. PMID: 30901329 [Consulta: free].

[12] Google n-grams and pre-modern Chinese. digitalsinology.org.

[13] When n-grams go bad. digitalsinology.org.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]