Transformadors generatius pre-entrenats

són una família de models de llenguatge generalment entrenats en un gran corpus de dades de text per generar text semblant a l'ésser humà.

Els transformadors generatius pre-entrenats (amb acrònim anglès GPT) són una família de models de llenguatge generalment entrenats en un gran corpus de dades de text per generar text semblant a l'ésser humà. Es construeixen utilitzant diversos blocs de l'arquitectura del transformador. Es poden ajustar per a diverses tasques de processament del llenguatge natural, com ara la generació de text, la traducció d'idiomes i la classificació de text. El "pre-entrenament" en el seu nom es refereix al procés d'entrenament inicial en un corpus de text gran on el model aprèn a predir la paraula següent en un passatge, la qual cosa proporciona una base sòlida perquè el model funcioni bé en tasques posteriors amb quantitats limitades de dades específiques de la tasca.

GPT

TipusAPI
Característiques tècniques
PlataformaMultiplataforma
Equip
Desenvolupador(s)OpenAI
Més informació
Lloc webwww.openai.com

El model GPT original.

L'11 de juny de 2018, OpenAI va publicar un article titulat "Millora de la comprensió del llenguatge mitjançant la formació prèvia generativa", en què van introduir el transformador generatiu prèviament entrenat (GPT).[1] En aquest punt, els models de PNL neuronals de millor rendiment van emprar principalment l'aprenentatge supervisat a partir de grans quantitats de dades etiquetades manualment. Aquesta dependència de l'aprenentatge supervisat va limitar-ne l'ús en conjunts de dades que no estaven ben anotats, a més de fer que entrenar models extremadament grans resultava prohibitiu i requereix molt de temps; [1] [2] moltes llengües (com ara el suahili o el crioll haitià) són difícils de traduir i interpretar utilitzant aquests models a causa de la manca de text disponible per a la construcció de corpus.[2] En canvi, l'enfocament "semisupervisat" de GPT va incloure dues etapes: una etapa generativa no supervisada "pre-entrenament" en la qual es va utilitzar un objectiu de modelització lingüística per establir paràmetres inicials, i una etapa discriminativa supervisada "d'ajustament" en què aquests paràmetres s'han adaptat a una tasca objectiu.[1]

Usos modifica

Versions modifica

Arquitectura Recompte de paràmetres Dades d'entrenament
GPT-1 Descodificador de transformador de 12 nivells i 12 capçals (sense codificador), seguit de lineal-softmax. 0.120 milions BookCorpus : [8] 4,5 GB de text, a partir de 7000 llibres inèdits de diversos gèneres.
GPT-2 GPT-1, però amb normalització modificada 1.500 milions WebText: 40 GB de text, 8 milions de documents, de 45 milions de pàgines web votades a Reddit.
GPT-3 GPT-2, però amb modificacions per permetre una escala més gran. 175 mil milions 570 GB de text sense format, 0,4 bilions de fitxes. Principalment CommonCrawl, WebText, Viquipèdia en anglès i dos corpus de llibres (Llibres1 i Llibres2).
GPT-4 Gran model de llenguatge multimodal, admet text i imatge. 100 bilions ?

Referències modifica

  1. 1,0 1,1 1,2 Radford, Alec. «Improving Language Understanding by Generative Pre-Training» (en anglès) p. 12. OpenAI, 11-06-2018. Arxivat de l'original el 26 gener 2021. [Consulta: 23 gener 2021].
  2. 2,0 2,1 Tsvetkov, Yulia. «Opportunities and Challenges in Working with Low-Resource Languages» (en anglès). Carnegie Mellon University, 22-06-2017. Arxivat de l'original el 31 març 2020. [Consulta: 23 gener 2021].
  3. Roose, Kevin. «The Brilliance and Weirdness of ChatGPT» (en anglès). The New York Times, 05-12-2022. Arxivat de l'original el 18 gener 2023. [Consulta: 26 desembre 2022].
  4. Quinn, Joanne. Dive into deep learning: tools for engagement (en anglès), 2020, p. 551. ISBN 9781544361376. 
  5. Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; etal Brief Bioinform, 23, 6, 2022. DOI: 10.1093/bib/bbac409. PMID: 36156661.
  6. Matthias Bastian. «BioGPT is a Microsoft language model trained for biomedical tasks» (en anglès). The Decoder, 29-01-2023.
  7. Ferruz, N., Schmidt, S. & Höcker, B.; etal Nature Communications Volume, 13, 1, 2022, pàg. 4348. Bibcode: 2022NatCo..13.4348F. DOI: 10.1038/s41467-022-32007-7. PMC: 9329459. PMID: 35896542.
  8. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books, 2015, pàg. 19–27. arXiv: 1506.06724.