OpenAssistant

OpenAssistant
Tipus	programari lliure, prototip, intel·ligència artificial generativa, IA conversacional, model de llenguatge extens, bot conversacional i projecte
Versió inicial	15 abril 2023
Versió estable	0.0.1 (15 abril 2023)
Llicència	Llicència Apache, versió 2.0
Característiques tècniques
Plataforma	navegador web
Equip
Creador/s	LAION
Codi font	Fonts de codi
Codi font	Codi font
Més informació
Lloc web	open-assistant.io (anglès)
Id. Subreddit	OpenAssistant

OpenAssistant és un assistent basat en xat de codi obert d'intel·ligència artificial que comprèn tasques, pot interactuar amb sistemes de tercers i recuperar informació dinàmicament per a fer-ho.^[1]^[2] El projecte està desenvolupat per un grup de voluntaris en col·laboració amb LAION. Un dels objectius de desenvolupament inclou l'accés gratuït a models grans de llenguatge que es poden executar localment en maquinari de consum.^[1]

El projecte està sostingut per un esforç mundial de col·laboració oberta distribuïda que involucra a més de 13.500 voluntaris que han creat 600.000 punts de dades generades per humans.^[2]^[3]^[4]^[5]

Desenvolupament modifica

Els desenvolupadors d'OpenAssistant intentaven obtenir un producte viable mínim inicial seguint els tres passos descrits en el document d'InstructGPT.^[6]

Recopilació de mostres de compliment d'instruccions d'alta qualitat generades per humans (missatge + resposta), amb l'objectiu d'aconseguir més de 50.000 mostres d'aquest tipus. Després, dissenyar un procés col·laboratiu per a recopilar i revisar les indicacions. Per a evitar capacitacions sobre inundació de xarxa, temes tòxics, spam, escombraries (junk data), dades d'informació personal, els desenvolupadors tenen una taula de classificació per a motivar a la comunitat de voluntaris, que mostra el progrés i els usuaris més actius.
Mostreig de múltiples finalitzacions per a cadascuna de les indicacions recopilades. Es mostra després aleatòriament als usuaris la finalització d'un avís (prompt) per a classificar-los de millor a pitjor. S'han de recopilar múltiples vots d'usuaris independents per a mesurar l'acord general. Les dades de classificació recopilades s'utilitzaran per a entrenar un model de recompensa.
Seguiment de la fase d'entrenament RLHF basada en les indicacions i el model de recompensa.^{[N 1]}

A continuació, s'obtindrà el model resultant i es continuarà amb el pas de mostreig complet, és a dir, el segon pas anterior per a la següent iteració.^[1]

Estat del desenvolupament modifica

El 10 de març de 2023, els primers models d'OpenAssistant van començar a generar respostes a les indicacions de capacitació en el lloc web d'OpenAssistant. Aquestes respostes estaven obertes per a la classificació del pas dos del document InstructGPT anterior. Aquestes dades s'introduiran en la base de dades d'entrenament. Els models són específicament iteracions de models decuplicats de pythia-6.9B.^[7]^[8]

OpenAssistant es va fer públic el 15 d'abril de 2023.^[3]

A partir de l'11 de maig de 2023, Open Assistant secunda 40 idiomes, inclosos el català, el bavarès, l'esperanto i el basc.

Notes modifica

↑ En l'aprenentatge automàtic, l'aprenentatge per reforç a partir de la retroalimentació humana (RLHF) o l'aprenentatge per reforç a partir de les preferències humanes és una tècnica que entrena un "model de recompensa" directament a partir de la retroalimentació humana i l'utilitza com una funció de recompensa per a optimitzar la política d'un agent mitjançant l'aprenentatge per reforç (RL) a través d'un algorisme d'optimització.

Referències modifica

↑ ^1,0 ^1,1 ^1,2 .
↑ ^2,0 ^2,1 Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023-04-14). "OpenAssistant Conversations -- Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL].
↑ ^3,0 ^3,1 «OpenAssistant RELEASED! The world's best open-source Chat AI! | Open Assistant» (en anglès). laion-ai.github.io, 15-04-2023. [Consulta: 5 maig 2023].
↑ «Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development» (en anglès americà). KDnuggets. [Consulta: 5 maig 2023].^{[Enllaç no actiu]}
↑ Shenwai. «Meet OpenAssistant: An open-source chat model That consists of a ~161K human-generated, human-annotated assistant-style conversation corpus, including 35 different languages» (en anglès americà). MarkTechPost, 21-04-2023. [Consulta: 5 maig 2023].
↑ Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. «Training language models to follow instructions with human feedback» (en anglès). Universidad Cornell, 04-03-2022. [Consulta: 16 maig 2023].
↑ Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal. «[https://arxiv.org/pdf/2304.01373.pdf Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling]» (en anglès), 03-04-2023. [Consulta: 16 maig 2023].
↑ «EleutherAI/pythia-6.9b-deduped-v0». [Consulta: 16 maig 2023].

[7] En l'aprenentatge automàtic, l'aprenentatge per reforç a partir de la retroalimentació humana (RLHF) o l'aprenentatge per reforç a partir de les preferències humanes és una tècnica que entrena un "model de recompensa" directament a partir de la retroalimentació humana i l'utilitza com una funció de recompensa per a optimitzar la política d'un agent mitjançant l'aprenentatge per reforç (RL) a través d'un algorisme d'optimització.

[Sin_nombre-20230526131929-1] 1,0 ^1,1 ^1,2 .

[:0-2] 2,0 ^2,1 Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023-04-14). "OpenAssistant Conversations -- Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL].

[:1-3] 3,0 ^3,1 «OpenAssistant RELEASED! The world's best open-source Chat AI! | Open Assistant» (en anglès). laion-ai.github.io, 15-04-2023. [Consulta: 5 maig 2023].

[4] «Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development» (en anglès americà). KDnuggets. [Consulta: 5 maig 2023].^{[Enllaç no actiu]}

[5] Shenwai. «Meet OpenAssistant: An open-source chat model That consists of a ~161K human-generated, human-annotated assistant-style conversation corpus, including 35 different languages» (en anglès americà). MarkTechPost, 21-04-2023. [Consulta: 5 maig 2023].

[6] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. «Training language models to follow instructions with human feedback» (en anglès). Universidad Cornell, 04-03-2022. [Consulta: 16 maig 2023].

[8] Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal. «[https://arxiv.org/pdf/2304.01373.pdf Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling]» (en anglès), 03-04-2023. [Consulta: 16 maig 2023].

[9] «EleutherAI/pythia-6.9b-deduped-v0». [Consulta: 16 maig 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[N 1]

[7]

[8]