LAION

LAION
Dades
Tipus	organització sense ànim de lucre
Indústria	intel·ligència artificial
Camp de treball	intel·ligència artificial
Història
Creació	agost del 2021
Activitat
Produeix	OpenAssistant
Lloc web	https://laion.ai/

La Xarxa oberta d'intel·ligència artificial a gran escala (Large-scale Artificial Intelligence Open Network amb acrònim LAION) és una organització sense ànim de lucre alemanya amb l'objectiu declarat de "posar a disposició del públic en general models d'aprenentatge automàtic, conjunts de dades i codi relacionat a gran escala". És més conegut per alliberar una sèrie de grans conjunts de dades d'imatges i subtítols extrets del web que s'han utilitzat per entrenar una sèrie de models de text a imatge d'alt perfil, inclosos Stable Diffusion i Imagen.^[1]

LAION ha publicat públicament una sèrie de grans conjunts de dades de parells de subtítols d'imatge que han estat àmpliament utilitzats pels investigadors d'IA. Les dades es deriven del Common Crawl, un conjunt de dades de pàgines web rascades. Els desenvolupadors van cercar etiquetes <img> a l'html rastrejat i van tractar els seus atributs alt com a subtítols. Van utilitzar CLIP per identificar i descartar imatges el contingut de les quals no semblava coincidir amb els seus subtítols. LAION no allotja el contingut de les imatges rascades; més aviat, el conjunt de dades conté URL que apunten a imatges, que els investigadors han de descarregar ells mateixos.^[2]

El primer conjunt de dades d'aquest tipus, LAION-400M, es va publicar l'agost de 2021 i constava de 400 milions de parells de subtítols d'imatge. Les parelles es van extreure d'un subconjunt aleatori de pàgines web rascades per Common Crawl entre 2014 i 2021. Va ser un intent de recrear el procés utilitzat per OpenAI per recollir els 400 milions de parells de subtítols d'imatge que van utilitzar per entrenar el model CLIP - l'empresa havia optat per codi obert i els pesos del model, però no el seu conjunt de dades d'entrenament. Imagen, un model de text a imatge anunciat per Google Brain l'any 2022, es va entrenar a LAION-400M en combinació amb conjunts de dades interns privats.^[3]

Un successor de més de 5.000 milions de parells, LAION-5B, va ser llançat el març de 2022. A partir del seu llançament, era el conjunt de dades de parells de subtítols d'imatge més gran de lliure disponibilitat existent. La seva creació va ser finançada per Doodlebot, Hugging Face i Stability AI, l'empresa d'IA darrere del finançament del model de text a imatge Stable Diffusion, que es va formar en ell.^[4]

Referències modifica

↑ Edwards, Benj. «Have AI image generators assimilated your art? New tool lets you check» (en anglès). https://arstechnica.com,+15-09-2022.+[Consulta: 4 febrer 2023].
↑ «LAION Releases Five Billion Image-Text Pair Dataset LAION-5B» (en anglès). https://www.infoq.com.+[Consulta: 4 febrer 2023].
↑ Edwards, Benj. «Artist finds private medical record photos in popular AI training data set» (en anglès). https://arstechnica.com,+21-09-2022.+[Consulta: 4 febrer 2023].
↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay «Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding». arXiv:2205.11487 [cs], 23-05-2022.

[1] Edwards, Benj. «Have AI image generators assimilated your art? New tool lets you check» (en anglès). https://arstechnica.com,+15-09-2022.+[Consulta: 4 febrer 2023].

[2] «LAION Releases Five Billion Image-Text Pair Dataset LAION-5B» (en anglès). https://www.infoq.com.+[Consulta: 4 febrer 2023].

[3] Edwards, Benj. «Artist finds private medical record photos in popular AI training data set» (en anglès). https://arstechnica.com,+21-09-2022.+[Consulta: 4 febrer 2023].

[4] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay «Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding». arXiv:2205.11487 [cs], 23-05-2022.

[1]

[2]

[3]

[4]