Model de text a imatge

és un model d'aprenentatge automàtic que pren com a entrada una descripció en llenguatge natural.

Un model de text a imatge és un model d'aprenentatge automàtic que pren com a entrada una descripció en llenguatge natural i produeix una imatge que coincideix amb aquesta descripció. Aquests models es van començar a desenvolupar a mitjans de la dècada de 2010, com a resultat dels avenços en xarxes neuronals profundes. El 2022, la producció de models de text a imatge d'última generació, com ara DALL-E 2 d'OpenAI, Imagen de Google Brain i Stable Diffusion de StabilityAI va començar a apropar-se a la qualitat de les fotografies reals i l'art dibuixat per humans.[1][2]

Una imatge condicionada a la indicació "un astronauta muntant a cavall, per Hiroshige", generada per Stable Diffusion, un model de text a imatge a gran escala llançat el 2022.
Vuit imatges generades a partir del missatge de text "Un senyal de stop vola en cel blau". per AlignDRAW (2015). Ampliat per mostrar els detalls.

Els models text a imatge generalment combinen un model de llenguatge, que transforma el text d'entrada en una representació latent, i un model d'imatge generatiu, que produeix una imatge condicionada a aquesta representació. Els models més eficaços s'han entrenat generalment amb quantitats massives de dades d'imatge i text extretes del web.

Arquitectura d'alt nivell que mostra l'estat dels models d'aprenentatge automàtic de l'art d'IA, els models i aplicacions més grans o més notables en el panorama de l'art d'IA i les relacions i dependències pertinents com a mapa d'imatge SVG en què es pot fer clic.

Abans de l'auge de l'aprenentatge profund, els intents de crear models de text a imatge es limitaven a collages mitjançant l'ordenació d'imatges de components existents, com ara una base de dades d'imatges predissenyades.

Els models de text a imatge s'han creat utilitzant una varietat d'arquitectures. El pas de codificació de text es pot realitzar amb una xarxa neuronal recurrent, com ara una xarxa de memòria a curt termini (LSTM), tot i que els models de transformadors s'han convertit des d'aleshores en una opció més popular. Per al pas de generació d'imatges, s'han utilitzat habitualment xarxes adversàries generatives condicionals, i els models de difusió també s'han convertit en una opció popular en els darrers anys. En lloc d'entrenar directament un model per produir una imatge d'alta resolució condicionada a una incrustació de text, una tècnica popular és entrenar un model per generar imatges de baixa resolució i utilitzar un o més models auxiliars d'aprenentatge profund per augmentar-lo, omplint-lo amb més precisió. detalls.[3]

Els models de text a imatge s'entrenen en grans conjunts de dades de parells (text, imatge), sovint esborrats del web. Amb el seu model Imagen de 2022, Google Brain va informar resultats positius de l'ús d'un gran model de llenguatge entrenat per separat en un corpus només de text (amb els seus pesos posteriorment congelats), una diferència de l'enfocament estàndard fins ara.[4]

L'entrenament d'un model de text a imatge requereix un conjunt de dades d'imatges combinades amb subtítols de text. Un conjunt de dades que s'utilitza habitualment per a aquest propòsit és COCO (Common Objects in Context). Publicat per Microsoft el 2014, COCO consta d'unes 123.000 imatges que representen una diversitat d'objectes, amb cinc subtítols per imatge, generades per anotadors humans. Oxford-120 Flowers i CUB-200 Birds són conjunts de dades més petits d'unes 10.000 imatges cadascun, restringits a flors i ocells, respectivament. Es considera menys difícil entrenar un model de text a imatge d'alta qualitat amb aquests conjunts de dades, a causa del seu restringit ventall de temes.

Referències modifica

  1. «Text To Image - AI Image Generator» (en anglès). https://deepai.org.+[Consulta: 5 març 2023].
  2. «What is Text-to-Image? - Hugging Face» (en anglès). https://huggingface.co.+[Consulta: 5 març 2023].
  3. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay «Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding». arXiv:2205.11487 [cs], 23-05-2022.
  4. Kezmann, Jan Marcel. «10 Best Free-to-Use Text-to-Image Generators» (en anglès). https://medium.com,+19-11-2022.+[Consulta: 5 març 2023].