Dall-e

programa d'intel·ligència artificial

DALL-E (DALL · E estilitzat) és un programa d'intel·ligència artificial desenvolupat per OpenAI el 5 de gener de 2021, que crea imatges a partir de descripcions textuals.[1] Utilitza una versió de 12 mil milions de paràmetres del model GPT-3 Transformer per interpretar les entrades del llenguatge natural (com "una bossa de cuir verd amb forma de pentàgon" o "una vista isomètrica d'un capibara trist") i generar les corresponents imatges.[2][3] Pot crear imatges d'objectes realistes ("una vidriera policromada amb la imatge d'una maduixa blava") així com objectes que no existeixen realment ("una galleda amb la textura d'un porc espí").[4][5][6] El seu nom és un acrònim de WALL·E i Salvador Dalí.[2][3]

Dall-e
Modifica el valor a Wikidata
Modifica el valor a Wikidata
Tipusprogramari, aplicació, image model (en) Tradueix, Model de text a imatge i model d'intel·ligència artificial Modifica el valor a Wikidata
Versió inicial5 gener 2021 Modifica el valor a Wikidata
Disponible en
EpònimSalvador Dalí i Domènech i WALL·E Modifica el valor a Wikidata
Equip
Creador/sOpenAI Modifica el valor a Wikidata
Desenvolupador(s)OpenAI Modifica el valor a Wikidata
Més informació
Lloc weblabs.openai.com Modifica el valor a Wikidata

Instagram: openaidalle Musicbrainz: 62b76330-8080-45bd-aaf8-408c81c9e5ea Modifica el valor a Wikidata

DALL·E 2 (en) Tradueix Modifica el valor a Wikidata

Moltes xarxes neuronals des de la dècada de 2000 d'ara endavant han pogut generar imatges realistes.[3] DALL-E, no obstant això, és capaç de generar-los a partir d'indicacions de llenguatge natural, que "comprèn [...] i rares vegades falla de manera important".[3]

DALL-E va ser desenvolupat i anunciat al públic en conjunt a CLIP (Contrastive Language-Image Pre-training o Pre-entrenament d'Imatge-Llenguatge Contrastant), un model separat la funció del qual és "comprendre i classificar" el seu resultat.[1][3] Les imatges que genera DALL-E estan seleccionades per CLIP, que presenta les imatges de més alta qualitat.[1] OpenAI s'ha negat a publicar el codi font de qualsevol dels models; una "demostració controlada" de DALL-E està disponible al lloc web de OpenAI, on es pot veure la sortida d'una selecció limitada de missatges de mostra.[2] Les comunitats han publicat alternatives de codi obert, capacitades en quantitats més petites de dades, com DALL-E Mini.

Segons MIT Technology Review, un dels objectius de OpenAI era "donar als models de llenguatge una millor comprensió dels conceptes quotidians que els humans usen per donar sentit a les coses".[1]

Arquitectura modifica

El model Generative Pre-Training Transformer (GPT) va ser desenvolupat inicialment per OpenAI l'any 2018, utilitzant l'arquitectura Transformer.[7] La primera iteracció, GPT, es va ampliar per produir GPT-2 el 2019 i el 2020 es va tornar a ampliar per produir GPT-3.[8][2]

El model de DALL-E és una implementació multimodal de GPT-3 amb 12 mil milions de paràmetres (reduït dels 175 mil milions de GPT-3) que "intercanvia text per píxels", entrenat en parells text-imatge d'Internet.[9][2][10][1] Utilitza l'aprenentatge zero-shot per generar resultats a partir d'una descripció i una pista sense més entrenament.[11]

DALL-E genera una gran quantitat d'imatges en resposta a unes indicacions. Un altre model OpenAI, CLIP, es va desenvolupar junt (i es va anunciar simultàniament) amb DALL-E per "comprendre i classificar" aquest resultat.[3] CLIP es va entrenar en més de 400 milions de parells d'imatges i text.[2] CLIP és un sistema de reconeixement d'imatges; no obstant això, a diferència de la majoria dels models de classificadors, CLIP no va ser entrenat amb conjunts de dades seleccionades d'imatges etiquetades (com ImageNet), sinó amb imatges i descripcions extretes d'Internet.[12][1] En lloc d'aprendre d'una sola etiqueta, CLIP associa imatges amb subtítols complets.[1] CLIP es va entrenar per predir quin subtítol (d'una "selecció aleatòria" de 32.768 subtítols possibles) era el més apropiat per a una imatge, la qual cosa li permetia identificar posteriorment objectes en una àmplia varietat d'imatges fora del seu conjunt d'entrenament.[1]

Funcionament modifica

DALL-E és capaç de generar imatges en una varietat d'estils, des d'imatges fotorrealistas[2] fins a pintures i emoji. També pot "manipular i reorganitzar" objectes en les seves imatges.[2] Una habilitat captada pels seus creadors va ser la correcta col·locació d'elements dissenyats en composicions noves sense instruccions explícites: "Per exemple, quan se li demana que dibuixi un rave japonès mocant-se, prenent un cafè amb llet o anant en monocicle, DALL · E sovint dibuixa el mocador, mans i peus en llocs plausibles ".[13]

Si bé DALL-E va exhibir una àmplia varietat de destreses i habilitats, al seu llançament públic, la major part de la cobertura es va centrar en un petit subconjunt d'imatges de sortida "surrealistes" o "extravagants".[1][14] Específicament, la producció de DALL-E per a "una il·lustració d'un rave japonès bebè en un tutú passejant un gos" es va esmentar en peces de Input,[15] NBC, Nature, VentureBeat, Wired, CNN, New Scientist[16] i la BBC;.[17][18][2][19][20][21] El seu resultat de "una butaca amb la forma d'un alvocat" va ser presentat per Wired, VentureBeat, New Scientist, NBC, MIT Technology Review, CNBC, CNN i BBC.[19][2][16][17][1][14][20][21] En contrast, l'enginyer d'aprenentatge automàtic Dale Markowitz va informar sobre el desenvolupament involuntari de les habilitats de raonament visual de DALL-E suficients per resoldre les Matrius de Raven (proves visuals que sovint s'administren a humans per mesurar la intel·ligència) en un article per TheNextWeb.[22]

Nature va presentar DALL-E com "un programa d'intel·ligència artificial que pot dibuixar pràcticament qualsevol cosa que demani".[18] Thomas Macaulay de TheNextWeb va qualificar les seves imatges com "impactants" i "realment impressionants", i va destacar la seva capacitat per "crear imatges completament noves mitjançant l'exploració de l'estructura d'un missatge, inclosos objectes fantàstics que combinen idees no relacionades que mai es van alimentar en l'entrenament".[23] ExtremeTech va dir que "a vegades les representacions són una mica millors que pintar amb els dits, però altres vegades són representacions sorprenentment precises"; TechCrunch va assenyalar que, si ben DALL-E era "un treball fabulosament interessant i poderós", ocasionalment produïa estranyes o incomprensibles sortides, i "moltes imatges que genera estan més que una mica ... apagades":[24][3]

Dir "una bossa de cuir verd amb forma de pentàgon" pot produir el que s'espera, però "una bossa de gamba blava amb forma de pentàgon" pot produir malsons. Per què? És difícil de dir, donada la naturalesa de caixa negra d'aquests sistemes.[3]

Tot i això, DALL-E va ser descrit com "notablement robust a aquests canvis" i fiable en la producció d'imatges per a una àmplia varietat de descripcions arbitràries.[3] Sam Shead, que informa per a CNBC, va qualificar les imatges d'"extravagants" i va citar Neil Lawrence, professor d'aprenentatge automàtic a la Universitat de Cambridge, que el va descriure com una "demostració inspiradora de la capacitat d'aquests models per emmagatzemar informació sobre el nostre món i generalitzar en formes que els humans troben molt naturals”. Shead també va citar Mark Riedl, professor associat de l'Escola de Computació Interactiva de Georgia Tech, dient que els resultats de la demostració de DALL-E van demostrar que era capaç de "combinar conceptes de manera coherent", un element clau de la creativitat humana, i que “la demo de DALL-E és destacable per produir il·lustracions que són molt més coherents que altres sistemes Text2Image que he vist els darrers anys”.[14] Riedl també va ser citat per la BBC dient que estava "impressionat pel que el sistema era capaç de fer".[21]

També es va destacar la capacitat de DALL-E per “completar els espais en blanc” i introduir detalls apropiats sense indicacions específiques. ExtremeTech va notar que una indicació per dibuixar "un pingüí amb un jersei nadalenc " produïa imatges de pingüins no només usant un jersei, sinó també barrets de Santa,[24] i Engadget va assenyalar que van aparèixer ombres apropiadament col·locades en els resultats del missatge "una pintura d'una guineu asseguda en un camp durant l'hivern”.[11] A més, DALL-E exhibeix una àmplia comprensió de les tendències visuals i de disseny; ExtremeTech va dir que "pot demanar a DALL-E una imatge d'un telèfon o una aspiradora d'un període específic, i entén com han canviat aquests objectes".[24] Engadget també va assenyalar la seva capacitat inusual de “comprendre com els telèfons i altres objectes canvien amb el temps”.[11] DALL-E ha estat descrit, juntament amb una altra "IA estreta" com AlphaGo, AlphaFold i GPT-3 com "[generant] interès en sí i com es pot aconseguir la intel·ligència artificial forta ".[25]

Transcendència modifica

OpenAI s'ha negat a publicar el codi font de DALL-E, i a permetre'n l'ús fora d'una petita quantitat de sol·licituds de mostra; [2] OpenAI va afirmar que planejava "analitzar els impactes socials" [23] i "el potencial de biaix" en models com DALL-E.[14] Tot i la manca d'accés, s'ha discutit com a mínim una possible implicació de DALL-E, i diversos periodistes i escriptors de contingut prediuen principalment que DALL-E podria tenir efectes en el camp del periodisme i la redacció de contingut. L'article de Sam Shead a la CNBC va assenyalar que alguns estaven preocupats per la llavors falta d'un article publicat que descrigués el sistema, i que DALL-E no havia estat "de codi obert" [ sic ].[14]

Tot i que TechCrunch va dir "no escriguis obituaris de fotografies i il·lustracions d'arxiu encara",[3] Engadget va dir que "si es desenvolupa més, DALL-E té un gran potencial per alterar camps com la fotografia d'arxiu i la il·lustració, amb tot allò bo i dolent que implica”.[11]

En un article d'opinió de Forbes, el capitalista de risc Rob Toews va dir que DALL-E "presagiava l'alba d'un nou paradigma d'IA conegut com a IA multimodal ", en què els sistemes serien capaços d'"interpretar, sintetitzar i traduir entre múltiples modalitats d'informació"; Va continuar dient que DALL-E va demostrar que “cada vegada és més difícil negar que la intel·ligència artificial és capaç de tenir creativitat”. Sobre la base de les indicacions de mostra (que incloïen maniquins vestits i mobles), va predir que DALL-E podria ser utilitzat per dissenyadors de moda i dissenyadors de mobles, però que "la tecnologia seguirà millorant ràpidament".[26]

Impacte Social modifica

DALL-E com ja s'ha mencionat ha sigut una revolució en l'avanç de la tecnologia que treballa la IA. Aquesta eina afecta principalment al sector creatiu i artístic a causa de la seva qualitat i eficiència en projectes i treballs que abans implicaven una inversió de temps i diners molt més gran. Això ha fet pensar a molts experts i professionals del camp quin futur els hi espera? Podran els artistes encara guanyar-se la vida? És encara la creativitat una cosa intrínseca i única de l'ésser humà? [27]

Està clar que les coses a partir d'ara començaran a canviar, i els canvis sempre donen respecte i temor per por a no controlar la situació que ens espera. El món està dividit, per una banda, hi ha una part de la població que veu en aquest avanç, una eina perillosa que cal censurar i restringir per motius com l'expulsió dels artistes en el sector creatiu del món laboral, el poder creador tècnic excessiu en mans de qualsevol, i inclús la menysvaloració de l'art o creativitat. La clàssica però comprensible visió catastrofista dels avenços tecnològics com poder excessiu per nosaltres.

D'altra banda, hi ha qui fora de promoure la censura de DALL-E, veu en aquesta eina una simple evolució de la tecnologia a favor de l'art i la creativitat, que no arriba a l'impacte de la invenció de la fotografia. És cert que fa el treball dels creatius molt més ràpid i eficient, però això no vol dir que sigui la fi de l'art, més encara, atorga a tothom les eines per desenvolupar la imaginació i noves vies de comunicació.

¿Què serà dels treballs creatius? Encara necessitem idees i coneixements estètics i artístics perquè els dissenys o imatges de la web "funcionin" en el món audiovisual. En l'àmbit econòmic afavoreix a la reducció dels costos de creació i estudis previs per campanyes o projectes empresarials.

Finalment, l'art definitivament no morirà, simplement evolucionarà com ho fa sempre, de la mà de les persones; A mesura que les persones canvien, l'art canvia, ja que aquest és la nostra expressió més íntima. DALL-E és una gran eina que ens dona gran poder a tots, es té por que s'utilitzi malament per la seva capacitat i accessibilitat a tothom, però no per això és dolenta,"un gran poder comporta una gran responsabilitat", aprenguem llavors a utilitzar-la per dignificar i ajudar a les persones, per progressar veritablement.[28]

Referències modifica

  1. 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 Heaven, Will Douglas. «This avocado armchair could be the future of AI». MIT Technology Review, 05-01-2021. [Consulta: 5 gener 2021].
  2. 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 Johnson, Khari. «OpenAI debuts DALL-E for generating images from text». VentureBeat, 05-01-2021. Arxivat de l'original el 5 gener 2021. [Consulta: 5 gener 2021].
  3. 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 Coldewey, Devin. «OpenAI's DALL-E creates plausible images of literally anything you ask it to», 05-01-2021. Arxivat de l'original el 6 gener 2021. [Consulta: 5 gener 2021].
  4. Grossman, Gary. «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat, 16-01-2021. Arxivat de l'original el 26 febrer 2021. [Consulta: 2 març 2021].
  5. Andrei, Mihai. «This AI module can create stunning images out of any text input». ZME Science, 08-01-2021. Arxivat de l'original el 29 gener 2021. [Consulta: 2 març 2021].
  6. Walsh, Bryan. «A new AI model draws images from text». Axios, 05-01-2021. [Consulta: 2 març 2021].
  7. «Improving Language Understanding by Generative Pre-Training». OpenAI, 11-06-2018. Arxivat de l'original el 26 gener 2021. [Consulta: 23 gener 2021].
  8. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David «Language models are unsupervised multitask learners». , 1, 8, 14-02-2019 [Consulta: 19 desembre 2020].
  9. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. 
  10. Language Models are Few-Shot Learners. 
  11. 11,0 11,1 11,2 11,3 Dent, Steve. «OpenAI's DALL-E app generates images from just a description». Engadget, 06-01-2021. Arxivat de l'original el 27 gener 2021. [Consulta: 2 març 2021].
  12. «For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions». Synced, 05-01-2021. Arxivat de l'original el 6 gener 2021. [Consulta: 2 març 2021].
  13. Dunn, Thom. «This AI neural network transforms text captions into art, like a jellyfish Pikachu». BoingBoing, 10-02-2021. Arxivat de l'original el 22 febrer 2021. [Consulta: 2 març 2021].
  14. 14,0 14,1 14,2 14,3 14,4 Shead, Sam. «Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab». CNBC, 08-01-2021. [Consulta: 2 març 2021].
  15. Kasana, Mehreen. «This AI turns text into surreal, suggestion-driven art». Input, 07-01-2021. Arxivat de l'original el 29 gener 2021. [Consulta: 2 març 2021].
  16. 16,0 16,1 Stokel-Walker, Chris. «AI illustrator draws imaginative pictures to go with text captions». New Scientist, 05-01-2021. Arxivat de l'original el 28 gener 2021. [Consulta: 4 març 2021].
  17. 17,0 17,1 Ehrenkranz, Melanie. «Here's DALL-E: An algorithm learned to draw anything you tell it». NBC News, 27-01-2021. Arxivat de l'original el 20 febrer 2021. [Consulta: 2 març 2021].
  18. 18,0 18,1 Stove, Emma. «Tardigrade circus and a tree of life — January's best science images». Nature, 05-02-2021. Arxivat de l'original el 8 març 2021. [Consulta: 2 març 2021].
  19. 19,0 19,1 Knight, Will. «This AI Could Go From 'Art' to Steering a Self-Driving Car». Wired, 26-01-2021. Arxivat de l'original el 21 febrer 2021. [Consulta: 2 març 2021].
  20. 20,0 20,1 Metz, Rachel. «A radish in a tutu walking a dog? This AI can draw it really well». CNN, 02-02-2021. [Consulta: 2 març 2021].
  21. 21,0 21,1 21,2 Wakefield, Jane. «AI draws dog-walking baby radish in a tutu». British Broadcasting Corporation, 06-01-2021. Arxivat de l'original el 2 març 2021. [Consulta: 3 març 2021].
  22. Markowitz, Dale. «Here's how OpenAI's magical DALL-E image generator works». TheNextWeb, 10-01-2021. Arxivat de l'original el 23 febrer 2021. [Consulta: 2 març 2021].
  23. 23,0 23,1 Macaulay, Thomas. «Say hello to OpenAI's DALL-E, a GPT-3-powered bot that creates weird images from text». TheNextWeb, 06-01-2021. Arxivat de l'original el 28 gener 2021. [Consulta: 2 març 2021].
  24. 24,0 24,1 24,2 Whitwam, Ryan. «OpenAI's 'DALL-E' Generates Images From Text Descriptions». ExtremeTech, 06-01-2021. Arxivat de l'original el 28 gener 2021. [Consulta: 2 març 2021].
  25. Nichele, Stefano «Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve». Genetic Programming and Evolvable Machines, 22, 2021, pàg. 141–145. DOI: 10.1007/s10710-021-09398-5.
  26. Toews, Rob. «AI And Creativity: Why OpenAI's Latest Model Matters». Forbes, 18-01-2021. Arxivat de l'original el 12 febrer 2021. [Consulta: 2 març 2021].
  27. «DALL-E: Did Picture-Generating AI Just Make Artists Obsolete?» (en anglès americà). [Consulta: 15 desembre 2022].
  28. Metz, Cade «Meet DALL-E, the A.I. That Draws Anything at Your Command» (en anglès). The New York Times, 06-04-2022. ISSN: 0362-4331.