Aprenentatge multimodal

aprenentatge automàtic que combina diferents recursos d'informació, com ara imatges i text.

L'aprenentatge multimodal intenta modelar la combinació de diferents modalitats de dades, que sovint sorgeixen en aplicacions del món real. Un exemple de dades multimodals són les dades que combinen text (normalment representat com a vectors de recompte de paraules discrets) amb dades d'imatge que consisteixen en intensitats de píxels i etiquetes d'anotació. Com que aquestes modalitats tenen propietats estadístiques fonamentalment diferents, la seva combinació no és trivial, per això calen estratègies i algorismes de modelització especialitzats.[1]

S'han implementat molts models i algorismes per recuperar i classificar un determinat tipus de dades, per exemple, imatge o text (on els humans que interactuen amb les màquines poden extreure imatges en forma d'imatges i text que podria ser qualsevol missatge, etc.). Tanmateix, les dades solen venir amb diferents modalitats (és el grau en què els components d'un sistema es poden separar o combinar) que porten informació diferent. Per exemple, és molt comú subtitular una imatge per transmetre la informació que no es presenta a la pròpia imatge. De la mateixa manera, de vegades és més senzill utilitzar una imatge per descriure la informació que pot no ser òbvia dels textos. Com a resultat, si apareixen paraules diferents en imatges similars, és probable que aquestes paraules descriguin el mateix. Per contra, si s'utilitza una paraula per descriure imatges aparentment diferents, aquestes imatges poden representar el mateix objecte. Així, en els casos que tracten dades multimodals, és important utilitzar un model que sigui capaç de representar conjuntament la informació de manera que el model pugui captar l'estructura de correlació entre diferents modalitats. A més, també hauria de ser capaç de recuperar les modalitats que falten donades les observades (per exemple, predir un possible objecte d'imatge segons la descripció del text). El model de màquina multimodal Deep Boltzmann satisfà els propòsits anteriors.[2]

Antecedents: màquina Boltzmann modifica

Una màquina de Boltzmann és un tipus de xarxa neuronal estocàstica inventada per Geoffrey Hinton i Terry Sejnowski el 1985. Les màquines de Boltzmann es poden veure com la contrapartida estocàstica i generativa de les xarxes de Hopfield. Reben el nom de la distribució de Boltzmann en mecànica estadística. Les unitats de les màquines Boltzmann es divideixen en dos grups: unitats visibles i unitats ocultes. Les màquines generals de Boltzmann permeten la connexió entre qualsevol unitat. Tanmateix, l'aprenentatge no és pràctic utilitzant màquines Boltzmann generals perquè el temps de càlcul és exponencial a la mida de la màquina. Una arquitectura més eficient s'anomena màquina de Boltzmann restringida on només es permet la connexió entre la unitat oculta i la unitat visible.[3]

Aplicació modifica

Les màquines Boltzmann profundes multimodals s'utilitzen amb èxit en la classificació i la recuperació de dades que falten. La precisió de classificació de la màquina multimodal de Boltzmann profund supera les màquines vectorials de suport, l'assignació de Dirichlet latent i la xarxa de creences profundes, quan els models es posen a prova amb dades amb dues modalitats imatge-text o amb una única modalitat. La màquina multimodal de Boltzmann profunda també és capaç de predir les modalitats que falten donades les observades amb una precisió raonablement bona. L'aprenentatge autònom aporta un model més interessant i potent per a la multimodalitat. OpenAI va desenvolupar models CLIP i DALL-E que van revolucionar la multimodalitat.[4]

Referències modifica

  1. Akkus, Cem; Chu, Luyang; Djakovic, Vladana; Jauch-Walser, Steffen; Koch, Philipp «Multimodal Deep Learning». arXiv:2301.04856 [cs, stat], 12-01-2023.
  2. «Multimodal Deep Learning» (en anglès). https://ai.stanford.edu.+[Consulta: 15 març 2023].
  3. «Multimodal neurons in artificial neural networks» (en anglès). https://openai.com.+[Consulta: 15 març 2023].
  4. Katariya, Dwipam. «Learning from Multimodal Target» (en anglès). https://towardsdatascience.com,+24-04-2020.+[Consulta: 15 març 2023].