Make-A-Video és una plataforma desenvolupada per Meta Ai, que permet convertir text en vídeos d'alta qualitat utilitzant intel·ligència artificial.[1] El sistema coneix com és el món a partir de dades d'imatges i text emparellades i com aquest es mou partint de vídeos d'arxiu amb text no associat. Així, Make-A-Video pot convertir l'imaginat en un resultat real creant vídeos que compten amb diversitat de colors, personatges, paisatges i espais i, en definitiva, tot el que l'usuari desitgi. A més, també ofereix la possibilitat de convertir fotografies en vídeos i de crear-ne de nous prenent com a referència uns de ja existents. La plataforma fa ús de conjunts de dades disponibles públicament, fet que afegeix un component de transparència extra a la recerca fent-la més propera a l'usuari.[2]

Opcions que ofereix modifica

En la seva pàgina web presenten els tres serveis principals que ofereix la tecnologia.

En primer lloc, partint de frases descriptives d'una escena que es desitja obtenir en vídeo. Es mostren alguns exemplars d'indicacions de mostra per ajudar a l'usuari a explorar l'opcionalitat existent. Així, presenta tres estils diferents: surrealista, realista i estilitzat que compten cadascun amb quatre situacions i els respectius vídeos que s'han generat a partir d'elles. Des d'un robot ballant a Times Square fins a un cavall bevent aigua, i amb totes les especificacions i matisos que l'usuari apunti.

Seguidament, també es presenta la possibilitat d'animar imatges bidimensionals, convertint-les en vídeo. És a dir, passar "d'estàtic a màgic" fent que, per exemple, una fotografia d'una tortuga passi a ser un petit fragment de vídeo on aquesta es mou. Però no només això sinó que a més també podem aconseguir el mateix resultat de manera més precisa amb dues imatges.

Finalment, s'ofereix l'eina per afegir més creativitat als vídeos que ja estiguin gravats. D'aquesta manera l'usuari obté alternatives i un mostrari ampli partint de la seva creació com a base.

Funcionament i avantatges modifica

Els avantatges que la plataforma Make-A-Video són els següents:

Primerament, accelera l'entrenament del model T2V sense la necessitat d’aprendre representacions visuals i multimodals des de zero. D’altra banda, no requereix dades aparellades text-vídeo i per acabar els vídeos generats hereten la immensitat (diversitat d'estètica, representacions fantàstiques, etc.) dels models de generació d'imatges actuals.

El seu objectiu és dissenyar d'una manera senzilla però eficaç de construir sobre models T2I amb mòduls espai-temps nous i efectius.

Per tant, per tal d'assolir aquest propòsit, el seu funcionament consisteix en, primer de tot, descompondre la U-Net temporal i els tensors d'atenció i els aproxima en l'espai i el temps. En segon lloc, dissenya una canalització temporal espacial per generar vídeos d'alta resolució i velocitat de fotogrames amb un descodificador de vídeo, un model d'interpolació i dos models de superresolució que poden habilitar diverses aplicacions a més de T2V. En tots els aspectes, resolució espacial i temporal, fidelitat al text i qualitat, Make-A-Video estableix el nou estat de l'art en la generació de text a vídeo, tal com determinen mesures tant qualitatives com quantitatives.[3]

Sobre l'empresa modifica

Meta Ai és un laboratori d'intel·ligència artificial que pertany a Meta Platforms Inc. que té la intenció de desenvolupar diverses formes d'intel·ligència artificial, millorant les tecnologies de realitat augmentada i artificial. Meta AI és un laboratori d'investigació acadèmica enfocat a generar coneixement per a la comunitat d'IA. Això contrasta amb l'equip d'aprenentatge automàtic aplicat (AML) de Facebook, que se centra en les aplicacions pràctiques dels seus productes.


A Meta AI volen ser reflexius sobre com construïm nous sistemes d'IA generativa com aquest. Make-A-Video utilitza conjunts de dades disponibles públicament, cosa que afegeix un nivell addicional de transparència a la investigació. Estan compartint obertament aquesta investigació i els resultats generatius d'IA amb la comunitat per rebre els seus comentaris, i continuaran emprant el seu marc d'IA responsable per perfeccionar i evolucionar el seu enfocament a aquesta tecnologia emergent.[4]

Aspectes de responsabilitat i seguretat modifica

Meta AI es compromet a dur a terme una IA responsable i a garantir l'ús segur d'aquesta tecnologia de vídeo d'última generació. La investigació fa els passos següents per reduir la creació de contingut nociu, esbiaixat o enganyós.

  • Dades font: Aquesta tecnologia analitza milions de dades per conèixer el món. Com a manera de reduir el risc que es generi contingut nociu, examinem, apliquem i repetim els filtres per reduir la possibilitat que aparegui contingut nociu als vídeos.
  • Identificar-se com a contingut generat per IA: Com que Make-A-Video pot crear contingut que sembli realista, afegeixen una marca d'aigua a tots els vídeos que es generen. Això ajudarà a garantir que els espectadors sàpiguen que el vídeo s'ha generat amb IA i que no està filmat.
  • Un treball en curs: El seu objectiu és fer que aquesta tecnologia estigui disponible per al públic, però ara per ara continuen analitzant i provant Make-A-Video per garantir que cada pas de llançament sigui segur i intencionat.[5]

Referències modifica

  1. «Make-A-Video by Meta AI» (en anglès). [Consulta: 13 desembre 2022].
  2. «Introducing Make-A-Video: An AI system that generates videos from text». [Consulta: 13 desembre 2022].
  3. «Make-A-Video: Text-to-Video Generation without Text-Video Data» (en anglès). Cornell University. [Consulta: 13 desembre 2022].
  4. «RESEARCH. Introducing Make-A-Video: An AI system that generates videos from text» (en angles). Meta Ai, September 29 2022. [Consulta: 13 desembre].
  5. «Make-A-Video.State-of-the-art.AI system that generates videos from text.» (en en anglès). MetaAI. [Consulta: 13 desembre 2022].