Perceptor

és un transformador adaptat per poder processar dades no textuals, com ara imatges, sons i vídeos, i dades espacials.

Un perceptor és un transformador adaptat per poder processar dades no textuals, com ara imatges, sons i vídeos, i dades espacials. Els transformadors són la base d'altres sistemes notables com BERT i GPT-3, que van precedir Perceiver.[1] Adopta un mecanisme d'atenció asimètric per destil·lar les entrades en un coll d'ampolla latent, cosa que li permet aprendre de grans quantitats de dades heterogènies. El perceptor coincideix o supera els models especialitzats en tasques de classificació.[2]

Arquitectura del model Transformador.

Perceiver es va presentar el juny de 2021 per DeepMind.[3] Va ser seguit per Perceiver IO l'agost de 2021.[4]

El Perceptor està dissenyat sense elements específics de la modalitat. Per exemple, no disposa d'elements especialitzats per gestionar imatges, ni text, ni àudio. A més, pot gestionar múltiples fluxos d'entrada correlacionats de tipus heterogenis. Utilitza un petit conjunt d'unitats latents que formen un coll d'ampolla d'atenció pel qual han de passar les entrades. Un dels beneficis és eliminar el problema d'escala quadràtica que es troba als primers transformadors. El treball anterior utilitzava extractors de funcions personalitzades per a cada modalitat.

Associa característiques específiques de posició i modalitat amb cada element d'entrada (per exemple, cada píxel o mostra d'àudio). Aquestes característiques es poden aprendre o construir utilitzant característiques de Fourier d'alta fidelitat.

El Perceptor utilitza l'atenció creuada per produir capes de complexitat lineal i per separar la profunditat de la xarxa de la mida d'entrada. Aquest desacoblament permet arquitectures més profundes.

El rendiment de Perceiver és comparable a ResNet-50 i ViT a ImageNet sense convolucions 2D. Atén a 50.000 píxels. És competitiu en totes les modalitats a AudioSet.[5]

Referències modifica