Videoconferència 3D

Es tracta d'un sistema de teleconferència que projecta la imatge sobre un sistema basat en miralls i ofereix una aparença en tres dimensions. Gràcies a les TIC (Tecnologies de la Informació i la Comunicació) es pot transmetre un rostre, així com qualsevol imatge en temps real i poder interaccionar amb elles. Les imatges pre-gravades es poden girar i manipular, i ser vistes des de diferents punts de vista mantenint la seva coherència.

Motivació modifica

Actualment, un gran ventall de contingut gràfic és modelat i renderitzat en 3D, encara que la gran majoria segueix sent representat en plans 2D. Ja des de l'any 1908, de la mà de Walter Lippman, s'havien considerat diverses formes de reproducció en plans 3D, però només recents avenços tecnològics en captura digital, computació i pantalles han aconseguit que la utilització de pantalles 3D sigui funcional i pràctica. Durant una conversa cara a cara, el contacte visual i la direcció de la mirada proporcionen importants pistes visuals per expressar l'emoció, l'atenció i l'interès, cosa que la videoconferència en 2D no és capaç de proporcionar. Quan un participant remot mira directament a la càmera, tothom visualitza la seqüència de vídeo de la mateixa manera sigui quina sigui la seva posició en l'espai. La videoconferència 3D de punt a multipunt aconsegueix una reproducció exacta de la direcció de la mirada i el contacte visual.

Per dur a terme aquesta comunicació, el sistema ha de comptar amb una sèrie de requisits fonamentals:

  • Display que emeti el feix de llum en els 360° amb una correcta paral·laxi horitzontal.
  • Sistema de detecció de cares per produir una correcta paral·laxi vertical.
  • Software i hardware capaços de processar les dades en temps real.
  • Algorisme capaç de renderitzar diferents centres de projecció de gràfics OpenGL en una superfície anisotròpica amb una correcta perspectiva vertical per a qualsevol usuari en qualsevol punt.

(b,c) El participant es projecta en mida natural i en perspectiva per a un correcte contacte visual. (d) El participant mira a l'audiència a través d'un vídeo 2D mentre està sent escanejant, transmès i renderitzat a gran velocitat.

Tecnologia modifica

El sistema es basa en un display compost per diversos elements:

  • Un projector DLP d'alta velocitat
  • Dos miralls giratoris recoberts amb un difusor hologràfic.
  • Un motor de sincronització,
  • Un PC estàndard.

La imatge de la sala es reflecteix en aquests miralls, que girant amb la suficient rapidesa, aconsegueix projectar una imatge de 360°. Amb la sincronització adequada, es poden mostrar imatges per a l'ull esquerre i l'ull dret lleugerament diferents, i fer que una imatge aparegui en 3D.

Projector d'alta velocitat modifica

Per aconseguir una taxa elevada de fotogrames per segon, el sistema reprodueix cada un dels 24 bits que conformen una imatge en color en frames separats seqüencialment. Així, si el senyal digital d'entrada de vídeo és de 60 Hz, el projector reprodueix 60 x 24 = 1,440 frames per segon. Per aconseguir la taxa òptima per al sistema, es fixa una freqüència de fins a 200 Hz, utilitzant dos projectors DLP, podent aconseguir així fins a 8640 frames per segon utilitzant un senyal de vídeo DVI especialment codificada.

Miralls giratoris modifica

El display treballa mitjançant la projecció de vídeo d'alta velocitat que prové del projector en un sistema de miralls giratoris. Com que el mirall gira, reflecteix una imatge diferent i precisa a cada espectador. La mida, la geometria i el material de la superfície de rotació s'han optimitzat per a la visualització d'una figura de la mida del rostre humà. La seva forma de dues cares proporciona dues passades de la superfície de pantalla per a cada espectador en una rotació completa, aconseguint una actualització visual de 30 Hz a 900 rpm. Efectivament, el mirall reflecteix 144 vistes úniques de l'escena a través d'un camp de visió de 180 graus amb una separació angular d'1,25 graus.

Motor de sincronització modifica

La superfície del mirall gira sincronitzadament amb les imatges que van sent reproduïdes pel projector, utilitzant com a màster la taxa d'informació que prové del senyal de PC. La FPGA del projector descodifica cada un dels frames i ho comunica directament al motor de sincronisme. Ja que la freqüència amb la qual gira el mirall és de 30 vegades per segon, el sistema visual humà capta la llum recreant una imatge d'un objecte o persona surant al centre del mirall.

Escaneig 3D en temps real modifica

El sistema utilitza una càmera monocromàtica que captura la cara del participant remot a una freqüència mínima de 120 Hz i un projector d'alta velocitat calibrat a aquesta freqüència (a la mateixa que utilitzi la càmera).

Una altra possibilitat que té el sistema és la de calcular els mapes de profunditat de la cara de la persona. Per a això, s'adquireixen dues imatges per cada frame, i s'il·luminen de manera oposada. A continuació, es resten les dues imatges per detectar els cruïlles per zero i obtenir la posició absoluta 3D dels píxels del centre de la cara. Convenientment, el màxim d'aquestes dues imatges mig il·luminades proporciona un mapa de textures completament il·luminat per la cara, mentre que el valor mínim ens aproxima la quantitat de llum ambient en l'escena. El resultat és un mapa de profunditat per a la cara, que transmetem juntament amb els mapes de textura facials.

Detecció de cares per la paral·laxi vertical modifica

Per proporcionar informació precisa de la distància i contacte visual, la imatge renderitzada del participant remot ha de semblar totalment coherent a les coordenades de l'espai vistes per qualsevol persona de l'audiència. Renderitzar la cara a la mateixa altura i distància per a tot el públic pot fer que sembli que la imatge estigui mirant amb un angle poc precís per a algunes persones, encara que el paral·latge horitzontal que proporciona la pantalla sigui generalment precís en la direcció horitzontal. Encara que la sensibilitat vertical la detectem amb menys sensibilitat que l'horitzontal, una veritable sensació de contacte visual requereix ambdues. Per corregir la perspectiva vertical, s'utilitzen marcadors de detecció de cares d'OpenCV, basat en detector Viola-Jones, i un filtre de Kalman per reduir el soroll blanc additiu, per realitzar un seguiment d'enfocaments basat en el subministrament de vídeo 2D. D'aquesta manera, el paral·lelisme horitzontal de la pantalla ofereix una imatge estèreo binocular sense cap retard, mentre que el paral·lelisme vertical s'aconsegueix a través del seguiment.

Tipus de superfícies dels displays modifica

La superfície d'un display ens dona informació de com van a comportar la llum emesa cap als espectadors.

Superfícies planes i còncaves / convexes poden ser emprades. Aquestes superfícies de diferent forma ofereixen diferents avantatges i desavantatges, cosa que denota la utilitat de poder projectar les imatges en superfícies arbitràries.

Superfície Plana: Té un angle pronunciat per adaptar-se millor a la forma d'un rostre i dos costats per duplicar la velocitat dels fotogrames de la pantalla. El feix de divergència del projector divergeix horitzontalment després de la reflexió per la superfície de la pantalla plana, de manera que aproximadament una àrea d'uns 20º d'audiència, observa alguns píxels reflectits del projector en qualsevol posició del mirall. D'altra banda, és el més simple de construir i calibrar encara que altres formes poden proporcionar propietats òptiques més útils.

Superfície còncava: La utilitat d'aquesta superfície és que, en tot moment, qualsevol membre de l'audiència pot veure la llum reflectida pel projector. Aquest tipus de superfície és útil en el cas de la detecció dels espectadors. La pantalla pot renderitzar la perspectiva vertical adequada per a cada espectador d'una manera directa amb una sola variació d'alçada i distància per quadre. Altres formes diferents també afecten la focal del display. La superfície focal per a un espectador es compon per les diferents capes del mirall que s'il·luminen quan aquest gira. Per a un mirall pla, la superfície focal és un con centrat al voltant de l'eix del mirall. Les superfícies còncaves i convexes tenen focals asimètriques que poden canviar segons l'angle de visió.

Els miralls convexos produeixen un conjunt de plans focals còncaus, i els miralls còncaus produeix un conjunt de plans focals convexos. Això representa un altre avantatge en els miralls còncaus, ja que la cara humana s'assembla més a un cilindre convex que a un còncau. Quan la superfície focal s'aproxima l'objecte que s'està reproduint, l'acomodació visual és més precisa i l'aliàsing es minimitza.

Futur modifica

En general, aquest tipus de sistemes tenen com a objectiu la progressiva millora de la qualitat de la imatge i comunicació. El color es podria aconseguir utilitzant múltiples projectors sincronitzats en el mateix feix de llum. La reproducció del nivell de gris podria millorar incorporant algorismes avançats de halftoning, encara que s'haurien optimitzar per treballar a milers de frames per segon.

D'altra banda, és un desavantatge que el participant remot no pugui rebre una visió en 3D de l'audiència amb la qual estableix la comunicació, encara que el display està posicionat i calibrat per calcular òptimament la posició actual de cada persona. Reemplaçar la pantalla 2D del participant remot per un monitor autoestereoscópicas podria resoldre el problema.

En conclusió, un sistema de videoconferència 3D suposa un pas significatiu en la comunicació cara a cara humana a distància.

Enllaços externs modifica