Codificació distribuïda de vídeo

La codificació distribuïda de vídeo (en anglès, Distributed Video Coding, abreujat DVC) és un paradigma de codificació que permet reduir la complexitat dels codificadors de vídeo i que els telèfons mòbils de tercera generació o càmeres de vigilància de circuit tancat puguin transmetre vídeo d'una manera molt més eficient.

Fins ara la investigació i estandardització dels algorismes de codificació de vídeo ha adoptat un paradigma on el codificador és l'encarregat d'explorar l'estadística de la font, donant lloc a codificadors complexos i descodificadors senzills. Aquest paradigma està fortament condicionat per aplicacions com la radiodifusió (broadcasting), el vídeo sota demanda i el streaming de vídeo. En tots aquests casos, els continguts es generen per un(o uns pocs) codificadors i es dirigeixen a un gran nombre de descodificadors, el cost dels quals ha de mantenir-se reduït per a garantir un accés econòmic als serveis.

Així per exemple, els estàndards més utilitzats de codificació de vídeo com el MPEG-2, MPEG-4, H-263, són cada vegada més eficients gràcies a un millor modelatge i explotació de les característiques estadístiques del senyal de vídeo, però també resulten més complexos a causa de la quantitat de càlculs complexos que han de realitzar. D'aquesta manera, el conjunt codificador-descodificador (còdec) és totalment asimètric amb codificadors que solen ser de 5 a 10 vegades més complexos que els descodificadors

Dades generals modifica

La codificació distribuïda de vídeo respon a unes noves necessitats com són les càmeres de vigilància de baixa potència, les càmeres sense fils per PC o les càmeres per telèfons mòbils. En aquestes arquitectures és important tenir un baix consum de potència tant en el codificador com en el descodificador. Això requereix disposar d'un codificador de baix cost i baixa complexitat mentre que el descodificador pot ser més complex i costos.

En canvi la codificació de vídeo tradicional es basen en l'aplicació d'una transformada matemàtica (eliminació de la redundància espacial) i en l'aplicació de l'estimació i compensació del moviment (eliminació de la redundància temporal). De tal manera que el codificador és el màxim responsable per assolir el màxim ratio de compressió mentre que el descodificador es limita a executar les ordres dictades pel codificador. Aquest tipus de codificació funciona de manera molt eficient quan el vídeo és codificat un sol cop i en canvi és descodificat molts més cops. Aquest és el cas del vídeo sota demanda.

Característiques modifica

La codificació de vídeo es basa en dos resultats derivats de la Teoria de la Informació: els teoremes de Slepian-Wolf i de Wyner-Ziv. La codificació distribuïda es basa en la codificació de dos o més seqüències aleatòries dependents una de l'altra codificades d'una manera independent. Un únic descodificador intenta explotar les dependències existents entre els dos fluxos originals. Aquesta codificació ens permet desplaçar la complexitat del codificador al descodificador.

Antecedents modifica

En els anys setanta es van formular dos teoremes de Slepian–Wolf i Wyner-Ziv que permetien codificar dos senyals estadísticament independents d'una manera distribuïda (codificació separada, descodificació conjunta) utilitzant un flux de transmissió semblant als sistemes tradicionals de codificació de vídeo. Al teorema de Slepian–Wolf també es coneix com a codificació distribuïda sense pèrdues. I al teorema de Wyner-Ziv es coneix com a codificació distribuïda amb pèrdues.

Dues fonts X i I, estadísticament dependents i codificades de forma conjunta, pot realitzar-se la transmissió sense pèrdues a una taxa binària R igual o superior a la seva entropia conjunta H(X,I).

El Teorema de Slepian-Wolf establix que la transmissió de X i I, amb una probabilitat d'error propera a zero pot realitzar-se a una taxa H(X,I) quan ambdues fonts es codifiquen separadament però es descodifiquen conjuntament.

Un codificador que explota aquest fet rep el nom de codificador de Slepian-Wolf (SWC – de l'anglès Slepian Wolf Coder). En concret, si X i I es codifiquen amb taxes RX i RY respectivament, llavors la transmissió amb una probabilitat d'error propera a zero pot realitzar-se si RX ³ H(X/I), RY³ H(I/X) i RX + RY³ H(X,I) (vegeu Figura 3). Evidentment, el cas òptim consisteix a realitzar la codificació en aquelles taxes (RX,RY) en les quals RX + RY és H(X,I) (límits de Slepian-Wolf).

Figura 3.

Per exemple, el senyal I (anomenat informació lateral) pot transmetre's primer a una taxa RY = H(I) mentre que el senyal X (anomenat senyal principal) pot transmetre's després a una taxa RX = H(X/I), ja que I estarà en el descodificador i podrà ser utilitzada en la descodificació (Figura 4).

Figura 4.

Els teoremes Slepian-Wolf i Wyner-Ziv no descriuen el disseny constructiu de codis que permetin una codificació de font òptima o aproximadament òptima des del punt de vista taxa-distorsió. De fet, el paradigma de codificació que proposen aquests teoremes no ha estat explotat des d'un punt de vista pràctic, fins molt recentment amb l'aparició d'aplicacions i escenaris en els quals resulta necessari realitzar una codificació de baixa complexitat.

Implementació modifica

Dintre de la Codificació Distribuïda de Vídeo hi ha dos models proposats per dues facultats americanes que són la referència i a partir dels quals es parteix en els diferents projectes versats en aquest tema; els models proposats per Girod (Stanford)i Ramchamdran (Berkeleley). En el següent diagrama es mostra el model standford.

Model Stanford modifica

Figura 5.Model Stanford

El model Stanford està basat en tècniques de codificació de canal. La idea és tractar la informació lateral (I) com una versió "sorollosa" del senyal principal (X). Llavors I ha de ser enviada usant una codificació convencional (Intraframe) mentre que X és enviada a una taxa menor que la seva entropia.

El senyal original X no necessita realment ser enviat (ja que el receptor té ja una versió sorollosa d'ella), al seu lloc, només les dades necessàries per recuperar-la a partir de Y es transmeten.

Model Berkeley modifica

El model Berkeley està basat en tècniques de codificació mitjançant síndromes, es van desenvolupar dues arquitectures:

DISCUSS (DIstributed Source Coding Using Syndromes).
PRISM (Power-efficient Robust hIgh-compression Syndrome-based Multimèdia coding).

El 2002 es va fer una proposta PRISM per transmissió multimèdia sobre xarxes sense fils. La solució que proposava era combinar una baixa complexitat utilitzant la codificació interframe. El resultat va ser que encara estava per sota de l'eficiència de compressió d'altres estàndards de codificació tradicional.

Models actuals modifica

A partir dels dos models esmentats es van desenvolupar les eines necessàries per desenvolupar còdecs. El mateix any fent ús de turbo còdecs per la codificació del canal i afegint la transformada DCT i afegint informació addicional per ajudar el descodificador a millorar l'estimació del moviment es va aconseguir uns resultats molt semblants al H.263.

L'any 2005 en l'Institut Superior Tècnic (IST) de Lisboa es va desenvolupar una altra proposta de DVC basada en turbo còdecs.

El projecte europeu DISCOVER està format per un grup d'universitats. El seu objectiu és valorar i explotar totes les possibilitats que ofereix el DVC per tal d'especificar arquitectures que es puguin integrar en sistemes de comunicacions.

Aplicacions modifica

La codificació distribuïda de vídeo és apropiada en totes aquelles aplicacions en les quals els terminals que hagin de realitzar la codificació tinguin restriccions significatives pel que fa a l'energia disponible, la capacitat computacional o el seu cost.

Dintre d'aquest conjunt d'aplicacions podríem fer una distinció entre entorns monocàmara (monoview) i multicàmara (multiview), és a dir, entorns en els que usem una càmera i per tant hi ha un sol codificador, o entorns en els quals el descodificador reben informació procedent de diverses càmeres.

Els sistemes de comunicació que implementen aquest paradigma de codificació abasten un ample ventall d'aplicacions com són les càmeres de vigilància (circuit tancat),sensors de xarxa o videoconferència.

Dues aplicacions pràctiques són:

Sistemes d'imatge multivista. En aquelles aplicacions de vídeovigilancia en les quals es requereix informació visual d'un determinat escenari amb gran fidelitat, solen utilitzar-se xarxes de càmeres situades en posicions precises que permeten obtenir imatges de l'escenari des de diferents angles. El coneixement de la posició i paràmetres de les càmeres permet una renderització de la informació visual de l'escena, podent donar lloc a representacions de gran qualitat. Encara que entre les diverses imatges captades pot existir una gran correlació espacial, aquesta no pot ser utilitzada pels codificadors, ja que les càmeres no solen poder comunicar-se entre elles. En aquestes aplicacions, és aconsellable que la correlació que hi ha entre les imatges captades s'exploti en el descodificador, tal com proposa la DVC. A més, l'ús de DVC reduïx el cost del sistema mitjançant l'abaratiment de la xarxa de càmeres.

Transmissió de vídeo en comunicacions mòbils. El valor dels dispositius mòbils sense fil està íntimament relacionat amb la durada de la bateria, ja que les aplicacions fan ús d'aquests dispositius i han de limitar el consum d'energia i conseqüentment la complexitat computacional.

Xarxes de vídeosensors per a vigilància. Les xarxes de càmeres de vídeo utilitzades per a la vigilància d'edificis, autopistes, aeroports, etc., solen integrar un gran nombre de càmeres. Recentment, l'ús de càmeres sense fil en aquestes aplicacions està rebent un gran interès, ja que gràcies a les connexions sense fil, les càmeres es poden instal·lar en gairebé qualsevol lloc sense necessitat d'una infraestructura cara de cablatge que proporcioni energia i capacitat de comunicació a les càmeres. Com en qualsevol xarxa de sensors sense fil, els senyals captats s'han de comprimir per reduir l'amplada de banda de transmissió. A més, els algoritmes de compressió també consumeixen energia del sensor, especialment si és complex. En aquest escenari, els algoritmes DVC poden aconseguir un bon compromís entre el guany d'energia deguda a la reducció de la quantitat de dades a transmetre i la deguda a la menor complexitat dels algoritmes utilitzats.

Càmeres d'un sol ús. L'ús de càmeres digitals d'un sol ús o de molt baix cost resulta de gran interès en aquelles aplicacions en les quals les càmeres es destrueixen (com en la filmació de processos de combustió) o puguin ser danyades (en la vigilància d'esdeveniments públics en grans àrees). En aquest tipus d'aplicacions, DVC també és d'interès gràcies al fet que l'element de major complexitat i cost, el descodificador, pot utilitzar-se una vegada i una altra.

Aplicacions Mèdiques. L'ús de càmeres miniaturitzades de baixa complexitat i consum d'energia fa possible el monitoratge de parts de l'interior cos humà. Així per exemple, tasques en les quals és difícil el monitoratge a través d'endoscòpia tradicional, com l'intestí prim, són possibles avui en dia mitjançant càmeres sense fil situades en pastilles que el pacient s'empassa i que envien un reduït nombre d'imatges a un receptor que el pacient porta durant un parell d'hores. L'ús de DVC en aquests dispositius allargaria la vida de la bateria i permetria obtenir vídeos de l'intestí prim.

Així doncs, resultarà fonamental combinar les estratègies de codificació distribuïda (amb baixa complexitat en el codificador) amb les convencionals (baixa complexitat en el descodificador) per a poder obtenir sistemes totalment funcionals.

Futures línies d'investigació de la codificació distribuïda de vídeo modifica

Algunes aplicacions concretes en les que es preveu que aquesta tecnologia tindrà un fort impacte les trobem en dos escenaris ben definits: la transmissió de vídeo en comunicacions mòbils i la compressió de senyals originats en xarxes de vídeosensors.

En el cas de la codificació distribuïda per a transmissió de vídeo en xarxes mòbils, es pretén avaluar les prestacions d'aquestes tècniques tenint en compte les característiques pròpies d'aquest escenari (limitació en amplada de banda, adaptació en l'amplada de banda del canal, protecció contra errors, possibilitat de canal de retorn).

Es considera especialment rellevant valorar les possibilitats d'anàlisi d'aquestes imatges que es poden realitzar en les estacions base amb l'objectiu d'optimitzar l'ús de la informació lateral. L'objectiu és introduir mètodes d'anàlisi més sofisticats que permetin millorar els resultats actuals. A més a més, l'anàlisi de la imatge en el descodificador pot proporcionar informació d'alt nivell metadades que poden resultar útils como valor afegit als serveis de vídeo en terminals mòbils.

En el cas de la codificació distribuïda aplicada a la compressió de senyals d'una xarxa de vídeosensors, l'objectiu és estudiar l'eficàcia d'aquest tipus de compressió quan es consideren tots els tipus de correlacions existents (dintre d'un mateix senyal o entre diversos).

Els algoritmes publicats fins ara exploten la correlació existent dintre de cada senyal de vídeo o la correlació espacial entre diversos senyals, però no totes les correlacions simultàniament. Evidentment, el contingut de cada escena o la disposició de les càmeres i dels objectes poden fer que una part de la correlació temporal o espacial sigui útil com a informació lateral.