Detecció de còpies de vídeo

Cada cop son més els vídeos que circulen per la xarxa. La detecció de còpies de vídeo es basa a detectar a partir d'un vídeo exemple, quins vídeos han sigut copiats per tal de no violar el copyright del vídeo exemple. També considerem un vídeo copiat aquell gravat amb una càmera, podria ser un espectador, gravant una pel·lícula al cinema. S'ha de tenir en compte que els vídeos copiats poden ser modificats, per exemple, poden portar un logo, transformacions de color, bandes negres, disminució de la qualitat, més soroll, etc.

Història modifica

Indyk et al. Es va basar en la durada de la pel·lícula per a intentar investigar si aquesta era una còpia. Això tenía un problema però, que només servia per pel·lícules senceres, i sense gaire retocs, ja que si ho apliquem a extractes tallats no ens les detectarà correctament.

Més tard, Oostveen et al. Presenta el concepte de "fingerprint" o funció "hash". Aquesta és un senyal extret del vídeo, amb el qual l'identifiquem unívocament, i no pot ser descodificat per obtenir el vídeo un altre cop, ja que només agafa certes parts d'aquest. Aquesta tècnica ens proposa una empremta basada en la imatge lluminància partida a trossos (en una graella) per una banda, i per l'altre, la durada de la seqüència de vídeo.

Després, B.Coskun et al. Presenten dos algorismes molt robusts basats en la DCT, on ja es miren el contingut freqüencial de les imatges del vídeo.

Hampapur i Balle van extreure una descripció global d'un tros de vídeo, bastant-se en el moviment, color, espai, i temps de durada. Es va pensar que també seria bona idea mirar-se els nivells de color de la imatge, i per això, Li et al. Va elaborar un algorisme que utilitzava una signatura binaria extreta a partir de l'histograma de color de cada imatge.

Aquest algorisme no era gaire consistent però, en casos d'inserció de logotips de colors a la imatge, ja que enganyaba al sistema, creient aquest que el color del logo seria una part de la imatge original.

Tècniques modifica

Imatge amb marca d'aigua visible.

Marca d'aigua modifica

La marca d'aigua consisteix a introduir un senyal no visible al vídeo amb l'objectiu que aquest sigui reconegut com a original i d'aquesta manera detectar fàcilment si es tracta d'una còpia o de l'original.

La marca d'aigua, en imatge és una técnica molt utilitzada pels fotògrafs, ja que permet detectar si la imatge ha sigut copiada o no. Moltes vegades, aquesta marca d'aigua és visible en una imatge, al fons de la imatge, o posada de manera que impedeixi l'ús indegut d'aquesta.

Les limitacions de les marques d'aigua radiquen bàsicament en que si l'original no té marca d'aigua, llavors ja no podem saber si una altra imatge és una còpia o no.

Detecció de còpia basada en el contingut modifica

Detecció de còpies de vídeo.

En aquest cas l'empremta o "signatura", en anglés "signature" o "fingerprint" que defineix el vídeo, és el seu mateix contingut. Els algorismes de detecció de còpia basats en el contingut el que fan és extreure, a través de característiques del contingut visual, un senyal empremta, que llavors utilitzen per a comparar amb les empremtes d'altres senyals a la base de dades.

Aquest tipus d'algorismes tenen un problema difícil de solucionar. Aquest problema és la diferència entre vídeo copiat i vídeo similar, ja que les característiques de contingut d'un són molt semblants a les de l'altre, podria portar a pensar que el vídeo és igual, quan realment no ho és. Per exemple, un presentador explicant les notícies.

Algorismes modifica

Descriptors Globals modifica

Temporal modifica

Es defineix una intensitat global a partir d'una ponderació i dependent de la intensitat de cada píxel, al llarg de tot el vídeo. D'aquesta manera la marca ens depèn de la durada total del vídeo, i de com és el vídeo en qüestió.

Es defineix doncs, la intensitat global a(t) a partir de:

$a(t)=\sum _{i=1}^{N}K(i)(I(i,t-1))^{2}$

On K és la ponderació de la imatge i I és la imatge en si. Anomenem N als píxels de cada imatge.

Mesura ordinal modifica

Es parteix la imatge en N blocs, s'ordenen els píxels per nivell de gris i es crea un vector amb els nivells de gris mitjos per a cada bloc.

Amb aquests nivells mitjans de gris es crea la signatura de la imatge S(t).

$S(t)=(r_{1},r_{2},\cdots ,r_{N})$

Llavors, a l'hora de comparar els dos vídeos es defineix també D(t) que representa la similitud entre ambdós vídeos:

$D(t)={\frac {1}{T}}\sum _{1=t-{\frac {T}{2}}}^{t+{\frac {T}{2}}}{\begin{vmatrix}R(i)-C(i)\end{vmatrix}}$

A partir d'aquí, es fixa un umbral per a dir que a partir d'aquest, els dos vídeos són copiats, o no.

Descriptors Temporals i Ordinals modifica

Técnica proposada per L. Chen i F. Stentiford. Es fa una mesura D, de "no similitud" combinant les dues tècniques anteriors, Descriptors Globals Temporals i Descriptors Globals de Mesura Ordinal, en el temps, i en l'espai.

Descriptors Locals modifica

AJ modifica

Descrita per A. Joly st. al., i sent una millora del detector de punts d'interés de Harris, aquesta técnica intenta fer una cerca més rápida, i d'aquesta manera més eficient. Ja que en un vídeo, si tots els frames són prácticament idèntics, no s'haurien de mirar tots, aquesta técnica es basa a mirar només els frames que hagin patit més moviment des del frame anterior.

ViCopT modifica

Utilitza els punts d'interès de cada imatge per a poder definir una signatura original d'aquell vídeo, A qualsevol imatge, però. Podem definir-hi dues parts:

El fons – Conjunt d'elements estàtics al llarg d'una seqüència temporal
El moviment – Punts persistents a la imatge però que canvien de posició (es mouen)

Space Time Interest Points(STIP) modifica

Algorisme desenvolupat per I. Laptev i T. Lindeberg que utilitza la técnica dels punts d'interés al llarg de l'espai i del temps per a extreure una signatura pròpia del vídeo.

Aquest algorisme es crea un vector de 34 dimensions on hi guarda la signatura del contingut espaciotemporal.

Prova d'algorismes modifica

Actualment hi ha alguns algorismes de detecció de còpies de vídeo. I és per això que s'ha de tenir un sistema per a provar-los exactament en les mateixes condicions. D'aquesta manera aconseguirem veure el rendiment de tots els algorismes davant els mateixos vídeos.

Aquests poden ser de diferents durades,(1 minut o fins a 1 hora) i amb diferentes transformacions aplicades, des de la inserció de logos i artefactes a la imatge a la gravació del mateix vídeo amb una càmera de mà, passant per transformacions de color, contrast, etc.

Per a poder determinar quin és el millor algorisme i veure el rendiment en les mateixes condicions, se celebren unes proves conegudes com a MUSLE.

MUSLE modifica

MUSLE (Multimedia Understanding through Semantics, Computation and Learning) és una celebració que va tenir lloc a ACM CIVR 2007: vídeo Retrieval, Image Retrieval and vídeo Copy Detection. Es va fer un conjunt de proves amb cada algorisme, separant els vídeos en tres apartats:

Gravats i codificats amb una càmera de mà. (menor qualitat)
Extractes de la TV amb algunes transformacions.
Petits segments de TV penjats a internet.

Les consultes també podien ser:

Vídeos
Streams de vídeo

Van definir també dos tipus de consultes:

Consultes ST1: Vídeos llargs, de 5 minuts a 1 hora de durada. Podien ser vídeos amb més soroll, i recodificats. En aquest cas les consultes més difícils serien per als vídeos gravats amb cámeres de mà (cam-coder)
Consultes ST2: En aquest cas eren vídeos curts, de durada d'un segon fins a un minut, però estaven molt retocats per professionnals, amb bandes negres afegides, logotips, etc.

Referències modifica

MUSLE (Multimedia Understanding through Semantics, Computation and Learning) (anglès)
IBM - Exploring Computer vision grup (anglès)
A comparative Study PDF (anglès)