En codificació de vídeo, un grup d'imatges o estructura GOP, especifica l'ordre en què les imatges tipus intra i inter són ordenades. El GOP és la unitat d'accés aleatori, que s'utilitza per a declarar si les primeres imatges tipus B després d'una de tipus I poden ser descodificades correctament en cas d'un accés aleatori. És un grup d'imatges successives dins d'un "stream" de vídeo codificat. Cada "stream" de vídeo codificat consisteix en successius GOPs, i és des de les imatges que contenen aquests GOPs des d'on es generen les imatges visibles. Un GOP pot contenir aquests diferents tipus d'imatges:

  • Imatge tipus I (codificació intra) - És una imatge de referència que representa una imatge fixa que és independent dels altres tipus d'imatges. Cada GOP comença per una imatge d'aquest tipus.
  • Imatge tipus P (codificació mitjançant predicció) - Conté informació de la compensació de moviment de la imatge precedent, ja sigui de tipus P o I.
  • Imatge tipus B (codificació mitjançant predicció bidireccional) - Conté diferent informació de la imatge precedent i la següent, ja siguin tipus I o P, dins del mateix GOP.
  • En MPEG 1, hi ha un quart tipus, les imatges DC, que contenen informació de baixa freqüència. Aquests van ser creats amb la finalitat de ser usats per a modes ràpids de cerca.


Seqüència d'imatges. Els vectors inferiors indiquen les referències predictives que hi ha entre ells. S'ha escollit una ordenació IBBPBBPBBI a tall d'exemple, ja que permet establir llaços de predicció força usuals.

Un GOP sempre comença amb una imatge tipus I. A continuació, venen diverses imatges tipus P, en cada cas, separades per algunes imatges variades. Finalment, el buits restants són ocupats per les imatges de tipus B.

Les imatges tipus I contenen la imatge sencera, i no requereixen cap informació addicional per reconstruir-la. Per tant, els errors que hi pugui haver dins d'una estructura GOP seran corregits per la següent imatge tipus I. Les imatges tipus B només propaguen error en l'estàndard H2.64, en què les imatges tipus B poden ser referenciades per altres imatges amb l'objectiu d'aconseguir una major eficiència de compressió.

Quantes més imatges tipus I tingui un stream de vídeo, més fàcil serà la seva edició, però en contraposició aquest stream ocuparà més espai. Per estalviar amplada de banda i espai en el disc, els vídeos preparats per a la seva difusió a Internet, només tenen una imatge tipus I per cada GOP.

L'estructura GOP sol estar referenciada per dos nombres, per exemple, m = 3, n = 12. El primer d'ells ens diu la distància que hi ha entre dues imatges tipus I o P. El segon indica la distància que hi ha entre dues imatges senceres, és a dir, entre dues imatges tipus I: en realitat és la ' longitud del GOP. Seguint amb l'exemple, l'estructura que li correspondria seria: IBBPBBPBBPBB. En lloc del paràmetre n també es pot donar el nombre d'imatges tipus B que hi ha entre dues imatges tipus I o P.