Structure from motion

Structure from motion (SfM) és una tècnica fotogramètrica que permet estimar estructures tridimensionals a partir de seqüències d'imatges bidimensionals que poden ser acoblades amb senyals de moviment locals.

Explicació

Structure from motion és una tècnica que té els seus orígens en la comunitat de la visió per computador, és un mètode fàcil d'utilitzar per a l'obtenció de dades d'alta resolució en un rang d'escales, capaç de representar un objecte 2D a 3D amb només unes quantes fotografies des de diferents punts de vista.

Aquest tipus de representacions, molt sovint, esdevenen alts costos pel fet que la recollida i adquisició de les dades pot ser molt complicada per la llunyania o inaccessibilitat en molts llocs de camp. Altres plataformes com l'escaneig làser terrestre o GPS solen ser mètodes més barats però poc pràctics i fiables.

En lloc d'això, es resolen simultàniament usant un procediment d'ajust de feix basat en una base de dades de característiques, extretes automàticament a partir d'un conjunt de múltiples imatges superposades, on deriven d'un sensor de moviment d'una càmera.

Mètode

A diferència dels mètodes tradicionals, les posicions de la càmera de SFM no tenen l'escala i l'orientació proporcionada per les coordenades necessàries de l'objecte a tractar.

SFM

L'etapa de processament inicial, és la identificació de característiques en imatges individuals que poden ser usats per a relacionar-les entre elles mitjançant característiques comunes.

Extracció de característiques i punts claus

Una solució popular a aquest problema, és el sistema d'extracció de característiques SIFT, aquest algoritme identifica característiques a cada imatge que són invariants en l'escala, la rotació i als canvis en condicions d'il·luminació, d'aquesta manera, els punts d'interès, o 'punts clau', s'identificaran automàticament en totes les escales i localitzacions a cada imatge.

Per tant, s'obté una base de dades de punts d'interés entre totes les imatges, que ens ajudaran a relacionarles més tard entre elles.

Observacions a tenir en compte

El nombre de punts clau en una imatge depèn principalment de la textura i la resolució de la imatge, de manera que les imatges amb altes definicions, tornaran els millors resultats.

La disminució de la distància entre la càmera i la característica d'interès, augmentarà d'aquesta manera la resolució espacial de la fotografia.

El requisit per a l'obtenció amb èxit de les característiques, és un mínim de tres fotografies. No obstant això, l'obtenció de la quantitat més gran d'imatges, és molt recomanable, ja que optimitza el nombre màxim de punts i redundància del sistema.

Posicionament de la càmera

Especial atenció, s'ha de donar a l'elecció de la plataforma d'adquisició. Per exemple, els llocs de petita escala amb angles molt inclinats, és probable que siguin més adequats per a un enfocament des de terra en diferents vistes, mentre que la fotografia aèria de baixa altitud (LAAP) pot proporcionar una millor cobertura sobre els llocs més grans.

En fer les fotografies, s'ha de prendre especial atenció a maximitzar la superposició de les línies bàsiques de l'objecte per a poder obtenir millors resultats.

Posició càmeres

Reconstrucció 3D

Després de la identificació i assignació dels punts claus, hi haurà punts, que en múltiples imatges són coincidents per un veí més proper aproximat, donant punts que comparteixen característiques molt similars. Els que no compleixin amb aquests criteris seran descartats automàticament.

Això també serà possible d'aplicar a objectes no estàtics, capturats involuntàriament o l'eliminació de punts que no siguin del nostre interès a l'hora de la reproducció en 3D.

La completa automatització d'aquest procés, des de l'extracció punt clau, a la reconstrucció precisa de geometria de l'escena, és un clar avantatge del mètode SFM sobre enfocaments fotogramètrics digitals tradicionals.

Resum

Amb un mínim de 3 fotografies fetes des de diferents punts de vista d'un objecte i sense saber la posició exacta, podem reconstruir aquestes imatges 2D a 3D per un cost molt més econòmic que altres tècniques.

El procediment consistirà en l'extracció d'uns punts en comú de totes les fotografies preses mitjançant l'algoritme SIFT, que ens permetrà poder fer una classificació per a reconstruir la imatge des dels diferents punts de vista possibles. Softwares ja especialitzats, faran immediates les representacions en 3D incloent en molts casos, la textura i el color de l'objecte, fent inclús possible, l'eliminació d'alguna de les parts que no siguin del nostre interès.

Bibliografia

Richard Hartley and Andrew Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, 2003. ISBN 0-521-54051-8.

Olivier Faugeras and Quang-Tuan Luong and Theodore Papadopoulo. The Geometry of Multiple Images. MIT Press, 2001. ISBN 0-262-06220-8.
Yi Ma, S. Shankar Sastry, Jana Kosecka, Stefano Soatto, Jana Kosecka. An Invitation to 3-D Vision: From Images to Geometric Models. Springer-Verlag New York, LLC, novembre 2003. ISBN 0-387-00893-4.

Enllaços externs

Structure from Motion toolbox for Matlab Arxivat 2008-05-24 a Wayback Machine. by Vincent Rabaud

Structure and Motion Toolkit Arxivat 2009-07-31 a Wayback Machine. by Phil Torr

Libmv - A C++ Structure from Motion library