Categorització d'objectes a partir de la cerca d'imatges

el problema d'entrenar un classificador per reconèixer categories d'objectes, utilitzant només les imatges recuperades automàticament amb un cercador d'Internet

En visió per computador, el problema de la categorització d'objectes a partir de la cerca d'imatges és el problema d'entrenar un classificador per reconèixer categories d'objectes, utilitzant només les imatges recuperades automàticament amb un motor de cerca d'Internet. Idealment, la recollida automàtica d'imatges permetria entrenar els classificadors amb res més que els noms de les categories com a entrada. Aquest problema està estretament relacionat amb el de la recuperació d'imatges basada en contingut (CBIR), on l'objectiu és retornar millors resultats de cerca d'imatges en lloc d'entrenar un classificador per al reconeixement d'imatges.

Tradicionalment, els classificadors s'entrenen utilitzant conjunts d'imatges que s'etiqueten a mà. Recollir aquest conjunt d'imatges sovint és un procés que requereix molt de temps i laboriós. L'ús de motors de cerca d'Internet per automatitzar el procés d'adquisició de grans conjunts d'imatges etiquetades s'ha descrit com una forma potencial de facilitar enormement la investigació en visió per ordinador.[1][2]

Desafiaments modifica

Imatges no relacionades modifica

Un problema amb l'ús dels resultats de cerca d'imatges a Internet com a conjunt d'entrenament per a un classificador és l'alt percentatge d'imatges no relacionades dins dels resultats. S'ha estimat que, quan un motor de cerca com ara Google imatges es consulta amb el nom d'una categoria d'objectes (com ara un avió? , fins a un 85% de les imatges retornades no estan relacionades amb la categoria.[3]

Variabilitat intraclasse modifica

Un altre repte que planteja l'ús dels resultats de la cerca d'imatges a Internet com a conjunts d'entrenament per als classificadors és que hi ha una gran quantitat de variabilitat dins de les categories d'objectes, en comparació amb les categories que es troben en conjunts de dades etiquetats a mà com Caltech 101 i Pascal. Les imatges d'objectes poden variar àmpliament en una sèrie de factors importants, com ara l'escala, la postura, la il·luminació, el nombre d'objectes i la quantitat d'oclusió.

Enfocament pLSA modifica

En un article de 2005 de Fergus et al., pLSA (anàlisi semàntica latent probabilística) i extensions d'aquest model es van aplicar al problema de la categorització d'objectes a partir de la cerca d'imatges. El pLSA es va desenvolupar originalment per a la classificació de documents, però des de llavors s'ha aplicat a la visió per ordinador. Es suposa que les imatges són documents que s'ajusten al model de la bossa de paraules.

Model modifica

De la mateixa manera que els documents de text estan formats per paraules, cadascuna de les quals es pot repetir dins del document i entre documents, les imatges es poden modelar com a combinacions de paraules visuals . De la mateixa manera que un diccionari defineix tot el conjunt de paraules de text, tot el conjunt de paraules visuals es defineix en un diccionari de paraules en codi.[4]

Referències modifica

  1. «[file:///home/rai/Downloads/Fergus2010p11824P_Ieee.pdf Learning Object Categories From Internet Image Searches]» (en anglès). [Consulta: 13 octubre 2023].
  2. Galleguillos, Carolina; Belongie, Serge «Context based object categorization: A critical survey». Computer Vision and Image Understanding, 114, 6, 01-06-2010, pàg. 712–722. DOI: 10.1016/j.cviu.2010.02.004. ISSN: 1077-3142.
  3. «Image classification and tagging | Algolia» (en anglès). [Consulta: 13 octubre 2023].
  4. Kinnunen, Teemu; Lankinen, Jukka; Kämäräinen, Joni-Kristian; Lensu, Lasse; Kälviäinen, Heikki «Unsupervised Visual Object Categorisation with BoF and Spatial Matching» (en anglès). Unsupervised Visual Object Categorisation with BoF and Spatial Matching. Springer [Berlin, Heidelberg], 2013, pàg. 384–395. DOI: 10.1007/978-3-642-38886-6_37.