Xarxes neuronals convolucionals basades en regions

Les xarxes neuronals convolucionals basades en regions (amb acrònim anglès R-CNN) són una família de models d'aprenentatge automàtic per a la visió per ordinador i específicament la detecció d'objectes.^[1]

L'objectiu original de R-CNN era prendre una imatge d'entrada i produir un conjunt de quadres delimitadors com a sortida, on cada quadre delimitador conté un objecte i també la categoria (per exemple, cotxe o vianant) de l'objecte. Més recentment, R-CNN s'ha ampliat per realitzar altres tasques de visió per ordinador. A continuació es cobreixen algunes de les versions de R-CNN que s'han desenvolupat.

Novembre de 2013: R-CNN. Donada una imatge d'entrada, R-CNN comença aplicant un mecanisme anomenat Cerca selectiva per extreure regions d'interès (ROI), on cada ROI és un rectangle que pot representar el límit d'un objecte a la imatge. Depenent de l'escenari, pot haver-hi fins a dos mil ROI. Després d'això, cada ROI s'alimenta a través d'una xarxa neuronal per produir funcions de sortida. Per a les característiques de sortida de cada ROI, s'utilitza una col·lecció de classificadors de màquines de vector de suport per determinar quin tipus d'objecte (si n'hi ha) conté dins del ROI.
Abril de 2015: Fast R-CNN. Mentre que l'R-CNN original va calcular de manera independent les característiques de la xarxa neuronal en cadascuna de les dues mil regions d'interès, Fast R-CNN executa la xarxa neuronal una vegada a tota la imatge. Al final de la xarxa hi ha un mètode nou anomenat ROIPooling, que talla cada ROI del tensor de sortida de la xarxa, el remodela i el classifica. Com a la R-CNN original, la Fast R-CNN utilitza la cerca selectiva per generar les seves propostes de regió.
Juny 2015: Faster R-CNN. Mentre que Fast R-CNN va utilitzar la cerca selectiva per generar ROI, Faster R-CNN integra la generació de ROI a la pròpia xarxa neuronal.
Març de 2017: Mask R-CNN. Mentre que les versions anteriors de R-CNN es van centrar en la detecció d'objectes, Mask R-CNN afegeix la segmentació d'instàncies. Mask R-CNN també va substituir ROIPooling per un nou mètode anomenat ROIAlign, que pot representar fraccions d'un píxel.
Juny de 2019: Mesh R-CNN afegeix la possibilitat de generar una malla 3D a partir d'una imatge 2D.

Les xarxes neuronals convolucionals basades en regions s'han utilitzat per rastrejar objectes des d'una càmera muntada en drons,^[2] localitzar text en una imatge^[3] i permetre la detecció d'objectes a Google Lens.^[4] Mask R-CNN serveix com una de les set tasques del MLPerf Training Benchmark, que és una competició per accelerar l'entrenament de les xarxes neuronals.^[5]

Referències

↑ Balasubramanian, Ramji. «Region — Based Convolutional Neural Network (RCNN)» (en anglès). https://medium.com,+28-01-2021.+[Consulta: 2 gener 2023].
↑ Nene, Vidi «Deep Learning-Based Real-Time Multiple-Object Detection and Tracking via Drone». , Aug 2, 2019.
↑ Ray, Tiernan «Facebook pumps up character recognition to mine memes». , Sep 11, 2018.
↑ Sagar, Ram «These machine learning methods make google lens a success». , Sep 9, 2019.
↑ Mattson, Peter. MLPerf Training Benchmark.

[1] Balasubramanian, Ramji. «Region — Based Convolutional Neural Network (RCNN)» (en anglès). https://medium.com,+28-01-2021.+[Consulta: 2 gener 2023].

[2] Nene, Vidi «Deep Learning-Based Real-Time Multiple-Object Detection and Tracking via Drone». , Aug 2, 2019.

[3] Ray, Tiernan «Facebook pumps up character recognition to mine memes». , Sep 11, 2018.

[4] Sagar, Ram «These machine learning methods make google lens a success». , Sep 9, 2019.

[5] Mattson, Peter. MLPerf Training Benchmark.

[1]

[2]

[3]

[4]

[5]