Instance segmentation

Instance segmentation


✅ Instance segmentation

1️⃣ What is instance segmentation?

image.png

Instance segmentation은 class가 같더라도 개체가 다르면 다르게 분류한다.

Instance segmentation = Semantic segmentation + distinguishing instances


2️⃣ Instance segmenters

Mask R-CNN

image.png

  • RoIAlign을 통한 RoI추출 한다. RoI pooling의 개선 된 버전이다.
  • 기존의 RoI pooling은 정수 좌표만을 지원했다. 정수 좌표에서 feature들을 뽑아 왔다.
  • RoIAlign에서는 interpolation을 통한 정교한 subpixel 소수점 pixel level의 pooling을 지원하게 된다.
  • 좀 더 정교한 feature을 뽑을 수 있고 뒷 단의 성능 향상이 이루어 졌다.


🔎 그리고 오른쪽 layer 구성을 자세히 보면

원래 기존의 Faster R-CNN의 head가 있고 그 밑에 Mask branch가 하나 있다. 중간에 Upsampling을 하고 channel은 256으로 낮춘다 마지막에 class의 개수인 80만큼으로 각 class마다 Binary Mask를 생성한다. 그리고 Classification head에서 예측 결과를 이용해서 Mask를 참조하게 된다. 어떤 Mask를 선택을 할지 참조하게 되고 사용하게 될 Mask를 반환하게 된다.

Mask R-CNN = Faster R-CNN + Mask branch


📌 전체 R-CNN 요약

image.png



YOLACT(You Only Look At CoefficienTs)

image.png

  • 기본 backbone구조는 Feature Pyramid형태의 구조이다. 고해상도의 Feature map을 가지고 사용할 수 있게 된다.
  • 가장 큰 특징은 Mask의 Prototypes를 추출해서 사용한다. 이것은 Mask는 아니지만 Mask를 합성해 낼 수 있는 기본적인 구성 요소들이라고 생각하면 된다. Mask R-CNN에서는 모든 Class에 대해서 Mask를 생성했지만 여기서는 필요 부분만 가지고 합성을 진행하게 된다.
  • Prediction Head에서 Prototypes을 잘 합성하기 위한 계수들을 출력해 준다.
  • 그 다음 계수와 Prototypes들을 선형 결합을 해 detection response map을 만든다.



YolactEdge

image.png

  • YolactEdge는 YOLACT보다 소형화 되어 비디오로 확장 가능하다.

'AI > 이론' 카테고리의 다른 글

Multi-modal tasks II (Visual data & Audio)  (0) 2021.03.12
Multi-modal tasks I (Visual data & Text)  (0) 2021.03.12
Panoptic segmentation  (0) 2021.03.11
Conditional generative model  (0) 2021.03.11
torch.autograd  (0) 2021.03.10
Object Detection  (0) 2021.03.10
Semantic segmentation  (0) 2021.03.09
Image classification II  (0) 2021.03.09

+ Recent posts