🔎주요 관심 영역 (Region of Interest, ROI)을 효과적으로 추출하기
ROI란, 영상처리 및 컴퓨터 비전 분야에서 특정 목적을 위해 이미지나 영상내에서 집중적으로 분석하거나 처리하고자 하는 영역을 의미
새로운 객체 인식 및 분할 향상 방법
Geometry-driven
특징점 추출(SuperPoint) → 특징점 정합(SuperGlue)+슈퍼픽셀 분할(비학습 SLIC 알고리즘) → 자동 ROI 정의
- 딥러닝 기반 (pre-trained) 추출, 정합 결과와 전통적인 SLIC 세그멘테이션 deterministic algorithm을 통합한 방법으로 사전 학습된 모델의 의존성을 낮춤
- 학습된 뒤 고정, 비학습 기반
- 학습 후 일반화 성능을 목표로 설계됨
- robust하게 동작하도록 훈련
- fine-tune 없이 바로 사용 가능
- 후처리 과정에서 학습 데이터에 맞춘 custom fine-tuning이 필요 없음
- 정합된 특징점의 분포와 슈퍼픽셀을 연계하여 주요 관심영역(ROI)를 정의하는 과정을 통해 객체의 경계를 보다 정밀하게 분할할 수 있음 → ROI를 객체 경계로 활용
- ROI 확장 및 최적화 과정에서도 안정적인 결과를 얻고, 다양한 시각적 변화 (조명, 스케일, 회전 등)에도 사전 지식 없이 비교적 안정적인 성능을 유지하며 유연하게 대응할 수 있음, 경량화 구조
✅ SuperPoint란? (자기 지도 학습 기반, 실시간 처리 가능)
SuperPoint: Self-Supervised Interest Point Detection and Description (2018 CVPR, DeTone et al.)
✅ SuperGlue란? (그래프 신경망을 활용한 혁신적 접근 방식, 대규모 특징점 정합 학습이 선행되어 있음, Attention+GNN 내장)
SuperGlue는 두 영상에서 추출된 특징점 쌍 간의 정합 관계(matching correspondence)를 학습을 통해 예측하는 모델로, 기존의 유클리디안 거리 기반 매칭보다 훨씬 더 강건하고 정밀한 결과를 제공


슈퍼픽셀 통합 특징 매칭을 통한 향상된 관심영역 탐지 (Enhancement of Region of Interest Using Superpixel-Based Feature Matching)_Nov. 2024
이덕우, 고재현. (2024). 슈퍼픽셀 통합 특징 매칭을 통한 향상된 관심 영역 탐지. 멀티미디어학회논문지, 27(11), 1289-1297. 10.9717/kmms.2024.27.11.1289

사전 학습된 모델에만 의존하지 않고(대규모 학습/튜닝 필요 없음), 다양한 시각적 상황에서도 강건한 성능을 유지할 수 있는 새로운 접근 방식 필요.
영상 특징점 정합과 슈퍼픽셀(Superpixel) 분할을 결합한 새로운 객체 인식 및 분할 방법을 제안, 본 연구에서 제안하는 방법은 딥러닝 기반의 SuperGlue 모델을 사용하여 영상 간의 특징점을 정합한 후, SLIC(Simple Linear Interative Clustering) 알고리즘을 적용하여 영상의 픽셀을 유사한 속성으로 묶어 슈퍼픽셀로 분할하는 과정으로 구성됨. 이 과정을 통해 단순한 영상 분할을 넘어 객체의 경계를 명확히 정의하고, ROI를 효과적으로 추출할 수 있다.

Achanta, Radhakrishna, Appu Shaji, Kevin Smith, Aurelien Lucchi, Pascal Fua, and Sabine Susstrunk.
“SLIC superpixels compared to state-of-the-art superpixel methods.“
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 34(11):2274–2282, 2012.
DOI: 10.1109/TPAMI.2012.120

제안 방법
- 영상 특징점 정합
- 두 영상 간의 유사성을 측정하기 위해 특징점을 추출하고 정합
- SuperGlue 모델을 사용하여 영상에서 추출된 특징점들을 정합
- 각 특징점 사이의 유사성을 계산하기 위해 유클리디안 거리(Euclidean distance) 사용
- 유클리디안 거리는 두 점 사이의 직선 거리를 계산하는 간단한 방법으로, 영상의 회전, 스케일 변화, 조명 변화 등에 강건한 정합을 가능하게함
- 유사성이 높은 특징점 쌍을 찾아내어, 최종적으로 가장 작은 거리를 가진 쌍을 정합된 특징점으로 선택
- 슈퍼픽셀 분할
- SLIC(Simple Linear Iterative Clustering) 알고리즘 사용
- SLIC는 알고리즘은 영상의 픽셀을 유사한 속성(색상, 텍스처, 밝기 등)으로 묶어 슈퍼픽셀을 생성
- 픽셀 간의 거리는 색상 거리와 공간 거리의 조합으로 계산됨
- 특징점과 슈퍼픽셀의 연계
- 정합된 특징점들은 각기 다른 슈퍼픽셀에 속하게 됨
- 특징점이 속한 슈퍼픽셀을 기준으로 ROI 을 정의할 수 있음
- 모든 정합된 특징점들이 속하는 슈퍼픽셀의 합집합
- 중요한 객체가 포함된 영역을 효과적으로 추출할 수 있음
- 인접한 슈퍼픽셀들이 서로 연결되어 있을 경우, 이를 하나의 더 큰 ROI로 확장하여 객체를 더욱 명확하게 분할할 수 있음
- ROI 확장 및 최적화
- ROI를 확장하는 과정에서, 서로 인접한 슈퍼픽셀을 결합하여 보다 큰 영역을 형성할 수 있음
- 인접 슈퍼 픽셀 간의 유사성을 측정하기 위해 슈퍼픽셀 간의 거리와 유사성 측정의 스케일 계수를 활용한 수식 사용
- 유사성이 높은 슈퍼픽셀들은 하나의 ROI로 결합
- ROI를 확장하는 과정에서, 서로 인접한 슈퍼픽셀을 결합하여 보다 큰 영역을 형성할 수 있음
- 제안 알고리즘
- 1) 두 영상에서 특징점을 추출하고 SuperGlue 모델을 사용하여 특징점들을 정합한다.
- 2) SLIC 알고리즘을 적용하여 영상의 슈퍼픽셀 분할을 수행한다.
- 3) 정합된 특징점들이 속한 슈퍼픽셀들을 연결하여 주요 관심 영역(ROI)을 정의한다.
- 4) 인접한 슈퍼픽셀 간의 유사성을 바탕으로 ROI를 확장하고 최적화한다.

실험 결과(특징점 정합 성능 비교)
- 특징점 검출 방식: SIFT, ORB, SuperPoint 방식
- SuperPoint 방식은 딥러닝을 활용한 특징점 검출 알고리즘
- 비지도 학습을 통해 추출된 특징점이 더 강력한 성능을 발휘하며, 특히 복잡한 장면에서도 일관된 성능을 유지함
- SuperPoint 방식은 딥러닝을 활용한 특징점 검출 알고리즘
- 정합 방식: SuperGlue, 최근접 이웃(NN, Nearest Neighbor) 정합 방식, 비율 검정(Ratio Test) 결합 방식, 또는 상호 확인 (Mutual) 결합 방식

- SuperGlue는 가장 많은 수의 특징점을 성공적으로 정합하여, 매우 촘촘하고 정밀한 정합 결과를 도출함
- 복잡한 영상 작업에서 매우 효과적
- 다양한 시각적 조건에서도 더 나은 성능 발휘
- 특히 회전이나 스케일 변화와 같은 시각적 변동이 있는 경우에도 높은 일관성과 정확성을 유지할 수 있음을 의미
- SIFT와 ORB 방식은
- 상대적으로 적은 수의 특징점만 정합
- NN + Mutual 결합 방식은 정합 성능이 더 낮아지는 경향 있음
- SIFT와 ORB는 SuperGlue에 비해 정합 점의 밀집도가 떨어짐
- 복잡한 장면에서 성능 차이가 더 두드러짐

실험 결과(슈퍼픽셀 연계 및 ROI 최적화 결과)
본 실험에서는 정합된 특징점들이 포함된 슈퍼픽셀들을 집합으로 묶어 ROI를 형성, SuperGlue 기반 정합을 통해 생성된 마스크는 다른 방법들에 비해 객체의 경계를 더 명확하게 분할하고있으며, 이는 제안된 방법이 객체의 주요 부분을 보다 정확하게 인식할 수 있음을 시각적으로 나타냄

그림 3은 다양한 특징점 정합 방식과 SLIC 기반의 슈퍼픽셀 분할을 결합하여 객체의 경계를 분할한 결과를 시각적으로 비교함
- (a) 정합된 특징점 정보를 시각적으로 비교, (b) 해당 특징점들과 연계된 객체 분할 마스크
- SuperGlue 기반의 정합이 ROI 정의에서 더욱 일관되며, 객체의 주요 영역을 효과적으로 분할할 수 있음을 보여줌
- 연계된 슈퍼픽셀 간의 유사성을 바탕으로 ROI를 확장하는 과정에서도 안정적인 성능을 확인할 수 있음

그림 4는 서로 다른 특징점 정합 방식에 따른 Matching Rate(%)와 IoU(Intersection over Union) 성능을 비교한 그래프


영상 정합과 슈퍼픽셀 분할을 결합한 방법이 다양한 시각적 변화에도 우수한 객체 인식 및 분할 성능을 발휘할 수 있음

Leave a comment