카메라 간격에 유연한 멀티뷰 캡처

연구란? 레퍼런스를 찾는것

캡처에 방점을 두고 깊이 있게 자료 보기!_Prof.Ryu

시간 확보를 할 수 있는 것 (오히려 좋아)

교수님의 주요 관심은 Dynamic Scene, 현재 표준화 WG4/7 GSC 에서 주요 관심은 Large-scale Scene dataset (1 frame부터)

물리적 카메라 view 뿐만 아니라 novel view synthesis(NVS)된 가상의 카메라 view를 포함하여 multi-view capture라고 하는 것인가? 본 기술의 명칭 유래가, 명확한 정의를 찾아보자

  • 전통적인 정의는 물리 카메라 기반이지만, 현재는 NVS view까지 확장 적용되고 있다. (레퍼런스 좀 더 찾아보기)
  • 3DGS, 4DGS, MVSNeRF 같은 분야에서는 NVS 결과물도 일종의 pseudo view로 간주하고, dense한 multi-view reconstruction을 추구함 (레퍼런스 좀 더 찾아보기)

전통적 정의로 Multi-view capture란, 하나의 장면(scene)을 여러 대의 카메라를 이용해 다양한 시점(viewpoint)에서 동시 혹은 시간적으로 연속적으로 취득하는 기술이다.

  • 물리적 카메라 배열: 실제 카메라 설치(예: 스테레오 카메라, 카메라 어레이)를 통해 시차(parallax)와 깊이 정보를 획득
  • 응용 분야: 3D 영상 제작, 다중 시점 영상 분석, 자율 주행 차량의 환경 인식
  • 표준 기술: H.264 MVC(Multi-view Video Coding) 는 2개 이상의 카메라 각도를 단일 비디오 스트림으로 압축

현대적 확장으로 최근 Neural Radiance Fields(NeRF) 및 3D Gaussian Splatting(3DGS) 등의 기술 발전으로, 가상의 novel view 형성도 multi-view capture의 일부로 간주된다.

  • Pseudo-view의 역할
    • 물리적 카메라로 포착하지 않은 시점을 신경망/기하학적 모델로 합성
    • 희소(sparse) 물리적 뷰 데이터를 보완하여 고밀도(dense) 3D 재구성 가능
  • 기술 사례
    • MVPGS: 학습 기반 MVS(Multi-view Stereo)로 초기 3DGS 포인트 클라우드 생성 후 pseudo-view로 최적화
    • PR3DGS: pseudo-view 정규화를 통해 과적합 방지 및 신뢰성 있는 NVS 구현
    • FlowR: 희소 뷰에서 생성된 pseudo-view를 활용해 재구성 품질 향상

아무도 하지 않는 것은 어떤 이유가 있어서인가? 학교 VRclassroom의 멀티뷰 카메라는 눈대중으로 비슷한 간격(약30cm)으로 총 20대가 설치되어 있다. 취득은 할 수 있지만, 카메라 간 간격이 넓은 편이라 취득 전부터 좋은 3D 렌더링 결과를 기대하지 못하는 원인이 되기도 한다. 실제 산업 환경에서는 카메라 수가 제한적이고, 여러 대를 밀착하여 설치하는 것도 한계가 있기 때문에 물리적으로 카메라 간 거리가 떨어져 있어도 이를 극복할 수 있는 해결 방법을 찾고 적용하고자 한다. 이에 부수적으로 VRclassroom에서 6DoF 강의 콘텐츠 취득이 가능하면 최고다. 언제나 많은 인원이 투입되는 것도 한계점이 될 수 있기 때문에 1~2명의 연구원 혹은 일반인이 취득 가능하도록 강력하지만 컴팩트한 캡처링 프로세스를 희망한다. (in the wild)

카메라 성능에 한계가 있어도, 조명이 고르게 퍼져있지 않아도, 너무 밝거나 어두워도, 촬영 객체 및 환경이 복잡해도, Non-Lambertian surface 이 많아도, 객체의 움직임의 방향과 속도에 상관 없이, 아티팩트 발생 없이, 색감과 질감이 잘 드러나게, 실내외 상관 없이, 취득 규모와 상관 없이 SW적, HW적 취득 노하우와 기술을 쌓는 것이 필요하다.

[선배의 노하우] 일반적으로 카메라 간격이 크면 멀티뷰 캡쳐링시 랜더링 품질이 떨어진다. 따라서 최대한 카메라를 밀착시켜 찍는 것이 좋다. 하지만 카메라의 어쩔 수 없는 물리적 특성으로 1cm의 간격도 멀다고 판단하는 실정이다. 그래서 novel view synthesis 후에도 view를 보간하여 한계를 극복하는 전략의 아이디어가 작년 연구실에서 나왔었다.

3D 렌더링 결과는 입력 데이터에 의존적인 것이 당연하다. 취득 시 데이터 품질이 좋지 않으면 3D reconstruction을 하여도 좋은 3D 렌더링 결과물을 기대하기 어렵기 때문에 렌더러의 성능을 평가하기가 매우 어렵다. 이 때문인지 논문 작성 시에는 직접 취득한 데이터셋으로 연구하기 보다는 잘 알려진 데이터셋, 표준적인 데이터셋을 선호하는 경향이 있어 보인다. 공정한 비교, reproducibility 확보, reviewer 친화적이기 때문이다. 자체 데이터셋을 사용할 경우 변수 통제가 불가능하여 논문 신뢰도에 오히려 마이너스가 될 수 있다. 그러나 공개 데이터셋의 한계도 존재한다. dynamic scene 부족, lighting variation 부족 등이 있다. 이미 AI 학습을 위한 양질의 dataset이 부족하여 계속 만들어야 하는 상황에서 어렵지만 공개 데이터셋을 만드는 것은 매력적이라 생각된다.

  • train 데이터셋에 조도, 광원의 방향, 그림자 패턴에 변화가 없으면 학습된 모델이 lighting-invariant 하지 못한 채 over fitting 가능성이 있다.
  • 실제 문제점
    • novel view synthesis 중 non-lambertian surface에 광택 반응을 잘 못 잡음
    • dynamic lighting 환경에서는 shadow consistency가 깨짐
    • 실외 촬영에서는 시간대/날씨 변화 → 기존 모델이 불안정하게 작동함
    • 조명 위치에 따른 색감과 질감 재현의 어려움
    • 한 장면에서 다양한 조명 상태로 촬영된 데이터의 부재

🧠 논문 예시

  1. Ref-NeRF (CVPR 2022) “Previous NeRF-based methods assume consistent lighting, which limits their applicability to real-world scenes where lighting varies with viewpoint.”
  2. 3DGStream (arXiv 2024) “To robustly reconstruct dynamic scenes, our method must handle lighting variation, motion blur, and occlusions, which are rarely present in synthetic datasets.”

수년 동안 축적된 일상 영상이 참 많은데 6DoF 영상의 학습 데이터로 쓸 수 없을까? (^^; 일반 사진은 보통 FOV, 포즈, 깊이 정보가 없음) > 이미 연구가 있구나!

  • 6DoF(6 Degrees of Freedom) 학습 데이터 조건: 3D 위치(x,y,z) + 시선 방향(yaw, pitch, roll)까지 모두 고려된 3차원 공간 기반 시점 이동 가능 영상
  • 정확한 카메라 포즈(camera pose): 시점(viewpoint)의 위치 및 방향 정보
  • 멀티뷰 or 동영상에서의 시점 추적: 프레임 간 움직임을 바탕으로 장면 구조 추정
  • 깊이 정보 or scene geometry: 단일 사진만으로는 깊이/입체감 추정 어려움
  • 조명 정보 또는 조명 정규화: 시점 이동에 따라 광원 반응이 달라지므로

그럼 어떻게?

  • 방법 1: Structure-from-Motion (SfM) / COLMAP
    • 여러 장의 사진이나 영상을 이용해서 카메라 위치 및 sparse point cloud를 복원
    • NeRF나 3DGS 초기 입력으로 활용 가능
  • 방법 2: 단일 이미지에서의 Depth 추정
    • Monocular Depth Estimation으로 가짜 depth 생성
    • 정확도는 낮지만, view synthesis pre-training에 쓸 수 있음
  • 방법 3: SLAM 기반 포즈 추정
    • 영상(특히 스마트폰 동영상)을 사용해서 Visual SLAM으로 카메라 trajectory 획득

Leave a comment