[WeeklyLabSeminar] DASS: Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly Training for 4D Reconstruction

논문 등 자료를 많이 읽어야 하는 때 / 마음 안정과 밝음

Abstract:

The recent development of 3D Gaussian Splatting (3DGS) has led to great interest in 4D dynamic spatial reconstruction from multi-view visual inputs.

최근 3D Gaussian Splatting(3DGS)의 발전으로 멀티뷰 시각 입력을 통한 4D 동적 공간 재구성에 대한 큰 관심이 생겨났습니다.

  • 3D Gaussian Splatting (3DGS): 3차원 공간에서 가우시안 분포를 사용하여 장면을 표현하고 렌더링하는 기술.
  • 4D dynamic spatial reconstruction: 시간에 따라 변하는 3차원 공간 정보를 재구성하는 것, 여기서 4D는 3차원 공간에 시간 축을 추가한 개념.
  • multi-view visual inputs: 여러 시점에서 촬영된 영상 또는 이미지 데이터.

While existing approaches mainly rely on processing full-length multi-view videos for 4D reconstruction, there has been limited exploration of iterative online reconstruction methods that enable on-the-fly training and per-frame streaming.

기존 접근법은 주로 전체 길이의 멀티뷰 비디오를 처리하여 4D 재구성을 수행하지만, 실시간 학습과 프레임별 스트리밍을 가능하게 하는 반복적 온라인 재구성 방법에 대한 탐색은 제한적이었습니다.

  • full-length multi-view videos: 전체 길이의 여러 시점에서 촬영된 비디오.
  • iterative online reconstruction methods: 반복적인 온라인 재구성 방법, 데이터를 순차적으로 처리하여 점진적으로 결과를 개선하는 방식.
  • on-the-fly training: 실시간으로 데이터를 처리하고 학습하는 것.
  • per-frame streaming: 각 프레임마다 데이터를 스트리밍하는 것.

Current 3DGS-based streaming methods treat the Gaussian primitives uniformly and constantly renew the densified Gaussians, thereby overlooking the difference between dynamic and static features and also neglecting the temporal continuity in the scene.

현재의 3DGS 기반 스트리밍 방법은 가우시안 프리미티브를 균일하게 취급하고, 고밀도 가우시안을 지속적으로 갱신하여 동적 및 정적 특징의 차이를 간과하고 장면의 시간적 연속성을 무시합니다.

  • Gaussian primitives: 가우시안 분포를 기반으로 한 기본 요소 또는 프리미티브.
  • densified Gaussians: 고밀도로 배치된 가우시안 분포들.
  • dynamic and static features: 동적인 특징(시간에 따라 변하는 요소)과 정적인 특징(변하지 않는 요소).
  • temporal continuity: 시간적 연속성, 시간에 따른 일관성.

To address these limitations, we propose a novel three-stage pipeline for iterative streamable 4D dynamic spatial reconstruction.

이러한 한계를 해결하기 위해, 우리는 반복 가능한 스트리밍 4D 동적 공간 재구성을 위한 새로운 3단계 파이프라인을 제안합니다.

Our pipeline comprises a selective inheritance stage to preserve temporal continuity, a dynamics-aware shift stage for distinguishing dynamic and static primitives and optimizing their movements, and an error-guided densification stage to accommodate emerging objects.

우리의 파이프라인은 시간적 연속성을 유지하기 위한 선택적 상속 단계, 동적 및 정적 프리미티브를 구별하고 그 움직임을 최적화하기 위한 동적 인식 이동 단계, 그리고 새롭게 등장하는 객체를 수용하기 위한 오류 기반 고밀화 단계를 포함합니다.

  • selective inheritance stage: 선택적 상속 단계, 이전 단계의 일부 정보를 선택적으로 가져오는 과정.
  • dynamics-aware shift stage: 동적 요소를 인식하여 이동을 조정하는 단계.
  • error-guided densification stage: 오류를 기반으로 고밀도로 데이터를 추가하는 단계.
  • emerging objects: 새롭게 나타나는 객체들.

Our method achieves state-of-the-art performance in online 4D reconstruction, demonstrating a 20% improvement in on-the-fly training speed, superior representation quality, and real-time rendering capability.

우리의 방법은 온라인 4D 재구성에서 최첨단 성능을 달성하여, 실시간 학습 속도에서 20% 향상, 우수한 표현 품질, 그리고 실시간 렌더링 능력을 보여줍니다.

Project page: https://www.liuzhening.top/DASS

    1. Introduction

    The rapid advancements of stereoscopic cameras and rendering techniques have expanded human visual perception from 2D planes to spatial 3D representations.

    스테레오스코픽 카메라와 렌더링 기술의 급속한 발전은 인간의 시각적 인식을 2D 평면에서 공간적 3D 표현으로 확장시켰습니다.

    This evolution has paved the way for 4D dynamic free-viewpoint video (FVV) reconstruction by integrating the temporal dimension, which unlocks substantial potential for a wide range of applications, including augmented/virtual reality (AR/VR) and holographic communications.

    이러한 진화는 시간적 차원을 통합하여 4D 동적 자유 시점 비디오(FVV) 재구성의 길을 열었으며, 이는 증강/가상 현실(AR/VR) 및 홀로그램 통신을 포함한 다양한 응용 분야에 상당한 잠재력을 제공합니다.

    Nevertheless, constructing 4D dynamic FVVs from multi-view 2D inputs remains a significant challenge.

    그럼에도 불구하고, 멀티뷰 2D 입력으로부터 4D 동적 FVV를 구성하는 것은 여전히 중요한 도전 과제입니다.

    In recent years, Neural Radiance Field (NeRF) has emerged as a promising approach for spatial representation and reconstruction.

    최근 몇 년간, Neural Radiance Field (NeRF)는 공간 표현 및 재구성을 위한 유망한 접근법으로 부상하였습니다.

    NeRFs optimize neural networks to estimate color and density based on spatial position and viewpoint for 3D reconstruction using captured multi-view inputs.

    NeRF는 캡처된 멀티뷰 입력을 사용하여 3D 재구성을 위해 공간적 위치와 시점을 기반으로 색상과 밀도를 추정하도록 신경망을 최적화합니다.

    The extensions of NeRFs to dynamic scene reconstruction have demonstrated significant effectiveness, yielding photo-realistic novel view synthesis results.

    NeRF의 동적 장면 재구성으로의 확장은 상당한 효과를 보여주었으며, 사진과 같은 새로운 시점 합성 결과를 도출하였습니다.

    However, the efficiency of NeRF-based methods is severely hindered by their low rendering speed due to the dense queries of neural networks.

    그러나 NeRF 기반 방법의 효율성은 신경망의 밀집된 쿼리로 인해 낮은 렌더링 속도로 크게 저해됩니다.

    To address this issue, 3D Gaussian Splatting (3DGS) has been proposed as a solution to provide high-quality reconstruction and real-time rendering capabilities, leveraging its flexible point-based primitive design and tile-based differentiable rasterization.

    이 문제를 해결하기 위해, 3D Gaussian Splatting (3DGS)가 유연한 포인트 기반 프리미티브 디자인과 타일 기반 미분 가능한 래스터화를 활용하여 고품질 재구성과 실시간 렌더링 기능을 제공하는 솔루션으로 제안되었습니다.

    Subsequent research efforts have been dedicated to applying Gaussian Splatting for 4D dynamic reconstruction, with representative works integrating the time dimension into each Gaussian primitive or learning spatio-temporal deformations.

    후속 연구들은 Gaussian Splatting을 4D 동적 재구성에 적용하는 데 주력하였으며, 대표적인 작업으로는 시간 차원을 각 가우시안 프리미티브에 통합하거나 시공간 변형을 학습하는 것이 있습니다.

    Despite these advancements, most NeRF-based and 3DGS-based methods for dynamic spatial reconstruction rely on full-length multi-view videos, i.e., non-causal inputs.

    이러한 발전에도 불구하고, 동적 공간 재구성을 위한 대부분의 NeRF 기반 및 3DGS 기반 방법은 전체 길이의 멀티뷰 비디오, 즉 비인과적 입력에 의존합니다.

    This reliance overlooks applications such as live streaming, where only per-frame causal inputs are available and on-the-fly training is required.

    이러한 의존성은 프레임별 인과적 입력만 사용 가능하고 실시간 학습이 필요한 라이브 스트리밍과 같은 응용 프로그램을 간과합니다.

    This scenario is formalized as iteratively reconstructing 3D space at the current frame based on previous reconstruction caches and current multi-view inputs.

    이 시나리오는 이전 재구성 캐시와 현재 멀티뷰 입력을 기반으로 현재 프레임에서 3D 공간을 반복적으로 재구성하는 것으로 공식화됩니다.

    The key challenges in this context are two-fold: (i) how to model temporal variations between frames in 3D space and (ii) how to facilitate the optimization convergence from the previous frame to the current one.

    이러한 맥락에서 주요 과제는 두 가지로 나눌 수 있습니다: (i) 3D 공간에서 프레임 간 시간적 변화를 어떻게 모델링할 것인가, (ii) 이전 프레임에서 현재 프레임으로의 최적화 수렴을 어떻게 촉진할 것인가.

    Critical metrics in this scenario include both the quality of novel view synthesis and streaming time efficiency.

    이 시나리오에서 중요한 지표는 새로운 시점 합성의 품질과 스트리밍 시간 효율성을 모두 포함합니다.

    One intuitive solution is to directly optimize a new set of 3DGS primitives for each frame.

    하나의 직관적인 해결책은 각 프레임에 대해 새로운 3DGS 프리미티브 세트를 직접 최적화하는 것입니다.

    However, tuning and storing all 3DGS parameters for each frame results in significant time costs and storage overhead.

    그러나 각 프레임마다 모든 3DGS 파라미터를 조정하고 저장하는 것은 상당한 시간 비용과 저장 공간의 부담을 초래합니다.

    A representative baseline, 3DGStream, efficiently optimizes the transformation of Gaussian positions and rotation quaternions, and adaptively densifies a small number of new Gaussians.

    대표적인 기준 방법인 3DGStream은 가우시안 위치와 회전 사원수의 변환을 효율적으로 최적화하고, 소수의 새로운 가우시안을 적응적으로 고밀도로 배치합니다.

    Although this method achieves fast and high-quality results, it overlooks the difference between inherent dynamics and statics in the scene, instead treating the whole scene uniformly.

    이 방법은 빠르고 고품질의 결과를 달성하지만, 장면 내의 고유한 동적 요소와 정적 요소의 차이를 간과하고 전체 장면을 균일하게 처리합니다.

    When modeling movements in the space, dynamic and static components showcase different deformation characteristics.

    공간에서의 움직임을 모델링할 때, 동적 요소와 정적 요소는 서로 다른 변형 특성을 나타냅니다.

    For instance, moving objects, such as humans or animals, may display substantial dynamics, with the Gaussian properties like position experiencing significant offsets.

    예를 들어, 인간이나 동물과 같은 움직이는 객체는 상당한 동적 특성을 보이며, 위치와 같은 가우시안 속성이 큰 변위를 겪을 수 있습니다.

    In contrast, static background and stationary objects show minimal movement, where Gaussians remain unchanged or undergo slight jitters.

    반면에, 정적인 배경과 고정된 객체는 거의 움직임이 없으며, 가우시안은 변하지 않거나 약간의 흔들림만을 겪습니다.

    Besides, in most natural scenes, only a small subset of Gaussian primitives corresponds to dynamic areas.

    게다가, 대부분의 자연 장면에서 동적 영역에 해당하는 가우시안 프리미티브는 소수에 불과합니다.

    Consequently, uniformly modeling the transformation of all Gaussians results in a sub-optimal solution.

    따라서, 모든 가우시안의 변환을 균일하게 모델링하는 것은 최적 이하의 솔루션을 초래합니다.

    Moreover, renewing the added Gaussian primitives for each frame fails to fully exploit the temporal continuity.

    게다가, 각 프레임마다 추가된 가우시안 프리미티브를 새로 생성하는 것은 시간적 연속성을 충분히 활용하지 못합니다.

    Based on these insights, we propose a dynamics-aware 3DGS streaming paradigm for on-the-fly 4D reconstruction, termed DASS, where the optimization of each frame comprises three stages: inheritance, shift, and densification.

    이러한 통찰을 바탕으로, 우리는 DASS라고 불리는 실시간 4D 재구성을 위한 동적 인식 3DGS 스트리밍 패러다임을 제안하며, 각 프레임의 최적화는 상속, 이동, 고밀화의 세 단계로 구성됩니다.

    Specifically, considering the temporal continuity, the newly added Gaussians in the previous frame are likely to persist in subsequent frames.

    특히, 시간적 연속성을 고려할 때, 이전 프레임에서 새로 추가된 가우시안은 이후 프레임에서도 지속될 가능성이 높습니다.

    Therefore, instead of renewing these added Gaussians for each frame and optimizing them from scratch, we propose a selective inheritance mechanism to adaptively include a portion of the added Gaussians from the previous frame using a learnable selection mask.

    따라서, 각 프레임마다 이러한 추가된 가우시안을 새로 생성하고 처음부터 최적화하는 대신, 학습 가능한 선택 마스크를 사용하여 이전 프레임에서 추가된 가우시안의 일부를 적응적으로 포함하는 선택적 상속 메커니즘을 제안합니다.

    Then, in the shift stage, we employ 2D dynamics-related prior optical flow and Gaussian segmentation to calculate a per-Gaussian dynamics mask.

    그런 다음, 이동 단계에서는 2D 동적 관련 사전 옵티컬 플로우와 가우시안 세분화를 활용하여 각 가우시안에 대한 동적 마스크를 계산합니다.

    Subsequently, we assign grid-based layers to learn the offsets of dynamic and static Gaussians with different representation complexities.

    이후, 그리드 기반 레이어를 할당하여 동적 및 정적 가우시안의 오프셋을 서로 다른 표현 복잡도로 학습합니다.

    In the densification stage, apart from the Gaussian offsets that present the deformations of existing objects, new Gaussian primitives are introduced to accommodate newly emerging objects.

    고밀화 단계에서는 기존 객체의 변형을 나타내는 가우시안 오프셋 외에도, 새롭게 등장하는 객체를 수용하기 위해 새로운 가우시안 프리미티브를 도입합니다.

    In this stage, both positional gradients and error maps from the shift stage serve as criteria for identifying regions that require densification.

    이 단계에서는 이동 단계에서 얻은 위치 그라디언트와 오류 맵이 고밀화가 필요한 영역을 식별하는 기준으로 사용됩니다.

    The inheritance stage in the subsequent frame will process these added Gaussians, thereby mitigating errors in the shift stage and reducing the optimization burden in the densification stage.

    이후 프레임의 상속 단계에서는 이러한 추가된 가우시안을 처리하여 이동 단계의 오류를 완화하고 고밀화 단계의 최적화 부담을 줄입니다.

    This three-stage pipeline effectively captures dynamic spatial components and exploits the temporal correlation, providing fast on-the-fly training and high-fidelity streaming.

    이러한 3단계 파이프라인은 동적 공간 요소를 효과적으로 포착하고 시간적 상관관계를 활용하여 빠른 실시간 학습과 고충실도의 스트리밍을 제공합니다.

    Our main contributions are summarized as follows:

    We propose a novel three-stage pipeline for 4D dynamic spatial reconstruction that supports on-the-fly training and per-frame streaming. Our method builds on causal inputs and eliminates the need for full-length multi-view videos, thereby enhancing the practicability.

    우리는 실시간 학습과 프레임별 스트리밍을 지원하는 4D 동적 공간 재구성을 위한 새로운 3단계 파이프라인을 제안합니다. 우리의 방법은 인과적 입력을 기반으로 하며, 전체 길이의 멀티뷰 비디오의 필요성을 제거하여 실용성을 향상시킵니다.

    Our approach seamlessly integrates the three stages to optimize the reconstruction quality. By selectively inheriting newly introduced Gaussians from the preceding frame, effectively distinguishing dynamic primitives to allocate optimization emphasis, and enhancing areas with weak reconstruction using gradient information and optimization errors, our method ensures high-fidelity dynamic spatial reconstruction.

    우리의 접근법은 세 단계를 원활하게 통합하여 재구성 품질을 최적화합니다. 이전 프레임에서 새로 도입된 가우시안을 선택적으로 상속하고, 동적 프리미티브를 효과적으로 구분하여 최적화 강조를 할당하며, 그라디언트 정보와 최적화 오류를 사용하여 재구성이 약한 영역을 강화함으로써, 우리의 방법은 고충실도의 동적 공간 재구성을 보장합니다.

    Extensive experiments demonstrate the superiority of our method in multiple aspects, including a 20% improvement in online training speed, superior reconstruction quality, and real-time rendering capability.

    광범위한 실험을 통해 우리의 방법이 온라인 학습 속도에서 20% 향상, 우수한 재구성 품질, 그리고 실시간 렌더링 기능 등 여러 측면에서 우수함을 입증합니다.

    2. Related Works
    2.1. Neural Static Scene Representation

    In recent years, reconstructing 3D representations from 2D plane visual inputs has experienced significant advancements, driven by the development of NeRF.

    최근 몇 년간, 2D 평면 시각 입력으로부터 3D 표현을 재구성하는 기술은 NeRF의 발전에 의해 상당한 진보를 이루었습니다.

    NeRF-based methods represent spatial scenes by optimizing multilayer perceptrons and generate novel views through volume rendering.

    NeRF 기반 방법은 다층 퍼셉트론을 최적화하여 공간 장면을 표현하며, 볼륨 렌더링을 통해 새로운 시점을 생성합니다.

    Subsequent research has enhanced both the training and rendering efficiency through grid-based designs.

    후속 연구들은 그리드 기반 설계를 통해 학습 및 렌더링 효율성을 더욱 향상시켰습니다.

    Nonetheless, NeRF-based approaches typically require dense ray tracing and struggle to fulfill high-speed rendering.

    그러나 NeRF 기반 접근법은 일반적으로 고밀도 광선 추적이 필요하며, 고속 렌더링을 수행하는 데 어려움을 겪습니다.

    Recently, 3D Gaussian Splatting has emerged to address these limitations by utilizing explicit unstructured scene representation while preserving point-based differentiable splatting rendering.

    최근에는 이러한 한계를 해결하기 위해 3D Gaussian Splatting이 등장하였으며, 이는 명시적이고 비구조적인 장면 표현을 사용하면서 포인트 기반 미분 가능 스플래팅 렌더링을 유지합니다.

    This approach achieves real-time rendering speed and photorealistic quality.

    이 접근법은 실시간 렌더링 속도와 사실적인 품질을 달성할 수 있습니다.

    Based on these advancements, subsequent studies have further enhanced the representation efficiency, developed feed-forward reconstruction models, and expanded applications in understanding and editing.

    이러한 발전을 바탕으로, 후속 연구들은 표현 효율성을 더욱 향상시키고, 피드포워드 재구성 모델을 개발하며, 장면 이해 및 편집과 같은 응용 분야를 확장하였습니다.

    • Feed-forward Reconstruction Models: 피드포워드 재구성 모델로, 입력 데이터를 순차적으로 처리하여 출력을 생성하는 신경망 모델입니다.
    • Explicit Unstructured Scene Representation: 명시적 비구조적 장면 표현으로, 사전에 정의된 구조 없이 데이터를 직접적으로 표현하는 방법입니다.
    • Point-based Differentiable Splatting Rendering: 포인트 기반 미분 가능 스플래팅 렌더링으로, 점 단위로 데이터를 처리하며 미분 가능한 방식으로 이미지를 생성하는 렌더링 기법입니다.

    2.2 Neural Dynamic Scene Reconstruction (ing~)

    Leave a comment