ETRI 실감미디어연구실 다녀온 후기(2개월)

Gsplat 빌드 및 백서 작성, 1,2차 논문 세미나, Locality에 따른 가우시안 속성 비교 / mpeg 150차, ad-hoc 준비 /

Gsplat Build, License 이슈로 inria-3DGS 대신 open-source인 gsplat 사용

1차 논문 세미나 6개 논문 준비함, RDO, ELMGS, FAST FEEDFORWARD, SWIFT4D, 4DGS

2차 논문 세미나 1차 논문 일부 더 자세하게, Compression of 3DGS, SWinGS

사람, 실내, 실외 / 표준 / 디퓨전 지양

Locality-aware Gaussian Compression for- 서울대 논문

복셀 크기에 민감하구나

SH0차 :

SH1차 :

같은 크기의 복셀로 나타내면 가우시안이 생기지 않는 등 빈공간이 생기는 상황

OCTREE를 활용하면 좀 더 나은 결과를…

Dynamic scene reconstruction based on Gsplat: gsplat 기반 4dgs 기고서, time consistency를 유지하는 것을 중점으로 두었음, 개별 프레임을 학습하고, 다음 프레임 학습 시 이전 프레임의 ply를 입력으로 주고, gt로 현재 프레임의 이미지를 제공해 loss.backward – 일종의 체크포인트, 프레임 수가 많아질수록 noise가 너무 많아 psnr이 낮아짐 (ply, ckpt)

swings + 3dgstream 기반 window 방식의 학습 – gsplat 구현/ 위 문제를 해결하기 위해 frame을 묶어 window 별로 처리. window는 swings에서 제안한 것과 같이 optical flow에 따라 dynamic하게 조정, window의 첫번째 프레임을 기준 프레임으로 삼고, 1과 같은 방식으로 처리 후 window 간 time consistency를 줄이기 위해 다음 window의 첫번째 프레임을 개별적으로 학습 시킨 모델을 기준으로 이전의 기준 프레임에서 학습한 모델의 ssim(구조적 유사도)을 높이는 방식으로 time consistency 유지, 용량을 고려하지 않고 함, 동작이 빠르거나(크거나), 새로 물체가 등장하는 sequence에 대해서는 좋은 방법이 아님. 또한 윈도우 내에서도 여러 품질적 지표로 아쉬운 모습을 보임

왜 10000번을 학습시켰을까? 후에는 2000번

3dgs loss공식

픽셀 값과, ssim을 맞춰주려는 학습 과정

그런데 화질 손실이 많이 일어남 – 폐기

1-2 프레임만 윈도우에 들어가는 것 아닌가… 하는 문제가 생겨서

최종적으로 학습을 통해 일관성을 유지하는 것 보다, 초기에 공통된 데이터를 제공함으로 time consistency를 유지할 수 있을 것이라고 생각, window를 나누고 static, 16 각 window 내의 모든 콜맵 데이터를 하나로 합치고(다운샘플링), 이미지도 전부 입력으로 제공(batch_size=3), 전역적인 가우시안 canonical gaussian을 학습

학습된 canonical gaussian에 개별 프레임을 입력으로 해 학습. 초반에는 tracked(가우시안 개수 고정)으로 진행, 후반에는 un-tracked(고정 해제)로 해제하는 half-tracked 방식으로 진행

tracked – 가우시안 개수를 고정하여 학습한다, 이유는 무언가를 이루는 가우시안이 최대한 변하지 않기를 워하기 때문, adc 기능을 껐다?, gsplat 부분에서 default.py에서 클론 안시키고…, 얼음 시킴

16 프레임, 윈도우간 time conssitency가 잘 유지되었다. 배경이 잘 유지되었다.

trained opacity의 경우 존재하는데 안보이는 투명한 것이 중첩되면 빛나는 부분이 생겼다. / opacity를 0.5 / 움직임이 많아서 블러하게 보이는 것은 당연한 것임

Leave a comment