윤제로의 제로베이스

MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo 본문

Self Paper-Seminar/NeRF

MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo

윤_제로 2023. 6. 21. 18:53

https://apchenstu.github.io/mvsnerf/

 

MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo

Optimization progress. We show results of our fine-tuning (top) and optimizing a NeRF (bottom) with different time periods. Our 0-min result refers to the initial output from our network inference. Note that our 18-min results are already much better than

apchenstu.github.io

앞서서 sparse input nerf에 대한 논문을 찾아보다보니 Pixel NeRF와 같이 언급되는 논문이길래 한 번 찾아보게 되었다. PixelNeRF와 흡사한 점이 많아서 빠르게 훑어보려한다.

Architecture

  1. 각 이미지 마다 CNN feature를 추출하고 1개의 시점에 대해 multi sweeping plane으로 만든다. CNN feature를 해당 plane에 warping하여 cost volume을 설계한다.
  2. Neural encoding volume을 reconstruction하기 위해서 3D CNN을 사용하고 radiance field를 위해서 MLP를 사용한다.
  3. differentiable ray marching사용하여 rendering loss를 통한 end-to-end가 가능하도록 한다. 

1) Cost volume construction

Extracting image features : 2D CNN을 통해서 feature를 추출한다.

Warping feature maps : input 중 하나를 reference view로 지정한 후 reference view로 wraping한다.

Cost Volume : cost volume P는 sweeping plane D에 생성된다.

2) Radiance field reconstruction

3D CNN을 사용하여 2D image feature cost volume을 radiance field로 재구성한다. 

Neural encoding volume : image feature cost volume을 C-channel의 neural feature volume S로 변환하기 이ㅜ해서 3D CNN B를 학습한다. 여기서 feature를 downsampling하기 때문에 저해상도에 고주파 외관을 다시 reconstruction하는 것이 힘들어 진다.

Regressing volume preoperties : view direction으로 ray를 그렸을 때 그 위의특정 좌표 x에서의 neural feature인 S로부터 density와 view-dependent radiance r를 regression 하는 MLP A를 사용한다. 이때 MLP에 이미지에서의 pixel값이 input으로 들어가게 된다. 3D 좌표 x를 projection 했을 때 원본 이미지에 찍히는 pixel값을 MLP의 입력으로 넣는 것이다. 

 

3) Volume rendering and end-to-end training

Volume rendering의 경우 기존의 NeRF와 동일하게 설계하였다. 

4) Optimizing the neural encoding volume

하지만 여전히 3개의 입력만으로는 좋은 quality를 만드는 것은 어렵다. 그래서 추가로 많은 입력 데이터셋이 주어졌을 경우 Optimization하여 quality를 향상시킬 수 있다.

2D CNN, plane sweep warping, 3D CNN은 freeze한 채로 encoding volume S와 MLP만 fine tuning하는 방식으로 optimization한다. 

 

 

 

 

 

 

 

...

어려워서 제대로 이해를 못 한 것 같다..

추후에 다시 보강하는 걸로