일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- IROS
- 논문
- 경희대
- CVPR2023
- GAN
- Computer Vision
- pytorch
- 딥러닝
- Deep Learning
- panoptic segmentation
- ICCV
- ICCV 2021
- Semantic Segmentation
- 융합연구
- 2022
- linux
- 논문 리뷰
- 리눅스
- NERF
- 파이토치
- docker
- paper review
- panoptic nerf
- Vae
- 논문리뷰
- CVPR
- NeRF paper
- Paper
- Neural Radiance Field
- Python
- Today
- Total
윤제로의 제로베이스
Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene Segmentation 본문
Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene Segmentation
윤_제로 2023. 5. 1. 16:06https://fuxiao0719.github.io/projects/panopticnerf/
Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene Segmentation
Abstract Panoptic NeRF obtains per-pixel 2D semantic and instance labels from easy-to-obtain coarse 3D bounding primitives. --> Large-scale training data with high-quality annotations is critical for training semantic and instance segmentation models. Unfo
fuxiao0719.github.io
오늘 간단하게 요즘 주로 관심을 갖고 있는 Panoptic NeRF에 대해 다룰 예정이다.
이 논문은 사실 완전한 Semantic Segmentation이라기 보다는 3d-to-2d label transfer에 NeRF를 썼다고 보는게 더 맞지만 일단 이 부분을 좀 간단하게 훑어보려고 한다.
Introduction
이 3d-to-2d label transfer를 하려는 이유는 라벨링이 아주아주 힘들기 때문이다.
3d 라벨링 보다도 2d 라벨링이 힘들다. point cloud를 활용해서 3d 라벨링을 하는 것은 사실 백그라운드와 물체를 분리해내기가 비교적 쉽다. 명확하게 다르게 드러나기 때문이다.
그러나 2d의 경우엔 말이 달라진다. 배경이고 object고 모두 다같이 한 차원에 존재하기 때문에 분리해내기가 힘들기 때문이다..
그래서 이걸 만들었다ㅏ... 정도로 이해하면 될 것 같다.
Method
overview
overview를 보자면 위의 그림이다.
input으로 3가지가 들어가게 된다.
rgb 2d image와 3d bounding primitives와 noisy 2d prediction이 들어가게 된다.
여기서 3d bounding primitives는 고정되어 변하지 않을 특성이고, noisy 2d prediction 같은 경우에는 다른 네트워크를 통해 rough하게 prediction 한 결과이다.
위 논문에서는 PSPNet을 optimize 하여 prediction에 사용하였다고 한다.
Dual Semantic Fields
NeRF를 사용한 segmentation을 하기 위해서 NeRF의 구조를 그대로 가져오되, semantci field를 하나 추가하게 된다.
위의 구조 처럼 기존의 NeRF에다가 view independence하게 learned semantic field를 통해 각 point에 대한 semantic segmentation을 진행하는 것이다.
기존의 NeRF 모델은 위와 같다.
Loss function
이러한 Panoptic NeRF를 훈련하는 것은 결국 Loss function일 것이다. NeRF도 결국엔 MLP이기 때문에...
그래서 여기서도 Loss function에 대한 부분이 중요하게 작용한다.
첫번째로는 Semantically-Guided Geometry Optimization이다.
이를 진행하는 이유는 네트워크 학습하는 중에 network가 cheating을 하여 geometry를 업데이트하는것이 아니라 label을 바꿔버릴 수 있는 점을 고려한 것이다.
아랫줄이 잘못된 예시인데, 앞서 말했듯이 우리는 3d premitive를 가지고 있다.
이 부분의 정보는 바뀌어서는 안되는 부분이다. 왜냐면 이것은 ground true 값이기 때문이다!!!
근데 만약 learnable 하게 바꾼다면 이 부분이 바뀔 가능성이 다분하다. 그렇기 때문에 learnable하지 않게 guiding 하여서 학습하는 것이다. 그래서 오직 gemotric한 부분 즉 density만을 학습하도록 바꾸는 것이라 생각하면 될 것이다.
위와 같이 되는 것을 막으려는 것이다...
loss는 다음과 같다.
- S* : Corresponding pweudo 2D ground truth
- S : Learned Semantic Field
- s^ : fiexd one-hot categorical distribution
- u(r)의 경우 S*(r)이 어떠한 bounding을 지나가면 1이 되고 아니면 0으로 set이 된다.
Total Loss의 경우는 다음과 같다.
'Self Paper-Seminar > NeRF' 카테고리의 다른 글
pixelNeRF: Neural Radiance Fields from One or Few Images (1) | 2023.06.10 |
---|---|
Instance Neural Radiance Field (0) | 2023.05.01 |
Panoptic NeRF (0) | 2023.04.26 |
Learning Object-Compositional Neural Radiance Field for Editable Scene Rendering(ICCV 2021) (0) | 2023.04.02 |
GNeRF: GAN-based Neural Radiance Field without Posed Camera(ICCV 2021) (0) | 2023.04.02 |