윤제로의 제로베이스

InfoVAE: Information Maximizing Variational Autoencoders 본문

Self Paper-Seminar/VAE

InfoVAE: Information Maximizing Variational Autoencoders

윤_제로 2022. 10. 19. 12:10

InfoVAE: Information Maximizing Variational Autoencoders

 

VAE

Generative model의 목적은 log likelihood 최대화 이다.

이 때 위 수식은 intractable하다. 그래서 p(x)를 직접 사용하지 않고 q(z|x)를 통해서 lowerbound를 maximize하는 방식으로 대체한다.

 

VAE에 대한 자세한 이해는 아래 글로 이동하세요!

https://yoon-zero.tistory.com/m/41

 

Variational Autoencoders: VAE

Auto-Encoder Auto-Encoder란 input image를 가장 잘 표현하는 compressed representation을 찾기 위한 Encoder학습 모델이다. Variational Auto-Encoder Auto-Encoder의 주 목적은 Encoder를 잘 학습하는 것이었다면 Variational Auto-E

yoon-zero.tistory.com

 

VAE에서 사용하는 Lowerbound를 ELBO라고 부른다.

ELBO 수식을 살펴보면 아래와 같다.

 

위 수식을 사용하여 ELBO를 다시 쓰면 아래와 같이 표현할 수 있다.

 

VAE의 Problem

1) Amortized inference failures

ELBO 최적화의 목표

  • Capturing p_D(x)
  • Performing correct amortized inference q(z|x)

즉 다시 말해서.

 

  • p_D(x)와 p_\theta(x), data distribution과 model distribution
  • q(z|x)와 p(z|x), variational posterior과 true posterior

위  두 가지의 KL Divergence르 최소화 하고 있는 것이다.

이때 발생하는 문제가 2가지가 있는데

 

  • Inherent properties of the ELBO objective : q(z|x)가 부정확하더라도 최대화 될 수 있음
  • Implicit modeling bias : x의 차원이 z의 차원보다 높기 때문에 최적화 수행시 bias가 됨.

1-1)  Good ELBO values do not imply accurate inference

ELBO는 log likelihood reconstruction term regularization term으로 나눌 수 있다.

reconstruction term은 inferred latent variable z~q(z|x)로부터 obsrving data poinit인 x의 loglikelihood를 최대화 한다.

x1~xN으로 부터 q(z|x_i)와 q(z|x_j)가 disjoint support를 갖는 distribution이라면 p_\theta(x|z)는 q(z|x_i)로 부터 학습할 때 x_i에 집중되어 있는 분포를 배우게 되는 문제가 발생한다.

이로 인해 p_\theta(x|z)는 Dirac delta distribution을 따라가는 경향이 발생되기도 하는데, 이말은 즉 부적절한 z로부터 학습이 되어도 reconstruction term은 무한대로 간다는 이야기다.

1-2) Modeling bias

ELBO가 x에 대한 error term이 더 dominant 하다.

예를 들어 N(0,I)와 N(e,I)가 있을 떄 둘의 KL-Divergence는 KL(N(0,I), N(e,I)) = ne^2/2가 된다.

보통 x가 z보다 ㅋ고차원이기 때문에 x의 오차를 줄이는 것이 효과적이게 된다.

즉 z가 희생되는 경향이 나타날 수 있게 된다.

이로 인해 inference의 성능 약화와 overfitting이 발생될 수 있다.

2) The information preference property

z에 상관 없이 학습된 p_\theta(x|z)가 동일하다. 

이는 즉 의미 있는 latent variable 찾는 목적 달성에 실패 했다는 이야기이다.

latent variable z를 활용하지 않아도 0으로 최적화가 가능하다는 말이 된다.

 

InfoVAE

결국 InfoVAE의 목표는 두가지 이다.

1) Scaling parameter lamda를 통해 x에 쏠리는 문제를 해결

2) Mutual information maximization term을 추가함으로써 x와 z 사이의 연관성 문제를 해결

 

InfoVAE objective

InfoVAE의 경우 여러 모델들을 한 번에 사용할 수도 있다.

  • alpha=0, lamda=1 : 기존의 ELBO
  • lamda>0, alpha+lamda-1=0, KL-Divergence: beta-VAE
  • alpha=1, lamda=1, JensenShannon divergence: Adversarial Autoencoder