Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- paper review
- 리눅스
- Computer Vision
- Neural Radiance Field
- panoptic nerf
- NERF
- CVPR2023
- docker
- 논문리뷰
- 논문
- ICCV 2021
- panoptic segmentation
- Vae
- CVPR
- linux
- 경희대
- Deep Learning
- ICCV
- 2022
- IROS
- 융합연구
- Paper
- pytorch
- 파이토치
- NeRF paper
- 논문 리뷰
- GAN
- 딥러닝
- Semantic Segmentation
- Python
Archives
- Today
- Total
윤제로의 제로베이스
워드 임베딩(Word Embedding) 본문
02. 워드 임베딩(Word Embedding)
워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 것을 말합니다. 워드 임베딩은 단어를 밀집 표현으로 변환하는 방법을 말합니다. 이번 챕터에서는 희소 표현, ...
wikidocs.net
워드 임베딩(Word Embeddng)은 단어를 벡터로 표현하는 것이다.
1. 희소 표현(Sparse Representation)
벡터 또는 행렬의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 한다.
원-핫 벡터는 희소 벡터이다.
이러한 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점이다.
이 표현은 공간적 낭비를 불러일으킨다.
또한 벡터간 유사도를 표현할 수 없다는 점도 단점이다.
2. 밀집 표현(Dense Representation)
밀집 표현은 벡터의 차원을 단어 집합의 크기로 상정하지 않는다.
사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춘다.
이 과정에서 0과 1만 가진 값이 아니라 실수값을 가지게 된다.
3. 워드 임베딩(Word Embedding)
단어를 밀집 벡터의 형태로 표현하는 방법을 워드 임베딩(Word Embedding)이라고 한다.
이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터라고 한다.
워드 임베딩 방법론은 LSA, Word2Vec, FastText, Glove 등이 있다.
파이토치에서 제공하는 nn.embedding()는 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 뒤에, 인공 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용한다.
원-핫 벡터 | 임베딩 벡터 | |
차원 | 고차원(단어 집합의 크기) | 저차원 |
다른 표현 | 희소 벡터의 일종 | 밀집 벡터의 일종 |
표현 방법 | 수동 | 훈련 데이터로부터 학습함 |
값의 타입 | 1과 0 | 실수 |
'Background > Pytorch 기초' 카테고리의 다른 글
글로브(GloVe) (0) | 2022.01.26 |
---|---|
워드투벡터(Word2Vec) (1) | 2022.01.26 |
NLP에서의 원-핫 인코딩(One-hot encoding) (0) | 2022.01.19 |
토치텍스트(Torchtext)의 batch_first (0) | 2022.01.19 |
토치텍스트 튜토리얼(Torchtext tutorial) 한국어 (0) | 2022.01.19 |