윤제로의 제로베이스

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (85)

윤제로의 제로베이스

순환 신경망(Recurrent Neural Network, RNN)

https://wikidocs.net/60690 01. 순환 신경망(Recurrent Neural Network, RNN) RNN(Recurrent Neural Network)은 시퀀스(Sequence) 모델입니다. 입력과 출력을 시퀀스 단위로 처리하는 모델입니다. 번역기를 생각해보면 입력은 번 ... wikidocs.net RNN은 시퀀스 모델이다. 입력과 출력을 시퀀스단위로 처리하는 모델이다. 1. 순환 신경망(Recurrent Neural Network, RNN) RNN은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 갖고 있다. RNN의 은닉층에서 활성화 함수를 통해 결과를 내보내는 역할을 하는 노드를 셀(c..

Background/Pytorch 기초 2022. 1. 26. 20:05

파이토치의 nn.Embedding()

https://wikidocs.net/64779 07. 파이토치(PyTorch)의 nn.Embedding() 파이토치에서는 임베딩 벡터를 사용하는 방법이 크게 두 가지가 있습니다. 바로 임베딩 층(embedding layer)을 만들어 훈련 데이터로부터 처음부터 임베딩 벡터를 학습 ... wikidocs.net 1. 임베딩 층은 룩업 테이블이다. 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 저웃 인코딩이 되어야 한다. 어떤 단어 -> 다멍에 부여된 고유한 정수값 -> 임베딩층 통과 -> 밀집 벡터 임베딩 층은 입력 정수에 대한 밀집 벡터로 맵핑하고 이 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련된다. 훈련 과정에서 단어는 모델을 풀고자 하는..

Background/Pytorch 기초 2022. 1. 26. 18:11

글로브(GloVe)

https://wikidocs.net/60858 06. 글로브(GloVe) 글로브(Global Vectors for Word Representation, GloVe)는 카운트 기반과 예측 기반을 모두 사용하는 방법론으로 2014년에 미국 스탠포드대 ... wikidocs.net 글로브(Global Vectors for Word Representations, GloVe)는 카운트 기반과 예측 기반을 모두 사용하는 방법론으로 2014년 미국 스탠포드대학에서 개발한 단어 임베딩 방법론이다. 기존의 카운트 기반의 LSA(Latent Semantic Analysis)와 예측 기반의 Word2Vec의 단점을 지적하며 이를 보완한다느 목적으로 나왔으며, 실제로도 Word2Vec만큼 뛰어난 성능을 보인다. 1. 기존 ..

Background/Pytorch 기초 2022. 1. 26. 14:40

워드투벡터(Word2Vec)

https://wikidocs.net/60854 03. 워드투벡터(Word2Vec) 앞서 원-핫 인코딩 챕터에서 원-핫 벡터는 단어 간 유사도를 계산할 수 없다는 단점이 있음을 언급한 적이 있습니다. 그래서 단어 간 유사도를 반영할 수 있도록 단어의 의미를 ... wikidocs.net 1. 희소 표현(Sparse Representation) 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(Sparse representation)이라고 한다. 하지만 이러한 표현 방법은 각 단어간 유사성을 표현할 수 없다는 단점이 있고, 이를 위한 대안으로 '의미'를 다차원 공간에 벡터화 하는 방법을 찾았고 이러한 방법을 분산 표현(distributed representation)이라고 한..

Background/Pytorch 기초 2022. 1. 26. 12:36

워드 임베딩(Word Embedding)

https://wikidocs.net/60852 02. 워드 임베딩(Word Embedding) 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 것을 말합니다. 워드 임베딩은 단어를 밀집 표현으로 변환하는 방법을 말합니다. 이번 챕터에서는 희소 표현, ... wikidocs.net 워드 임베딩(Word Embeddng)은 단어를 벡터로 표현하는 것이다. 1. 희소 표현(Sparse Representation) 벡터 또는 행렬의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 한다. 원-핫 벡터는 희소 벡터이다. 이러한 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점이다. 이 표현은 공간적 낭비를 불러일으킨다. ..

Background/Pytorch 기초 2022. 1. 19. 20:46

NLP에서의 원-핫 인코딩(One-hot encoding)

https://wikidocs.net/60853 01. NLP에서의 원-핫 인코딩(One-hot encoding) 컴퓨터 또는 기계는 문자보다는 숫자를 더 잘 처리 할 수 있습니다. 이를 위해 자연어 처리에서는 문자를 숫자로 바꾸는 여러가지 기법들이 있습니다. 원-핫 인코딩(One-ho ... wikidocs.net 단어 집합은 서로 다른 단어들의 집합이다. 원-핫 인코딩을 위해서는 가장 먼저 단어 집합을 만들어야한다. 텍스트의 모든 단어를 중복을 허용하지 않고 모아놓으면 이를 단어 집합이라고 한다. 그리고 단어 집합의 고유한 숫자를 부여한는 정수 인코딩을 한다. 텍스트에 단어가 총 5000개 존재한다면, 1번부터 5000번까지 인덱스를 부여하게 된다. 1. 원-핫 인코딩(One-hot encoding)..

Background/Pytorch 기초 2022. 1. 19. 20:31

토치텍스트(Torchtext)의 batch_first

https://wikidocs.net/65794 04. 토치텍스트(TorchText)의 batch_first 이번 챕터에서는 토치텍스트에서 배치퍼스트(batch_first)를 True로 한 경우와 False를 한 경우를 비교해보겠습니다. 이번 챕터는 토치텍스트 튜토리얼 챕터가 아니 ... wikidocs.net 1. 훈련 데이터와 테스트 데이터로 분리하기 import urllib.request import pandas as pd urllib.request.urlretrieve("https://raw.githubusercontent.com/LawrenceDuan/IMDb-Review-Analysis/master/IMDb_Reviews.csv", filename="IMDb_Reviews.csv") df = ..

Background/Pytorch 기초 2022. 1. 19. 19:48

토치텍스트 튜토리얼(Torchtext tutorial) 한국어

https://wikidocs.net/65348 03. 토치텍스트 튜토리얼(Torchtext tutorial) - 한국어 이번 챕터는 바로 앞 챕터인 토치텍스트 영어 데이터 챕터를 이미 진행했다고 가정하고 진행됩니다. ##**1. 형태소 분석기 Mecab 설치** ``` # Colab에 Me ... wikidocs.net 1. 형태소 분석기 Mecab 설치 # Colab에 Mecab 설치 !git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git %cd Mecab-ko-for-Google-Colab !bash install_mecab-ko_on_colab190912.sh 2. 훈련 데이터와 테스트 데이터 다운로드하기 import urllib...

Background/Pytorch 기초 2022. 1. 19. 19:38

토치 텍스트 튜토리얼(Torchtext tutorial) 영어

https://wikidocs.net/60314 02. 토치텍스트 튜토리얼(Torchtext tutorial) - 영어 파이토치(PyTorch)에서는 텍스트에 대한 여러 추상화 기능을 제공하는 자연어 처리 라이브러리 토치텍스트(Torchtext)를 제공합니다. 자연어 처리를 위해 토치텍스트가 ... wikidocs.net 토치텍스트가 제공하는 기능들은 다음과 같다. 파일 로드하기(File loading) : 다양한 포맷의 코퍼스를 로드한다. 토큰화(Tockenization) : 문장을 단어 단위로 분리한다. 단어 집합(Vocab) : 단어 집합을 만든다. 정수 인코딩(Integer encoding) : 전체 코퍼스의 단어들을 각각의 고유한 정수로 맵핑한다. 단어 벡터(Word Vector) : 단어 집합..

Background/Pytorch 기초 2022. 1. 19. 19:33

자연어 처리 전처리 이해하기

https://wikidocs.net/64517 01. 자연어 처리 전처리 이해하기 자연어 처리는 일반적으로 토큰화, 단어 집합 생성, 정수 인코딩, 패딩, 벡터화의 과정을 거칩니다. 이번 챕터에서는 이러한 전반적인 과정에 대해서 이해합니다. ##**1. ... wikidocs.net 1. 토근화(Tokenization) 주어진 텍스트를 단어 또는 문자 단위로 자르는 것을 토큰화라고 한다. en_text = "A Dog Run back corner near spare bedrooms" 1) spyCy 사용하기 import spacy spacy_en = spacy.load('en') def tokenize(en_text): return [tok.text for tok in spacy_en.tokenizer..

Background/Pytorch 기초 2022. 1. 19. 17:25

이전 Prev 1 ··· 3 4 5 6 7 8 9 Next 다음

목록전체 글 (85)

윤제로의 제로베이스

티스토리툴바