Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- linux
- Python
- IROS
- Computer Vision
- CVPR
- docker
- Neural Radiance Field
- ICCV 2021
- CVPR2023
- 파이토치
- panoptic nerf
- 논문리뷰
- Deep Learning
- 융합연구
- NERF
- Semantic Segmentation
- 리눅스
- Vae
- Paper
- panoptic segmentation
- 논문
- pytorch
- 경희대
- paper review
- 2022
- GAN
- 논문 리뷰
- NeRF paper
- ICCV
- 딥러닝
Archives
- Today
- Total
윤제로의 제로베이스
토치텍스트 튜토리얼(Torchtext tutorial) 한국어 본문
03. 토치텍스트 튜토리얼(Torchtext tutorial) - 한국어
이번 챕터는 바로 앞 챕터인 토치텍스트 영어 데이터 챕터를 이미 진행했다고 가정하고 진행됩니다. ##**1. 형태소 분석기 Mecab 설치** ``` # Colab에 Me ...
wikidocs.net
1. 형태소 분석기 Mecab 설치
# Colab에 Mecab 설치
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
2. 훈련 데이터와 테스트 데이터 다운로드하기
import urllib.request
import pandas as pd
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")
train_df = pd.read_table('ratings_train.txt') # 150000
test_df = pd.read_table('ratings_test.txt') # 50000
3. 필드 정의하기(torchtext.data)
from torchtext import data # torchtext.data 임포트
from konlpy.tag import Mecab
# Mecab을 토크나이저로 사용
tokenizer = Mecab()
# 필드 정의
ID = data.Field(sequential = False,
use_vocab = False) # 실제 사용은 하지 않을 예정
TEXT = data.Field(sequential=True,
use_vocab=True,
tokenize=tokenizer.morphs, # 토크나이저로는 Mecab 사용.
lower=True,
batch_first=True,
fix_length=20)
LABEL = data.Field(sequential=False,
use_vocab=False,
is_target=True)
4. 데이터셋 만들기
from torchtext.data import TabularDataset
train_data, test_data = TabularDataset.splits(
path='.', train='ratings_train.txt', test='ratings_test.txt', format='tsv',
fields=[('id', ID), ('text', TEXT), ('label', LABEL)], skip_header=True)
5. 단어 집합(Vocabulary) 만들기
# 단어 집합 생성
TEXT.build_vocab(train_data, min_freq=10, max_size=10000)
6. 토치텍스트의 데이터로더 만들기
from torchtext.data import Iterator
batch_size = 5
train_loader = Iterator(dataset=train_data, batch_size = batch_size) # 30000
test_loader = Iterator(dataset=test_data, batch_size = batch_size) # 10000
batch = next(iter(train_loader)) # 첫번째 미니배치
'Background > Pytorch 기초' 카테고리의 다른 글
NLP에서의 원-핫 인코딩(One-hot encoding) (0) | 2022.01.19 |
---|---|
토치텍스트(Torchtext)의 batch_first (0) | 2022.01.19 |
토치 텍스트 튜토리얼(Torchtext tutorial) 영어 (0) | 2022.01.19 |
자연어 처리 전처리 이해하기 (0) | 2022.01.19 |
깊은 CNN으로 MNIST분로하기 (0) | 2022.01.19 |