본문 바로가기

머신러닝, 딥러닝/NLP4

[논문 리뷰, GPT-2]Language Models are Unsupervised Multitask Learners 이 글은 2018년 6월 OpenAI GPT-2: Language Models are Unsupervised Multitask Learners를 정리한 글이다. 요약하자면 다음과 같다. 이전에 업로드한 GPT에서는 Transformer구조를 사용함으로써 약간의 fine-tuning만으로 NLP의 여러 Task에서 sota를 달성하였고, zero-shot 성능의 가능성에 대한 여지를 주었다. GPT-2의 가장 큰 목적은 Fine-tuning 없이 Unsupervised pre-training 만을 통해 Zero-shot으로 Down-stream task를 진행할 수 있는 General language model을 개발하는 것이다. GPT-2는 Unsupervised pre-training만으로 8개의 N.. 2022. 5. 5.
[논문 리뷰, GPT]Improving Language Understanding by Generative Pre-Training 이 글은 2018년 6월 OpenAI에서 발표한 GPT 시리즈의 최초 버전인 GPT : Improving Language Understanding by Generative Pre-Training를 정리한 글이다. 요약하자면 다음과 같다. Transformer 구조는 여러 NLP task에 유용하며, Unsupervised pre-training을 통해 충분히 많은 Language정보가 학습되어 Supervised fine-tuning시 특정 Task에 맞는 딥러닝 모델링에 들어가는 시간과 비용을 줄임과 동시에 최고 성능을 낼 수 있다. 또한 LSTM에 비해 Language modeling capability와 Structured attentional memory를 향상하여 zero-shot 성능에서 이.. 2022. 5. 3.
[ML] Bag of Words(BOW) -목차- 1. Bag of Words란? 2. BOW 피처 벡터화 3. BOW 벡터화를 위한 희소 행렬 3.1 COO(Coordinate) 형식 3.2 CSR(Compressed Sparse Row)형식 1. Bag of Words란? Bag of Words모델은 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다. 문서 내 모든 단어를 한꺼번에 봉투(Bag) 안에 넣은 뒤에 흔들어서 썩는다는 의미로 Bag of Word(BOW) 모델이라고 한다. 다음과 같은 2개의문장이 있다고 가정하고 이 문장을 Bag of Words의 단어 수(Word Count) 피처를 추출해보자. 문장 1 : My wife likes to watc.. 2022. 3. 3.
[ML] 텍스트 전처리(텍스트 정규화) -목차- 1. 텍스트 정규화란? 2. 클렌징(Cleansing) 3. 텍스트 토큰화(Text Tokenization) 3.1 문장 토큰화(Sentence Tokenization) 3.2 단어 토큰화(Word Tokenization) 4. 스톱 워드 제거 5. 어근 추출(stemming과 Lemmatization) 1. 텍스트 정규화란? 텍스트 자체를 바로 피처로 만들 수는 없다. 이를 위해 사전에 텍스트를 가공하는 준비 작업이 필요하다. 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하지 위해 클렌징, 정제, 토큰화, 어근화 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미한다. 이러한 텍스트 작업은 크게 다음과 같이 분류할 수 있다. 클렌징(Cleans.. 2022. 3. 3.