본문 바로가기

transformer2

[논문 리뷰, GPT]Improving Language Understanding by Generative Pre-Training 이 글은 2018년 6월 OpenAI에서 발표한 GPT 시리즈의 최초 버전인 GPT : Improving Language Understanding by Generative Pre-Training를 정리한 글이다. 요약하자면 다음과 같다. Transformer 구조는 여러 NLP task에 유용하며, Unsupervised pre-training을 통해 충분히 많은 Language정보가 학습되어 Supervised fine-tuning시 특정 Task에 맞는 딥러닝 모델링에 들어가는 시간과 비용을 줄임과 동시에 최고 성능을 낼 수 있다. 또한 LSTM에 비해 Language modeling capability와 Structured attentional memory를 향상하여 zero-shot 성능에서 이.. 2022. 5. 3.
트랜스포머 (Transformer) 이전에 업로드했던 글에서 어텐션(Attention)에 대해 살펴보았다. 어텐션은 neural machine translation에서 정보 손실 문제를 개선하여 긴 입력 시퀀스에서도 모델의 성능을 개선하는데 도움이 된 개념이다. 이번 글에선 어텐션 메커니즘에 기반한 트랜스포머에 대해서 정리해보고자 한다. https://wikidocs.net/31379와 http://jalammar.github.io/illustrated-transformer/를 정독하고 나름대로 이해한 내용을 정리하였다. 트랜스포머는 Attention is All You Need라는 논문을 통해 처음 발표되었다. 이 모델의 TensorFlow 구현은 Tensor2Tensor 패키지에서 확인할 수 있다. 트랜스포머는 어텐션을 학습하여 그를 .. 2022. 1. 25.