원본 Transformer는 Encoder-Decoder 구조를 기반으로 합니다. Encoder와 Decoder 블록이 독립적인 모델이 되면서 Transformer 모델의 유형을 Encoder 유형, Decoder 유형, Encoder-Decoder 유형으로 나눌 수 있습니다.

1. Encoder 유형

input sequence를 압축하여 고정된 길이의 벡터로 변환합니다. 이 모델은 주로 크기가 고정된 입출력 문제에 사용됩니다.

1-1. BERT(Bidirectional Encoder Representations from Transformers)

2018년 구글이 개발한 언어 모델로, masking된 토큰을 예측하는 것(Maksed Language Modeling, MLM)과 한 텍스트 구절이 다른 텍스트 구절 뒤에 나올 확률을 계산(Next Sentence Prediction)하는 task로 훈련된 모델입니다. 상대적으로 무거운 모델입니다.

1-2. DistilBERT(Distilled version of BERT)

BERT를 경량화하고 속도를 향상시킨 모델입니다. Pre-training 단계에서 Knowledge Distillation이라는 기술을 사용해서 BERT보다 40% 더 적은 메모리를 사용하고 60% 더 빠르면서 BERT 성능의 97%를 달성합니다.

1-3. RoBERTa(Robustly Optimized BERT approach)

더 많은 훈련 데이터로 더 큰 배치에서 더 오래 훈련하며 NSP task는 하지 않았습니다. BERT에 비해 성능이 향상되었습니다.

1-4. XLM (Cross-lingual Language Model)

다국어 학습을 위해 개발된 모델입니다. XLM의 논문에서는 MLM을 다중 언어 입력으로 확장한 Translation Language Modeling(TLM)을 소개했습니다. 이런 Pre-training 단계를 실험한 저자들을 번역 작업을 포함해 여러 가지 다중 언어 NLU 벤치마크에서 최상의 결과를 얻었습니다. XLM 모델은 다국어 번역, 다국어 분류 등 다양한 다국어 작업에 활용될 수 있습니다.

 

2. Decoder 유형

Decoder 유형 모델은 문장에서 다음 단어를 예측하는 데 뛰어나므로 대부분 text 생성 작업에 사용됩니다. 

2-1. GPT (Generative Pretrained Transformer)

2018년에 등장했으며 Pre-trained Language Model 개념을 처음으로 제시했습니다. GPT는 이전 단어를 기반으로 다음 단어를 예측하도록 훈련되었습니다.

2-2. GPT-2

2019년에 등장했으며 GPT보다 훨씬 많은 양의 데이터를 학습하여 더욱 자연스러운 텍스트를 생성할 수 있게 되었습니다. 

2-3. CTRL (Code TransOrmers with Listops)

Salesforce가 개발한 모델입니다. GPT-2같은 모델은 생성된 시퀀스의 스타일은 거의 제어하지 못합니다. CTRL은 시퀀스 시작 부분에 '제어 토큰'을 추가해 이 문제를 해결했습니다. 이를 통해 생성 문장의 스타일을 제어해 다양한 문장을 생성합니다.

2-4. GPT-3

GPT-2를 100배 늘려 1750억 개의 파라미터를 가진 모델입니다. few-shot learning능력이 크게 향상되어 적은 양의 데이터만으로도 새로운 작업을 빠르게 학습할 수 있게 되었습니다.

 

3. Encoder-Decoder 유형

3-1. T5 (Text-to-Text Transfer Transfomer)

모든 텍스트 기반 task를 "Text-to-Text" 형식으로 변환해서 처리합니다. 

3-2. BART

BERT의 양방향 인코딩과 GPT의 단방향 디코딩 방식을 결합하여 학습합니다. 입력 시퀀스는 마스킹, 문장 섞기, 토큰 삭제, 문서 순환(document roation)에서 가능한 한가지 방식을 거칩니다. 변경된 입력이 인코더를 통과하면 디코더는 원본 텍스트를 재구성합니다. 모델을 유연하게 만들어 NLU, NLG 작업에 모두 사용할 수 있습니다.

3-3. M2M-100

Meta에서 2020년에 발표한 모델로 100개의 언어를 번역하는 최초의 번역 모델입니다. 희귀하거나 잘 알려지지 않은 언어에서 고품질의 번역을 수행합니다. 저자원 언어에 대한 번역 성능이 뛰어납니다.

3-4. BigBird

Sparse attention을 사용하여 기존 Transformer 모델보다 훨씬 긴 문맥(512->4096 토큰)을 처리할 수 있습니다. 따라서 텍스트 요약과 같이 긴 의존성을 보존해야 할 때 유용합니다.

728x90

'Artificial Intelligence' 카테고리의 다른 글

[Audio] Audio Data  (1) 2024.06.27
[Transformer] Masked Self-Attention  (0) 2024.06.13
[Transformer] Self-Attention  (2) 2024.06.10
지도학습 vs 비지도학습  (0) 2024.05.31
[인공지능 기초 지식] 평가지표  (0) 2024.05.20

+ Recent posts