1. Masked Self-Attention이란?
Masked Self-Attention이란 Self-Attention의 변형으로 Transformer 모델의 Decoder 부분에서 사용되며 sequence 생성 작업에 활용됩니다.
Decoder는 현재까지 생성된 토큰들을 기반으로 다음 토큰을 예측해야 합니다. 만약 Masked되지 않은 Self-Attention을 사용하면 Decoder가 미래의 정보를 사용할 수 있게 됩니다. 따라서, Decoder에서는 Masked Self-Attention을 이용해 모델이 미래의 정보를 사용하지 않고 현재까지 생성된 토큰들만을 기반으로 예측하게 합니다.
2. Masked Self-Attention 과정
Decoder의 Self-Attention layer는 반드시 자기 자신보다 앞쪽에 위치한 토큰들의 attention score만 볼 수 있습니다. 미리 attention score을 다 구해놓고 사용할 때 가립니다.
Attention Score를 구하는 과정은 Self-Attention과 같습니다. 행렬 연산의 이점을 누리기 위해 attention score를 구한 뒤, i 번째 행에 대해 i+1 이상의 열에 대해 -inf(-∞)로 변경합니다. softmax를 취했을 때 결과값인 attention weight를 0으로 만들기 위해서 입니다. Attention weight를 0으로 만들면 미래 시점의 값을 고려하지 않게 됩니다.
728x90
'Artificial Intelligence' 카테고리의 다른 글
[Audio] Audio Data (1) | 2024.06.27 |
---|---|
[Transformer] Transformer 모델 종류 (0) | 2024.06.17 |
[Transformer] Self-Attention (2) | 2024.06.10 |
지도학습 vs 비지도학습 (0) | 2024.05.31 |
[인공지능 기초 지식] 평가지표 (0) | 2024.05.20 |