일반적으로 train dataset에만 샘플링 전략(over sampling, undersampling)을 사용합니다. 따라서 train/test split하기 전에 sampling을 하지 않고 split한 뒤에 train dataset에 샘플링을 적용합니다.
2. hugging face
사전 훈련된 모델을 사용할 때, 모델 훈련에 사용한 것과 동일한 토크나이저를 사용해야 합니다. 토크나이저를 바꾸는 것은 모델 입장에서 어휘사전을 뒤섞는 것과 다름 없습니다. 주변 사람들이 'house'를 'cat'이라 하는 상황처럼 마음대로 단어를 바꾼다면 도대체 무슨 일인지 상황을 이해하지 못할 것입니다.