TTS는 음성 합성(Speech synthesis)이라고도 불린다.
TTS 데이터의 특징
- one-to-many 문제이다.( ∵ 동일한 텍스트가 다양한 방식으로 합성될 수 있다.)
- 같은 문장을 말하는 방식은 사람마다 다르다.
- 장기 의존성 문제가 있다.
- 문장의 의미를 이해하려면 주변 단어의 문맥을 고려해야 한다.
- 일관성 있고 자연스러운 음성을 생성하려면 TTS 모델은 긴 시퀀스에서 문맥의 정보를 이해하는 것을 유지해야 한다.
- TTS 모델을 훈련하려면 일반적으로 한 쌍의 텍스트와 해당 음성이 필요하다.
- 데이터에 소음과 같은 노이즈가 있으면 좋지 않다.
좋은 TTS 데이터의 특징
- 다양한 패턴, 억양, 언어와 감정을 포괄하는 고품질 및 다양한 오디오
- 녹음은 선명하고 배경 소음이 없어야 하며 자연스러운 음성의 특징이 보여야 한다.
- 음성에 대응하는 대본이 있어야 한다.
- 다양한 유형의 문장, 구문, 단어를 포함하고 있는 콘텐츠가 포함 한다.
- 모델이 다양한 언어적 맥락을 처리할 수 있도록 다양한 주제, 장르, 도메인을 포함해야 한다.
Hugging Face의 TTS 데이터셋
1. LJSpeech
- 13100개의 영어 오디오 - text
- 한 명의 화자가 7개의 non-fiction책을 영어로 읽음
- 품질이 좋고 다양한 문장들로 이루어져 있기 때문에 TTS model을 평가하는 벤치마크로 많이 쓰임
- 대규모 영어 오디오북 컬렉션인 LibriSpeech data의 다국어 버전이다.
- 독일어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 폴란드어, 네덜란드어를 제공한다.
- 텍스트-오디오를 제공한다.
- 다국어 TTS 시스템을 개발하고 언어 간 음성 합성 기술을 탐색하는데 유용한 리소스를 제공한다.
3. VCTK(Voice Cloning Toolkit)
- TTS를 위해 설계된 데이터셋
- 다양한 억양을 가진 110명의 영어 화자의 오디오
- 각 화자는 뉴스, rainbow passage(영어 읽기 테스트 문장), 연설 악센트 아카이브에서 약 400개의 문장씩 일긍ㅁ
- VCTK 데이터셋을 이용해 다양한 목소리와 억양을 훈련시켜 다양한 음성 합성이 가능하도록 만듦
- TTS 연구를 위해 설계됨
- 약 585시간의 다중 화자 영어 음성
- Libri Speech에서 파생됨
참고자료
Text-to-speech datasets - Hugging Face Audio Course
Unit 0. Welcome to the course! Unit 1. Working with audio data Unit 2. A gentle introduction to audio applications Unit 3. Transformer architectures for audio Unit 4. Build a music genre classifier Unit 5. Automatic Speech Recognition Unit 6. From text to
huggingface.co
728x90
'Artificial Intelligence' 카테고리의 다른 글
지도학습 vs 비지도학습 (0) | 2024.05.31 |
---|---|
[인공지능 기초 지식] 평가지표 (0) | 2024.05.20 |
[인공지능 기초 지식] Activation Function 활성화 함수 (0) | 2024.05.13 |
[인공지능 기초 지식] Loss Function 손실 함수 (0) | 2024.05.06 |
[인공지능 기초 지식] 경사하강법 (0) | 2024.04.29 |