TTS는 음성 합성(Speech synthesis)이라고도 불린다.

 

TTS 데이터의 특징

  •  one-to-many 문제이다.( ∵ 동일한 텍스트가 다양한 방식으로 합성될 수 있다.)
    • 같은 문장을 말하는 방식은 사람마다 다르다.
  • 장기 의존성 문제가 있다.
    • 문장의 의미를 이해하려면 주변 단어의 문맥을 고려해야 한다.
    • 일관성 있고 자연스러운 음성을 생성하려면 TTS 모델은 긴 시퀀스에서 문맥의 정보를 이해하는 것을 유지해야 한다.
  • TTS 모델을 훈련하려면 일반적으로 한 쌍의 텍스트와 해당 음성이 필요하다.
    • 데이터에 소음과 같은 노이즈가 있으면 좋지 않다.

 

좋은 TTS 데이터의 특징

  • 다양한 패턴, 억양, 언어와 감정을 포괄하는 고품질 및 다양한 오디오
    • 녹음은 선명하고 배경 소음이 없어야 하며 자연스러운 음성의 특징이 보여야 한다.
  • 음성에 대응하는 대본이 있어야 한다.
  • 다양한 유형의 문장, 구문, 단어를 포함하고 있는 콘텐츠가 포함 한다.
    • 모델이 다양한 언어적 맥락을 처리할 수 있도록 다양한 주제, 장르, 도메인을 포함해야 한다.

 

Hugging Face의 TTS  데이터셋

1. LJSpeech

  • 13100개의 영어 오디오 - text
  • 한 명의 화자가 7개의 non-fiction책을 영어로 읽음
  • 품질이 좋고 다양한 문장들로 이루어져 있기 때문에 TTS model을 평가하는 벤치마크로 많이 쓰임

2. Multilingual LibriSpeech

  • 대규모 영어 오디오북 컬렉션인 LibriSpeech data의 다국어 버전이다.
  • 독일어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 폴란드어, 네덜란드어를 제공한다.
  • 텍스트-오디오를 제공한다.
  • 다국어 TTS 시스템을 개발하고 언어 간 음성 합성 기술을 탐색하는데 유용한 리소스를 제공한다.

3. VCTK(Voice Cloning Toolkit)

  • TTS를 위해 설계된 데이터셋
  • 다양한 억양을 가진 110명의 영어 화자의 오디오
  • 각 화자는 뉴스, rainbow passage(영어 읽기 테스트 문장), 연설 악센트 아카이브에서 약 400개의 문장씩 일긍ㅁ
  • VCTK 데이터셋을 이용해 다양한 목소리와 억양을 훈련시켜 다양한 음성 합성이 가능하도록 만듦

4. Libri-TTS/LibriTTS-R

  • TTS 연구를 위해 설계됨
  • 약 585시간의 다중 화자 영어 음성
  • Libri Speech에서 파생됨

 

참고자료

 

Text-to-speech datasets - Hugging Face Audio Course

Unit 0. Welcome to the course! Unit 1. Working with audio data Unit 2. A gentle introduction to audio applications Unit 3. Transformer architectures for audio Unit 4. Build a music genre classifier Unit 5. Automatic Speech Recognition Unit 6. From text to

huggingface.co

 

728x90

+ Recent posts