OpenVoice

Instant voice cloning by MIT and MyShell.

GitHub / Paper / Website

OpenVoice는 2023년 5월부터 myshell.ai의 즉각적인 음성 복제 기능을 지원해 왔습니다. 2023년 11월까지 음성 복제 모델은 전 세계 사용자들에 의해 수천만 번 사용되었으며, 플랫폼의 폭발적인 사용자 성장을 목격했습니다.

역사

OpenVoice V1

우리의 논문과 웹사이트에서 자세히 설명한 바와 같이 (paper & website), OpenVoice 의 장점은 세 가지로 요약됩니다:

  1. 정확한 톤 색 복제: OpenVoice는 참조 톤 색을 정확히 복제하고 여러 언어와 억양으로 음성을 생성할 수 있습니다.

  2. 유연한 음성 스타일 제어: OpenVoice는 감정과 억양과 같은 음성 스타일에 대한 세밀한 제어를 가능하게 하며, 리듬, 멈춤, 억양과 같은 기타 스타일 매개변수도 조정할 수 있습니다.

  3. 제로샷 크로스 링귀지 음성 복제: 생성된 음성의 언어와 참조 음성의 언어는 대규모 스피커 다중 언어 훈련 데이터셋에 포함될 필요가 없습니다.

OpenVoice V2

2024년 4월, 우리는 OpenVoice V2를 출시했으며, V1의 모든 기능을 포함하며 다음과 같은 개선 사항이 있습니다:

  1. 향상된 오디오 품질: OpenVoice V2는 더 나은 오디오 품질을 제공하는 다른 훈련 전략을 채택했습니다.

  2. 기본 다중 언어 지원: 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어가 OpenVoice V2에서 기본적으로 지원됩니다.

  3. 무료 상업적 사용: 2024년 4월부터 V2와 V1 모두 MIT 라이선스 하에 출시되어 상업적 사용이 무료입니다.

사용 방법

자세한 사용 지침은 사용법을 참조하세요.

일반적인 문제

자주 묻는 질문과 답변은 QA를 참조하세요. 질문과 답변 목록은 정기적으로 업데이트됩니다.

인용

@article{qin2023openvoice,
  title={OpenVoice: Versatile Instant Voice Cloning},
  author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
  journal={arXiv preprint arXiv:2312.01479},
  year={2023}
}

라이선스

OpenVoice V1과 V2는 MIT 라이선스를 따릅니다. 상업 및 연구 용도 모두 무료입니다.

Last updated