Audiblez v4: 전자책에서 오디오북 생성

admin

Audiblez v4: 전자책에서 오디오북 생성
https://claudio.uk/posts/audiblez-v4.html

MacOSX에서 실행되는 Audiblez GUI
wxWidgets를 통해 MacOSX에서 실행되는 Audiblez 4.2. Linux와 Windows도 지원됩니다.
v4가 출시되었습니다! Cuda 지원, 새로운 GUI, 그리고 이제 많은 언어가 지원됩니다 🇺🇸 🇬🇧 🇪🇸 🇫🇷 🇮🇳 🇮🇹 🇯🇵 🇧🇷 🇨🇳!
많은 사람들이 자발적으로 Pull Request에 기여한 덕분에, 저는 Audiblez를 많이 개선했습니다. 이 작은 도구는 전자책을 오디오북으로 변환하는데 엄청나게 성장했습니다. 사람들이 이걸 정말 사용하고 싶어한다는 게 밝혀졌습니다! 마침내, CUDA에서도 작동합니다. 저는 Google Colab T4에서 초당 약 500자를 얻습니다. 이는 "모비딕"을 오디오북으로 변환하는 데 약 6분이 걸립니다.

v4.0에서는 다음이 추가되었습니다.

wxWidgets 기반의 다중 플랫폼 GUI
영어 외의 다른 언어도 마침내 잘 작동합니다. 음성의 질은 다양하고 일반적으로 영어 음성이 가장 좋지만, 대부분의 TTS보다 낫습니다.
kokoro파이썬 패키지를 통해 ONNX를 원시 Torch로 이동했습니다.
CUDA 가속이 이제 지원되지만 Apple Silicon은 기본적으로 CPU로 설정됩니다(현재 mlx kokoro 구현 없음)
최종 오디오북으로 이어진 표지 이미지
오디오북의 챕터 타임스탬프
Windows에 대한 더 나은 지원
음성 샘플
다음은 Audiblez에서 사용할 수 있는 음성 샘플 중 일부입니다.

목소리 암호 오디오
미국 영국 여성 아프_하트
미국 영국 여성 af_벨라
미국 영국 남자 am_마이클
영국 영국 여성 bf_엠마
영국 영국 남자 비엠 조지
스페인 여성 에프도라
스페인 남자 엠_알렉스
프랑스 여성 ff_시위스
힌디어 여성 hf_알파
힌디어 남성 hm_오메가
이탈리아 여성 이프_사라
이탈리아 남자 임_니콜라
일본어 jf_알파
Audiblez 소개
🐙 GitHub의 프로젝트

Audiblez는 Kokoro의 고품질 음성 합성 기술을 사용하여 .m4b일반 전자책에서 오디오북을 생성합니다..epub

Kokoro-82M 은 최근에 공개된 텍스트-음성 변환 모델로, 매개변수가 82M개에 불과하고 출력이 매우 자연스럽게 들립니다. Apache 라이선스에 따라 출시되었으며 100시간 미만의 오디오로 학습되었습니다. 현재 다음 언어를 지원합니다. 🇺🇸 🇬🇧 🇪🇸 🇫🇷 🇮🇳 🇮🇹 🇯🇵 🇧🇷 🇨🇳

CUDA를 통한 Google Colab의 T4 GPU에서 오웰의 "동물 농장" (약 16만 자)을 오디오북으로 변환하는 데 걸리는 시간은 약 5분이며, 초당 약 600자의 속도로 변환합니다.

제 M2 맥북 프로에서는 CPU로 초당 60자 정도의 속도로 입력하면 약 1시간이 걸립니다.

명령줄 도구를 설치하는 방법
컴퓨터에 Python 3이 있다면 pip로 설치할 수 있습니다. 또한 컴퓨터에 espeak-ng다음 이 필요합니다.ffmpeg

sudo apt install ffmpeg espeak-ng # on Ubuntu/Debian 🐧
pip install audiblez
brew install ffmpeg espeak-ng # on Mac 🍏
pip install audiblez
그러면 다음을 사용하여 .epub을 직접 변환할 수 있습니다.

audiblez book.epub -v af_sky
book_chapter_1.wav먼저 같은 디렉토리에 , , 등 의 파일을 여러 개 만들고 book_chapter_2.wav, 마지막에 book.m4bVLC나 오디오북 플레이어로 들을 수 있는 책 전체가 담긴 파일을 생성합니다. 컴퓨터에 설치 .m4b한 경우에만 파일을 생성합니다.ffmpeg

GUI를 실행하는 방법
GUI는 audiblez를 사용하는 간단한 그래픽 인터페이스입니다. GUI를 실행하려면 몇 가지 추가 종속성이 필요합니다.

sudo apt install ffmpeg espeak-ng
sudo apt install libgtk-3-dev # just for Ubuntu/Debian 🐧, Windows/Mac don't need this

pip install audiblez pillow wxpython
그런 다음 다음을 사용하여 GUI를 실행할 수 있습니다.

audiblez-ui
속도
기본적으로 오디오는 일반 속도를 사용하여 생성되지만 0.5~2.0 사이의 속도 인수를 지정하여 최대 2배 더 느리거나 더 빠르게 만들 수 있습니다.

audiblez book.epub -v af_sky -s 1.5
지원되는 음성
옵션을 사용 -v하여 사용할 음성을 지정합니다. 사용 가능한 음성은 여기에 나열되어 있습니다. 첫 번째 문자는 언어 코드이고 두 번째 문자는 화자의 성별입니다. 예를 들어 im_nicola이탈리아 남성 음성입니다.

언어 목소리
🇺🇸 af_alloy, af_aoede, af_bella, af_heart, af_jessica, af_kore, af_nicole, af_nova, af_river, af_sarah, af_sky, am_adam, am_echo, am_eric, am_fenrir, am_liam, am_michael, am_onyx, am_puck, am_santa
🇬🇧 bf_앨리스, bf_엠마, bf_이사벨라, bf_릴리, bm_대니얼, bm_우화, bm_조지, bm_루이스
🇪🇸 에프도라, 엠알렉스, 엠산타
🇫🇷 ff_시위스
🇮🇳 hf_알파, hf_베타, hm_오메가, hm_psi
🇮🇹 이프_사라, 임_니콜라
🇯🇵 jf_alpha, jf_gongitsune, jf_nezumi, jf_tebukuro, jm_kumo
🇧🇷 pf_도라, pm_알렉스, pm_산타
🇨🇳 zf_xiaobei, zf_xiaoni, zf_xiaoxiao, zf_xiaoyi, zm_yunjian, zm_yunxi, zm_yunxia, zm_yunyang
GPU에서 실행하는 방법
기본적으로 audiblez는 CPU에서 실행됩니다. 옵션을 전달하면 --cudaTorch를 통해 Cuda 장치를 사용하려고 합니다.

이 예를 확인해 보세요: Cuda를 사용하여 Google Colab Notebook에서 실행되는 Audiblez입니다 .

현재 Apple Silicon은 지원하지 않습니다. MLX에 Kokoro 구현이 아직 없기 때문입니다. 출시되는 즉시 지원하겠습니다.

책공장

0

133

22.0k

22.2k

Audiblez v4: 전자책에서 오디오북 생성