今回はマイクロソフトの音声合成ソフトである
EdgeTTSを試してみました。

解説動画はこちら



Edge-TTSとは

Microsoftの音声合成ライブラリのことで
TTSとは(Text-to-Speech)の略です。

最新のAI技術が用いられているので
発話の精度が向上していて

無料で使える割に精度は良さそうなので
音声合成試したい方には丁度良いライブラリです。


Google Colabでのインストール方法

次のコマンドを実行するだけです。
!pip install edge-tts


声のリスト一覧を見る
!edge-tts --list-voices




日本語対応のvoice

日本語に対応しているのは
次の2種類の音声があります。

ja-JP-KeitaNeural : 男性の声
ja-JP-NanamiNeural : 女性の声




EdgeTTSの使い方

設定を行い、音声ファイルを作成するだけです。

・設定可能な項目
text : 文章
voice : 声(声優)
rate : 読み上げのスピード( + - でパーセンテージを指定)
name : 出力する音声ファイル名

サンプルコードを実行すると
ファイル置き場に出力されます。

サンプルコードではそのファイルを再生しています。


サンプルコード

英文の読み上げ
import edge_tts

TEXT = "My son is doing very well. I'm very energetic, especially in the morning."
VOICE = "en-GB-SoniaNeural"
OUTPUT_FILE = "test2.mp3"

communicate = edge_tts.Communicate(TEXT, VOICE)
await communicate.save(OUTPUT_FILE)

from IPython.display import Audio
Audio("test2.mp3")

日本語の読み上げ(女性)
import edge_tts

TEXT = """
太くて固い、立派な松茸です。
エリンギが如く、たくましくそそり立っています。
こんなに素晴らしいものは初めてです。
今夜は美味しく頂きます。
""".replace("\n"," ")

VOICE = "ja-JP-NanamiNeural"
RATE = "+20%"
OUTPUT_FILE = "test3.mp3"

communicate = edge_tts.Communicate(TEXT, VOICE,rate=RATE)
await communicate.save(OUTPUT_FILE)

from IPython.display import Audio
Audio(OUTPUT_FILE)


日本語の読み上げ(男性)
import edge_tts

TEXT = """
うわー、すごい綺麗なアワビです。
ねっとりと艶やかで、ほんのり湿っています。
真ん中を触ってみると、クネクネ動きますね。
こいつは大漁だーー。
""".replace("\n"," ")

VOICE = "ja-JP-KeitaNeural"
RATE = "-5%"
OUTPUT_FILE = "test4.mp3"

communicate = edge_tts.Communicate(TEXT, VOICE,rate=RATE)
await communicate.save(OUTPUT_FILE)

from IPython.display import Audio
Audio(OUTPUT_FILE)


まとめ

音声合成の精度も良く
音声ファイルの作成スピードも
かなり速いです。

無料で使える分には
過去一の性能かもしれません。

簡単な文章を音声ファイルにするニーズには
十分に答えられると思います。

昔紹介したWisperと組み合わせたら
文章化と音声化が両方捗ります

色々遊んでみて下さいね
それでは。