【MoeGoe】AIイラストの次は“声”の学習データによる合成音声？話題の音声生成AIの使い方。

最近イラストAIが登場し世間を騒がせたところですが、今度は中国からあらたに音声AIの登場です。

中国で作られた音声合成AI「MoeGoe」がすごい。
抑揚の付け方とかアクセントはゆっくりのすごい版しかないけど、声優さんの声質の再現がすごい。
novelAIと組み合わせてフルボイス同人ゲームも夢じゃないとこまで来てる。 pic.twitter.com/OVbRTlrjDf
— taron88＠趣味アカウント　マイニング/VR/Beatsaber (@taron32739087) November 6, 2022

なにしろ約2900人の声優さんの音声データを学習させてAIを作ったんだとかこれは試さない手はない。ということで試してきたのでそのやり方とコツを解説していきます。

デモサイトと音声サンプル
必要な環境
環境構築
コツと遊び方
まとめ

デモサイトと音声サンプル

Moe TTS - a Hugging Face Space by skytnt

Discover amazing ML apps made by the community

こちらのデモサイトで今回の音声合成AIの体験ができます。このAIの作者はゆずソフト好きすぎでしょという感じですが、ゆずソフトのゲームはキャラごとに1セリフずつ再生できる機能があるので学習元データとして非常に勝手がよかったのかなと思います。

AI製作者のCjangCjenghさんが投稿しているサンプル音声も聞いてみてください。キャラの掛け合いとかはすごく自然。やっぱりゆずソフト好きなのがとても伝わります。

例によってデモサイト激重なので上のサイトで雰囲気を確認したら、下の方法でローカル環境を作って行きましょう。

必要な環境

・Window搭載のPC
・1GBくらいの空き容量
・インターネット環境
・ちょっとだけ欠けた倫理観

一次ソースであるGitHubにはとくに必要スペックのようなものは書いていなかったのでおそらくノートPCでも行けます。イラストAIと違ってGPUをぶん回して生成するような感じではないので低スペック民でも遊べるのは嬉しいですね。

AIイラストのときもそうですが、音声の学習データが日本の著作権法にふれるかはグレーゾーンです。画像より音声のほうが著作権は厳しいはず。
今回紹介するAIはMade in Chinaで日本製ではないのでそのあたりが気になる人はブラウザバックしましょう。またやってみようという人も自己責任で行ってください。

環境構築

前回のローカル版NovelAIより簡単です。MoeGoe本体はPythonでGUIの方はC♯で動いてるみたいなのでPython環境の構築から始めます。

一次ソース
https://github.com/CjangCjengh/MoeGoe

①Pythonのインストール

前回のローカル版NovelAIでPythonを入れた人は飛ばしても大丈夫です。

Python Release Python 3.10.8

The official home of the Python Programming Language

最新バージョンは何かとエラーが多いので一個古いやつを入れます。win版64bitのやつを入れてあとは流れでインストールしてください。

画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK＆自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ

(2022/09/22 17:52更新)画像生成AI「Stable Diffusion」を簡単に利用するための実行環境の1つである「Stable Diffusion web UI」のコントリビューター(開発貢献者)の1人であるAUTOMATIC1111氏が、フォークではないものの同名で「機能全部盛り」なStable D...

↑の3-1:Pythonのインストールの部分がわかりやすいのでここも参考にしてください。

②必要なデータをダウンロード

MoeGoe本体

GitHub - CjangCjengh/MoeGoe: Executable file for VITS inference

Executable file for VITS inference. Contribute to CjangCjengh/MoeGoe development by creating an account on GitHub.

MoeGoe GUI kaiのダウンロード

5chの有志による日本語版GUI
https://uploader.cc/s/kbvq2hvfrkp1robwy00j6zose3a66ymw5z06vfupgfooggqnnzzw5ig65321mg50.zip

Modelデータのダウンロード

AI製作者による事前学習モデル
https://github.com/CjangCjengh/TTSModels

configファイルと.pthファイルの両方をダウンロードしてください。

③ファイルを一つの場所に入れる

デスクトップに適当にMoeGoeとかフォルダーを作り、そこに今までダウンロードしてきたデータを入れます。

モデルデータとconfigファイルは「Desktop\moegoe\moegoe_gui_kai\MoeGoe_GUI_KAI\models」に入れておきます。

④MoeGoe　GUIの起動

moegoe_gui_kai側に入っている「MoeGoe_GUI.exe」を起動します。

⑤本体・モデル・設定ファイルの読み込み

本体を起動するとこんな感じのGUIが出るので順番に場所を設定していきます。

MoeGoe.exeは本体側のC:\Users\XXX\Desktop\moegoe\MoeGoe\MoeGoe\MoeGoe.exe

モデルデータはMoeGoe_GUI_KAI側のmodelにいれた.pthファイルと.configを順番に読み込んで行きます。読み込めさえすればMoeGoeGUIフォルダに入れる必要はないです。

⑥遊ぶ

最初に音声データの出力先を設定します。デフォでは MoeGoeGUIフォルダのoutputに設定されています。設定が完了したら再生が押せるようになります。

ここからは棒読みちゃんみたいなものなので本文に読ませたいセリフを入れて“再合成”を押し、右のCUIにSuccessが出れば完了。“再生”をおして視聴です。モデルによっては漢字やカタカナに対応していないみたいなのでローマ字入力してみるとうまくいきます。

えーあいイラストの次は「声」　の学習データによる合成音声,　話題の音声せいせいAIの使い方.

コツと遊び方

本文下のメニューからシンボリックを選択するとアクセントを手動で組み込めるみたいです。

もう少し遊びつつ追記していきます。

言語指定　2800名の声優が選べるモデルの遊び方。

複数言語に対応したモデル(402_epochs.pth)は最初に[JA]といれて言語指定しないといけないみたいです。英語だと[EN]中国語だと[ZH]という感じ。

喘がせてみる

ゆずソフトの学習モデルにincluded　Hというのがあったのでこれはと思い検証。

あ♡　あん♡　んっ♡　やばい♡　これ.　なんか.　くる.　いく.　んっ.　んっ.　はぁ.　はぁ.　はぁ.　いや.　あ.　あA.　あ!. はぁ.　はぁ.　はぁ.

学習元が本職のプロの人だけあってかなり精度が高い。ほかの学習モデルで同じことやってもゆっくりと変わらないようなものが生成できます。

目覚まし音声を作ってみる

おにいちゃん.朝だよ起きて.おーきーてー.遅刻するよ。..おにいちゃん…起きてってばー.ねぇ.ねぇってばー,…もう.. おにいちゃん… 起きないと……お仕事遅れちゃうよだから…起きてってばー

私のメインスマホにはMP3音源をアラームとして使える機能があったので、早速スマホに上の音源をうつしてアラームをセット。夢の「妹に起こしてもらう」シュチュエーションの完成です。

novelAI × MoeGoe で「妹に起こしてもらう」目覚まし音声を作った。

スマホのアラーム機能でMP3流せる機能があるから毎朝起こしてもらえるよ。

この技術のすごいところはおにいちゃんとか先輩みたいな代名詞じゃなくて「本名」を呼んでもらえるところ。

色んな意味でヤバイよ。 pic.twitter.com/XLwKWmW27m
— taron88＠趣味アカウント　マイニング/VR/Beatsaber (@taron32739087) November 12, 2022