【MoeGoe】AIイラストの次は“声”の学習データによる合成音声?話題の音声生成AIの使い方。

AIイラスト

最近イラストAIが登場し世間を騒がせたところですが、今度は中国からあらたに音声AIの登場です。

なにしろ約2900人の声優さんの音声データを学習させてAIを作ったんだとかこれは試さない手はない。ということで試してきたのでそのやり方とコツを解説していきます。

デモサイトと音声サンプル

Moe TTS - a Hugging Face Space by skytnt
Discover amazing ML apps made by the community

こちらのデモサイトで今回の音声合成AIの体験ができます。このAIの作者はゆずソフト好きすぎでしょという感じですが、ゆずソフトのゲームはキャラごとに1セリフずつ再生できる機能があるので学習元データとして非常に勝手がよかったのかなと思います。

AI製作者のCjangCjenghさんが投稿しているサンプル音声も聞いてみてください。キャラの掛け合いとかはすごく自然。やっぱりゆずソフト好きなのがとても伝わります。

例によってデモサイト激重なので上のサイトで雰囲気を確認したら、下の方法でローカル環境を作って行きましょう。

必要な環境

・Window搭載のPC
・1GBくらいの空き容量
・インターネット環境
・ちょっとだけ欠けた倫理観

一次ソースであるGitHubにはとくに必要スペックのようなものは書いていなかったのでおそらくノートPCでも行けます。イラストAIと違ってGPUをぶん回して生成するような感じではないので低スペック民でも遊べるのは嬉しいですね。

AIイラストのときもそうですが、音声の学習データが日本の著作権法にふれるかはグレーゾーンです。画像より音声のほうが著作権は厳しいはず。
今回紹介するAIはMade in Chinaで日本製ではないのでそのあたりが気になる人はブラウザバックしましょう。またやってみようという人も自己責任で行ってください。

環境構築

前回のローカル版NovelAIより簡単です。MoeGoe本体はPythonでGUIの方はC♯で動いてるみたいなのでPython環境の構築から始めます。

一次ソース
https://github.com/CjangCjengh/MoeGoe

①Pythonのインストール

前回のローカル版NovelAIでPythonを入れた人は飛ばしても大丈夫です。

Python Release Python 3.10.8
The official home of the Python Programming Language

最新バージョンは何かとエラーが多いので一個古いやつを入れます。win版64bitのやつを入れてあとは流れでインストールしてください。

画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK&自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ
(2022/09/22 17:52更新)画像生成AI「Stable Diffusion」を簡単に利用するための実行環境の1つである「Stable Diffusion web UI」のコントリビューター(開発貢献者)の1人であるAUTOMATIC1111氏が、フォークではないものの同名で「機能全部盛り」なStable D...

↑の3-1:Pythonのインストールの部分がわかりやすいのでここも参考にしてください。

②必要なデータをダウンロード

MoeGoe本体
GitHub - CjangCjengh/MoeGoe: Executable file for VITS inference
Executable file for VITS inference. Contribute to CjangCjengh/MoeGoe development by creating an account on GitHub.
MoeGoe GUI kaiのダウンロード

5chの有志による日本語版GUI
https://uploader.cc/s/kbvq2hvfrkp1robwy00j6zose3a66ymw5z06vfupgfooggqnnzzw5ig65321mg50.zip

Modelデータのダウンロード

AI製作者による事前学習モデル
https://github.com/CjangCjengh/TTSModels

configファイルと.pthファイルの両方をダウンロードしてください。

③ファイルを一つの場所に入れる

デスクトップに適当にMoeGoeとかフォルダーを作り、そこに今までダウンロードしてきたデータを入れます。

ZIPは消しても大丈夫

モデルデータとconfigファイルは「Desktop\moegoe\moegoe_gui_kai\MoeGoe_GUI_KAI\models」に入れておきます。

④MoeGoe GUIの起動

moegoe_gui_kai側に入っている「MoeGoe_GUI.exe」を起動します。

⑤本体・モデル・設定ファイルの読み込み

本体を起動するとこんな感じのGUIが出るので順番に場所を設定していきます。

MoeGoe.exeは本体側のC:\Users\XXX\Desktop\moegoe\MoeGoe\MoeGoe\MoeGoe.exe

モデルデータはMoeGoe_GUI_KAI側のmodelにいれた.pthファイルと.configを順番に読み込んで行きます。読み込めさえすればMoeGoeGUIフォルダに入れる必要はないです。

⑥遊ぶ

最初に音声データの出力先を設定します。デフォでは MoeGoeGUIフォルダ のoutputに設定されています。設定が完了したら再生が押せるようになります。

ここからは棒読みちゃんみたいなものなので本文に読ませたいセリフを入れて“再合成”を押し、右のCUIにSuccessが出れば完了。“再生”をおして視聴です。モデルによっては漢字やカタカナに対応していないみたいなのでローマ字入力してみるとうまくいきます。

えーあいイラストの次は「声」 の学習データによる合成音声, 話題の音声せいせいAIの使い方.

コツと遊び方

本文下のメニューからシンボリックを選択するとアクセントを手動で組み込めるみたいです。

もう少し遊びつつ追記していきます。

言語指定 2800名の声優が選べるモデルの遊び方。

複数言語に対応したモデル(402_epochs.pth)は最初に[JA]といれて言語指定しないといけないみたいです。英語だと[EN]中国語だと[ZH]という感じ。

こんな感じで[JA]を指定します。

喘がせてみる

ゆずソフトの学習モデルにincluded Hというのがあったのでこれはと思い検証。

あ♡ あん♡ んっ♡ やばい♡ これ. なんか. くる. いく. んっ. んっ. はぁ. はぁ. はぁ. いや. あ. あA. あ!. はぁ. はぁ. はぁ.

学習元が本職のプロの人だけあってかなり精度が高い。ほかの学習モデルで同じことやってもゆっくりと変わらないようなものが生成できます。

目覚まし音声を作ってみる

おにいちゃん.朝だよ 起きて.おーきーてー.遅刻するよ。..おにいちゃん…起きてってばー.ねぇ.ねぇってばー,…もう.. おにいちゃん… 起きないと……お仕事遅れちゃうよ だから…起きてってばー

私のメインスマホにはMP3音源をアラームとして使える機能があったので、早速スマホに上の音源をうつしてアラームをセット。夢の「妹に起こしてもらう」シュチュエーションの完成です。

まとめ

まだ学習データが少ないので同人音声とまでは行きませんがもう少し研究がすすめばAIイラストによるCG、AI小説によるシナリオ、そしてAI音声合成による音声でゲーム作れそうです。

最近の1ヶ月毎にすごいAIが出てきて日本のオタク文化を侵略していく様はシンギュラリティを感じますね。数年前に流行った2045年問題を最前線で実感している感じがたまりません。新情報や新モデルが出たら追記していこうと思うのでまたアクセスしていただけると幸いです。

それでは

コメント

タイトルとURLをコピーしました