YKRV.NET - Terminal[v2.0.0]

-----------------------------

anonymous@ykrv.net:~$ open sidemenu

Connecting...[OK]

Checking permissions...[OK]

//

// DEPLOYED SIDE MENU

//

 



?: ᙍᖶᙍᖇᘉᓿᖶᖻ >>µñkñ¤wñ ¢¤ñt€ñt

VC Tool Song TechTest - "Weight of the world"

MMVCで自前のデータセットを構築してトレーニングさせた際の歌唱テスト記録を公開します。ただ、勘違いされないように個人研究目的・個人的に楽しむ為だけに実験を続けているだけという事だけ予め宣言しておきます。そして問題があれば削除します。

私(ナカノヒト)は一応歌唱には自信があるので元の声は音程の狂いなく歌えている...はずです。ただ、こちらの出力結果はそのままではなく、Auditionを用いてピッチ補正からマスタリング含めてバリバリ弄ってしまっているので元の音声はピッチ狂いがありますね。ただ、それでも少し狂ってる時があるだけで筋は悪くなかったです。逆にピッチ補正を入れるだけでここまで出来ているのは本当に驚きですよ...(勿論補正なしでもこれまでここまで出来たツールはお目にかかった事が無かったので感動モノですね)

次のバージョンで歌唱関連のテコ入れがあるようなのでもう少し変わるでしょうね。

非コーパス文を用いた学習済みモデルにて

Step: 35000

g/mel: 18.165983200073242

Client: v0.3.1.0 / Trainer: v1.3.2.2

+2023/04/09 追記

今度はRVCというVITSを用いた新たなシステム(so-vits-svcを継承してるっぽい?)が歌唱と語りで注目されているようなのでRVC版のデータも作成したので比較用に掲載しておきます。

非コーパス文を用いた学習済みモデルにて

Step: 9400

g/mel: 27.566

+Version

Huggingface側のrepo / RVC-beta.7z #4342f17

lj1995/VoiceConversionWebUI at main

【04/10】あれからMMVCモデルとほぼ同等のステップ数である35400stepまで回したモデルをチェックしましたが大きな変化はありませんでした。g/melもMMVCの学習時程、極端に値が下がる事がありませんでしたね。RVCモデルの場合は少ないEpochでもクオリティが良いと言われているようなのでEpoch数よりも入力するデータの質を重視した方が良さそうですね。(無音・雑音系ノイズに弱いという情報も入ってきていますし)

VC Clientは使用せず非リアルタイムでの結果を使用。(MMVCでは以前書いた記事の構成でリアルタイムに出力された結果をキャプチャしていました)

データセットはMMVCで使用した約200ファイル(変換後ボイス音声のみ)だけでは高音域が擦れてしまったので更に200追加して約400ファイル分になったので少しデータセットの前提条件が異なってしまいますが、自身の生声データと合わせればほぼ同量のデータセットでの学習になると言えそうです。

また、変換前の私の声は再録してますが前回収録時と同じ機材を用いてます(前の生声データは保存していなかったので...)

更にAudition側でのピッチ補正なし・他のFXはMMVC版で使用したものをそのまま継承してこの結果です。

ここからは比較レポートになりますが、大雑把にまとめると

・現状のMMVCでの歌唱品質は不安定で低いが、データセットの声の"個性"がしっかりと再現されやすい傾向にある。感情を乗せた語りは言うまでもなくMMVCの方が上。

・RVCは歌唱品質は安定しており高い方だがデータセットの声の"個性"が失われているように思える聞こえ方になる。(同じ人が歌ったっぽいけどそうではないと感じる程には)感情を乗せた語りは苦手。(ただし喋る内容にもよるのか? 男声ー>女声が単に苦手なだけかも)

"感情を乗せた語り"については歌の最後の 「...私は」 を聴き比べればよく分かるでしょうね。個人的には安定性よりは元の声の再現性を重視しているのでMMVCの動向に引き続き注目していきたい所ですね。(まあMMVCの方は自身の生声もデータセットに入れているので再現性が良好な傾向になるのは当然でしょうね)

とまあ、個人的にはこの手の技術は感情表現も含めたゆらぎと声の"個性"とも言えるコアな部分まで再現される事が最終目標の1つだと考えてはいるので、元となる声の"個性"をロストしている時点でRVCはまだまだという所でしょうか。歌唱品質面だけみれば凄まじいですが... まあ、進化速度も追いつけない程になっているのでまた半年後には大きく変わっているかもしれませんね。

Music Credit

+Instrumental

Origin: NieR:Automata / 壊レタ世界ノ歌 - Keiichi Okabe