はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー﹁RVC﹂の変換例です︵Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です︶。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項 本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。 したがって、この記事の
![【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ](https://cdn-ak-scissors.b.st-hatena.com/image/square/11fc40f983900c5bedd6787c6fa6ab31c935196a/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--9bNLxhn_--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E3%252580%252590%2525E5%25259B%2525B3%2525E8%2525A7%2525A3%2525E3%252580%252591%2525E8%2525B6%252585%2525E9%2525AB%252598%2525E6%252580%2525A7%2525E8%252583%2525BDAI%2525E3%252583%25259C%2525E3%252582%2525A4%2525E3%252582%2525B9%2525E3%252583%252581%2525E3%252582%2525A7%2525E3%252583%2525B3%2525E3%252582%2525B8%2525E3%252583%2525A3%2525E3%252583%2525BC%2525E3%252580%25258CRVC%2525E3%252580%25258D%2525E3%252581%2525AE%2525E3%252581%252597%2525E3%252581%25258F%2525E3%252581%2525BF%2525E3%252583%2525BB%2525E3%252582%2525B3%2525E3%252583%252584%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Amossan_hoshi%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EtL0FPaDE0R2dfWU0zbjhpS2hvOGtURGlHdGNzYldTQ1lneVNqbHNSd1pRTlVFPXM5Ni1j%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)