colabを使用してAIによる歌唱を実現する

乌梅子酱

孙燕姿AI

！！！説明：

本チュートリアルは AI の学習と交流のためのものです。
著作権侵害を避けるため、このプロジェクトのすべてのデータとモデルは自分で解決する必要があります。
技術自体には善悪はありませんが、技術を違法行為に利用することは禁止されています。

イントロ#

この数日間、さまざまなビデオプラットフォームで「マイナーな歌手」である孫燕姿が話題になっていることでしょう。AI が孫燕姿の声をリアルに合成し、他の曲を歌っています。そうです、上記の音痴バージョンの「乌梅子酱」は、この技術を利用して実現されています。今日は、その背後にある技術を簡単に紹介し、どのようにして翻唱を実現するかを教えます。

プロジェクトの紹介#

Sovits（So-vits-svc）は、中国の民間の歌声合成愛好家である Rcell が VITS、soft-vc、VISinger2 などの一連のプロジェクトを基に開発したオープンソースの無料の AI 音声変換ソフトウェアです。音色の再現が可能であり、非常に優れたボイスチェンジャーと言えます。

colab の紹介#

colab を使う理由#

パフォーマンスの良いコンピュータを持っている方は、自分のコンピュータでトレーニングを行うことができます（NVIDIA の GPU が必要です）。私のコンピュータは薄型ノートパソコンで、このプロジェクトを実行することができません。そのため、Google の colab を使用して翻唱デモを行います。

colab とは#

簡単に言えば、colab は Google が開発者に提供するオンライン計算リソースプラットフォームです。私のように、学習時に計算リソースが必要な場合、個人のコンピュータでは要件を満たすことができないため、colab を使用することができます。

colab は無料で使用することもできますし、有料で使用することもできます。無料の場合はパフォーマンスがやや劣りますが、有料の場合は計算リソースに応じて料金が発生します。以前は、私は「stable diffusion」を実行するためにこれを使用していましたが、無料ユーザーが colab で stable diffusion を実行することを禁止されたため、いつ制限されるかわかりません。

データとモデルの準備#

このプロジェクトでは、AI の翻唱だけでなく、AI に自分の言葉を再述させることもできます。それはまるでボイスチェンジャーのようなものです。皆さんは自分のモデルをトレーニングすることができますが、ここではデモとして、李荣浩の「乌梅子酱」を翻唱する方法だけを教えます。

1. まず、翻唱したい曲を用意する必要があります。このプロジェクトは翻唱のみなので、ボーカルの分離が必要です。オンラインツールを使用して分離操作を行うことができます。
2. 分離されたボーカルとバックグラウンドミュージックをダウンロードし、翻唱が完了したらボーカルとバックグラウンドミュージックを組み合わせます。
3. 1 曲は通常 3〜4 分ですが、GPU のパフォーマンスが不足しているため、音声を 1 分未満のセグメントに分割し、個別にトレーニングし、最後に結合します。

他の人がトレーニングした孫燕姿の音声モデルをダウンロードする

ボーカルの分離

データとモデルは自分でダウンロードしてください

さて、では colab を使って AI 翻唱を行う方法を正式に学んでいきましょう。

プロジェクトを開く#

まず、GitHub のプロジェクトのリンクを開き、ページの一番下にスクロールして「Colab notebook scripts」を見つけ、矢印で示されたリンクをクリックします。もう一つはトレーニングのプロジェクトです。

プロジェクトのリンク

colab のノートページが開かれ、先ほど説明した jupyter と非常に似ていることがわかります。これは他の人のノートブックなので、自分の Google ドライブにコピーして保存する必要があります。

コピーを保存

コピーを保存 2

設定#

保存が完了したら、プロジェクトが GPU で実行されているかどうかを確認する必要があります。まず、リンクをクリックして接続し、実行することでサーバーを実行します。または、最初の実行を直接クリックすることもできます。ここでのTesla T4は GPU のモデルですが、他の GPU の場合もあります。Google は現在の計算リソースの要件に基づいて自動的に割り当てます。

GPU の確認

GPU

次に、これらの 2 つの設定コードを順番に実行します。無料のマシンでは実行が非常に遅いため、忍耐強く待つ必要があります。Setup 1が完了したら、Setup 2を実行します。その後、以下のコードを実行して ContentVec と hugging face をダウンロードします。ダウンロード速度が非常に速いことがわかります。

ContenVec

HF モデルのダウンロードが完了したら、特定のモデルをダウンロードするためにリストをクリックすることができます。私は孫燕姿のモデルを使用しているので、他のモデルをアップロードする必要があります。

クラウドストレージの接続とデータのアップロード#

左上のクラウドストレージボタンをクリックすると、クラウドストレージに接続するためのコードが表示されます。指示に従って実行し、アクセス許可を与えることで、このプロジェクトとクラウドストレージを接続します。これは第三者に権限を与えるのではなく、安心して使用できるものです。

次に、自分の Google ドライブを開き、自分のモデルをアップロードし、共有ボタンをクリックしてアクセス権を開き、この共有リンクを受け取ったすべての人が使用できるようにします。共有リンクをコピーして下のボックスに貼り付け、実行するとモデルが自動的にダウンロードされます。

共有リンク

共有リンク 2

次に、下の行の解凍プログラムを実行して、モデルを解凍します。

モデルの解凍

トレーニング#

スライスされたボーカルオーディオファイルを raw フォルダにアップロードし、パラメータを設定し、「Convert」をクリックしてトレーニングを開始します。

パラメータ

トレーニングの開始

ヒント：

音声はできるだけ小さくし、1 分を超えないようにしてください。おすすめは 40 秒程度です。

一度に 1 つの音声のみをアップロードし、トレーニングが完了したら次の音声をアップロードしてトレーニングを行います。

パラメータは最初はデフォルトのままにして、トレーニングの効果に応じて調整してください。

まとめ#

今日は、Sovitsプロジェクトを簡単に紹介し、colab を使用して自分の好きな曲を翻唱する方法を学びました。皆さんは自分で実際に手を動かして体験することができます。興味がある場合は、GitHub プロジェクトを使用して自分の好きなモデルをトレーニングすることもできます。チュートリアルは bilibili にもありますが、違法行為を禁止し、著作権を侵害しないように注意してください。AI を楽しんだり学んだりするだけで十分です。