今回は音声に合わせて
リップシンク動画を作成できる
「Wav2Lip」でリップシンク動画を
作ってみました


解説動画はこちら



はじめに:

Wav2Lip: Accurately Lip-syncing Videos In The Wild

このWav2Lipというライブラリは
動画内の人物の口の形を
音声にあわせて変える事ができます

これを使えば簡単に
リップシンク動画を作る事ができます

音声に合わせて、動画の方を変えられるので
言ってない事を言ってる様に
見せる事ができます


インストール方法

Google Colabでの利用方法です

1.ランタイムのタイプを変更から「GPU」に変更する

CPUでは利用できないようなので
ランタイムの変更から「GPU」
に切り替えておきましょう

2.ライブラリのインストール
結構たくさんあるんですが
次のコードでライブラリ群のインストールが出来ます

Google Drive を利用するので
空き容量は確認しておきましょう
# MiniCondaのインストール
%%bash
MINICONDA_INSTALLER=Miniconda3-py37_4.8.2-Linux-x86_64.sh
MINICONDA_DOWNLOAD_HP=https://repo.anaconda.com/miniconda
MINICONDA_PREFIX=/usr/local
wget $MINICONDA_DOWNLOAD_HP/$MINICONDA_INSTALLER
chmod +x $MINICONDA_INSTALLER
./$MINICONDA_INSTALLER -b -f -p $MINICONDA_PREFIX
# Googleドライブのマウントと作業フォルダへの移動
from google.colab import drive
drive.mount('/content/drive')
%cd '/content/drive/My Drive/'
!mkdir W2L
%cd 'W2L'
# パッケージのインストール
!git clone https://github.com/Rudrabha/Wav2Lip.git
%cd Wav2Lip
!pip install -r requirements.txt
!pip install resampy==0.3.1
3.モデル(wav2lip.pth)を「Wav2Lip/checkpoints」に配置

以下のURLよりモデルをダウンロードして
checkpointsフォルダにアップロードする
モデルのダウンロード先

リンクは「Model」の「Wav2Lip」の「Link」です
ダウンロードやアップロードに時間がかかるので
Google DriveのUIで操作する方が早いかもしれません


4.音声と動画を「Wav2Lip」フォルダの直下に配置

音声(WAV形式) : ファイル名.wav
動画(MP4形式) : ファイル名.mp4
という名称でファイルを置いておきましょう

配置したファイルの確認は
次のコードで行えます

# 音声ファイルの確認
from IPython.display import Audio

audio_file_path = "kosakana.wav"
Audio(audio_file_path)

5.推論を実行

resultsフォルダ内に結果出力されます

!python inference.py \
    --checkpoint_path checkpoints/wav2lip.pth \
    --face 動画ファイル名.mp4 \
    --audio 音声ファイル名.wav

あとは出来上がりを確認してみましょう
どんなリップシンク動画になったのかは
動画をご覧ください

それでは