EchoMimicV2:迈向引人注目、简化版半身人体动画免费版教程

⚒️ 自动安装

下载代码

  git clone https://github.com/antgroup/echomimic_v2
  cd echomimic_v2

自动设置

  • CUDA 版本需大于等于 11.7,Python 版本需等于 3.10。
   sh linux_setup.sh

⚒️ 手动安装指南

下载代码

  git clone https://github.com/antgroup/echomimic_v2
  cd echomimic_v2

Python 环境配置

  • 经过测试的系统环境:CentOS 7.2/Ubuntu 22.04,Cuda 版本不低于 11.7
  • 经过测试的显卡:A100(80G) / RTX4090D (24G) / V100(16G)
  • 经过测试的 Python 版本:3.8 / 3.10 / 3.11

创建 conda 环境(推荐):

  conda create -n echomimic python=3.10
  conda activate echomimic

使用 pip 安装软件包

  pip install pip -U
  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124
  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
  pip install -r requirements.txt
  pip install --no-deps facenet_pytorch==2.6.0

下载 ffmpeg-static

下载并解压 ffmpeg-static 后,接着进行下一步操作。

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

下载预训练权重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

预训练权重的组织结构如下。

./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── pose_encoder.pth
├── sd-vae-ft-mse
│   └── ...
└── audio_processor
    └── tiny.pt

在此,denoising_unet.pthreference_unet.pthmotion_module.pth 及 pose_encoder.pth 是 EchoMimic 的主要检查点。本中心的其他模型也可以从它们的原始中心下载,感谢他们的杰出工作:

在演示上进行推理

运行 gradio:

python app.py

运行 Python 推断脚本:

python infer.py --config='./configs/prompts/infer.yaml'

运行 Python 推理脚本以加速版本。务必检查加速推理的配置设置:

python infer_acc.py --config='./configs/prompts/infer_acc.yaml'

EMTD 数据集

下载数据集:

python ./EMTD_dataset/download.py

切片数据集:

bash ./EMTD_dataset/slice.sh

处理数据集:

python ./EMTD_dataset/preprocess.py