FRESCO旨在将文本到图像的扩散模型的显著效果扩展到视频领域,而无需进行模型训练。它通过引入帧内对应和帧间对应来建立更强大的空间-时间约束,从而确保在帧之间转换语义上相似的内容时具有更高的一致性。这种方法不仅指导注意力机制,还涉及特征的显式更新,以实现与输入视频的高空间-时间一致性,显著提高了翻译视频的视觉连贯性。
特点
- 时间一致性:使用帧内和帧间约束,与仅使用光流相比,具有更好的一致性和覆盖率。
- 零样本:不需要训练或微调。
- 灵活性:与现成的模型兼容,例如ControlNet和LoRA,用于定制化翻译。
更新
- 2023年3月:发布了论文和代码。
- 2024年3月:创建了项目网站。
安装和使用
FRESCO提供了详细的安装指南,包括克隆仓库、设置环境、运行安装脚本和运行演示。它还提供了一个WebUI,允许用户上传视频、输入提示、选择模型和种子,以及执行关键帧检测和视频翻译。此外,FRESCO还提供了命令行脚本run_fresco.py
,通过配置文件设置选项来运行方法。
开源地址: https://github.com/williamyang1991/fresco
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...