腾讯LVCD：视频着色工具，视频着色技术的新突破

随着人工智能技术的飞速发展，视频着色技术也迎来了新的突破。最近，黄志同、张莫涵、廖静等研究人员在ACM图形学报和SIGGRAPH Asia 2024上发表了他们的最新研究成果——一种基于参考的线性视频着色框架（LVCD）。这项技术利用大规模预训练视频扩散模型，为线条视频提供了一种全新的着色方法，不仅提高了时间一致性，还特别适用于处理大动作场景。

在动画制作领域，视频着色一直是一个技术难题。传统的着色方法往往需要大量的人工参与，不仅耗时耗力，而且难以保证着色效果的一致性。然而，随着深度学习技术的发展，自动化的视频着色技术逐渐成为可能。

最近，来自香港城市大学的黄志同、张莫涵、廖静等研究人员提出了一种创新的视频着色方法——基于参考的线性视频着色框架（LVCD）。这种方法的核心在于利用大规模预训练的视频扩散模型，通过引入Sketch-guided ControlNet和参考注意力机制，实现了对线条视频的高效着色。

该研究团队首先设计了一个视频扩散框架，用于基于参考的线条视频着色。他们提出了草图引导的ControlNet和参考注意力机制，这使得模型能够生成由线条草图引导的、具有快速和广泛运动的动画。在模型架构上，他们进行了创新，通过顺序采样和重叠混合模块，成功地将视频扩散模型扩展到其原始的固定长度限制之外，从而能够生成长而时间一致的动画。

研究人员将他们的LVCD方法与五种现有的方法进行了定性比较，包括ACOF、TCVC、CNet+Refonly、EISAI和SEINE。通过对比《大鱼海棠》等动画的输入帧，LVCD在帧和视频质量以及时间一致性方面明显优于其他方法。