随着人工智能技术的飞速发展,视频着色技术也迎来了新的突破。最近,黄志同、张莫涵、廖静等研究人员在ACM图形学报和SIGGRAPH Asia 2024上发表了他们的最新研究成果——一种基于参考的线性视频着色框架(LVCD)。这项技术利用大规模预训练视频扩散模型,为线条视频提供了一种全新的着色方法,不仅提高了时间一致性,还特别适用于处理大动作场景。
在动画制作领域,视频着色一直是一个技术难题。传统的着色方法往往需要大量的人工参与,不仅耗时耗力,而且难以保证着色效果的一致性。然而,随着深度学习技术的发展,自动化的视频着色技术逐渐成为可能。
最近,来自香港城市大学的黄志同、张莫涵、廖静等研究人员提出了一种创新的视频着色方法——基于参考的线性视频着色框架(LVCD)。这种方法的核心在于利用大规模预训练的视频扩散模型,通过引入Sketch-guided ControlNet和参考注意力机制,实现了对线条视频的高效着色。
该研究团队首先设计了一个视频扩散框架,用于基于参考的线条视频着色。他们提出了草图引导的ControlNet和参考注意力机制,这使得模型能够生成由线条草图引导的、具有快速和广泛运动的动画。在模型架构上,他们进行了创新,通过顺序采样和重叠混合模块,成功地将视频扩散模型扩展到其原始的固定长度限制之外,从而能够生成长而时间一致的动画。
研究人员将他们的LVCD方法与五种现有的方法进行了定性比较,包括ACOF、TCVC、CNet+Refonly、EISAI和SEINE。通过对比《大鱼海棠》等动画的输入帧,LVCD在帧和视频质量以及时间一致性方面明显优于其他方法。
LVCD方法的成功,不仅展示了人工智能在视频着色领域的潜力,也为动画制作提供了一种新的技术手段。这项技术能够生成高质量、长时间一致且动作较大的动画视频,这在以前的研究中是无法实现的。随着技术的不断进步,我们有理由相信,未来动画制作将更加高效和智能。