人工智能在连环画创作中的应用正逐渐深入,但如何让AI生成的连环画角色在连续的图像中保持一致性,一直是技术发展的瓶颈。现在,中山大学与联想团队的合作成果——AutoStudio,为这一问题提供了创新的解决方案。
AutoStudio采用了三个基于大型语言模型(LLMs)的智能体来处理用户交互,并结合了一个基于扩散模型的绘图器来生成高质量的图像。这一框架无需额外训练,即可实现即时的多轮图像生成,同时保持人物之间的复杂互动和角色的一致性。
在实验中,AutoStudio在定量和定性评估中均展现出优于现有方法的性能。它能够理解用户的自然语言指令,并生成主题一致的图像。例如,在多轮交互中,即使人物之间发生拥抱、接吻等复杂互动,AutoStudio也能够准确捕捉并表现这些细节。
AutoStudio的核心组件包括:
主题管理器:识别不同的主题并为其分配上下文;
布局生成器:生成包含每个主题及其组件的边界框和信息的粗略布局;
监督员:提供布局改进和修正的建议,形成布局细化的闭环流程;
绘制器:基于改进布局完成图像生成,引入了并行UNet(P-UNet)技术,增强文本和图像嵌入的潜在主题特征。
此外,AutoStudio还引入了一种主题初始化的生成方法,专门针对多ID绑定任务中主体丢失和融合的问题,通过单独生成主体粗粒度特征并进行局部替换,以提高生成图像的准确性。
在CMIGBench基准测试中,AutoStudio在平均弗雷谢特起始距离(aFID)、平均字符-字符相似度(aCCS)和平均文本-图像相似度(aTIS)等指标上均显著优于之前的方法,证明了其在多主题一致性和语义一致性方面的卓越性能。
AutoStudio的问世,标志着人工智能在连环画创作领域的一次重大技术突破。它不仅提高了生成图像的质量,更重要的是,它能够在多轮交互中保持角色的一致性,为用户提供了更加丰富和真实的视觉体验。随着技术的不断进步,我们期待AutoStudio在未来的连环画创作中发挥更大的作用。