VideoGameBunny:游戏场景理解的革命性开源大模型

在游戏开发中,人工智能大模型正逐渐成为关键技术,尤其是在场景理解、图像识别和内容描述方面。为了解决这些领域的挑战,加拿大阿尔伯塔的研究人员开发了一款名为VideoGameBunny(VGB)的开源大模型,专门针对游戏场景的理解。

VGB能够作为视觉AI助理,提供实时反馈,帮助玩家在探索型3A游戏中识别关键物品和进行问答,从而提升游戏体验。此外,它还能分析游戏图像数据,检测并修复图形渲染错误和物理引擎的不一致性,为游戏开发人员提供强有力的支持。

Videogamebunny:游戏场景理解的革命性开源大模型

VGB基于Bunny模型,采用多层感知器网络和强预训练视觉模型,支持高达1152×1152像素的图像分辨率。这一特性对于处理包含不同尺寸视觉元素的游戏画面至关重要。结合了LLama-3-8B语言模型、SigLIP视觉编码器以及S2包装器,VGB能够捕捉游戏中不同尺度的视觉元素,提供丰富的上下文信息。

在训练方面,VGB采用了LoRA参数高效微调方法,并利用PEFT库指导训练过程,以提高训练的高效性和稳定性。训练数据涵盖了来自413款不同游戏的185,000多张图像和近39万个图像-指令对,确保了模型的广泛适用性和准确性。

AD:精心整理了1000+好用的AI工具!点此获取

相关推荐