VideoGameBunny：游戏场景理解的革命性开源大模型

在游戏开发中，人工智能大模型正逐渐成为关键技术，尤其是在场景理解、图像识别和内容描述方面。为了解决这些领域的挑战，加拿大阿尔伯塔的研究人员开发了一款名为VideoGameBunny（VGB）的开源大模型，专门针对游戏场景的理解。

VGB能够作为视觉AI助理，提供实时反馈，帮助玩家在探索型3A游戏中识别关键物品和进行问答，从而提升游戏体验。此外，它还能分析游戏图像数据，检测并修复图形渲染错误和物理引擎的不一致性，为游戏开发人员提供强有力的支持。

VGB基于Bunny模型，采用多层感知器网络和强预训练视觉模型，支持高达1152×1152像素的图像分辨率。这一特性对于处理包含不同尺寸视觉元素的游戏画面至关重要。结合了LLama-3-8B语言模型、SigLIP视觉编码器以及S2包装器，VGB能够捕捉游戏中不同尺度的视觉元素，提供丰富的上下文信息。

在训练方面，VGB采用了LoRA参数高效微调方法，并利用PEFT库指导训练过程，以提高训练的高效性和稳定性。训练数据涵盖了来自413款不同游戏的185,000多张图像和近39万个图像-指令对，确保了模型的广泛适用性和准确性。

AD：精心整理了2000+好用的AI工具！点此获取