在信息爆炸的时代,表格数据无处不在,从科学研究到日常办公,表格成为我们获取和整理信息的重要工具。然而,表格的理解与处理往往需要专业的技能和大量的时间。字节跳动与中科大联合研发的TabPedia,正是为了解决这一问题而生。
多模态大模型,一站式解决表格难题
TabPedia模型利用多模态大模型的优势,将表格检测(TD)、表格结构识别(TSR)、表格查询(TQ)和表格问题回答(TQA)等多种任务集于一身,通过概念协同机制,实现了任务和信息的无缝整合。
创新技术,提升表格处理效率
TabPedia在测试数据集上展现出色的表现,无需后处理算法即可精准识别表格位置,并直接生成无重叠的检测框。在表格结构识别任务中,它能够生成连续的表格结构元素及相应检测框,有效解决了标记语言处理空间坐标不足的问题。
开源测试基准,推动技术发展
为了更好地评估模型性能,研究团队还构建了一套开源测试基准ComTQA,包含约9000个高质量的表格问答对,覆盖了多种复杂问题类型,如多答案、数学计算和逻辑推理,为模型的评估提供了更为全面的测试环境。
技术细节,展现模型实力
TabPedia采用高低分辨率视觉编码器和映射层,结合Vicuna-7B语言模型,通过引入Meditative Tokens实现概念协同,自适应地激活不同区域的视觉tokens,理解特定任务问题的意图。