
在人工智能领域,大型基础模型的研究与应用一直是科研和产业界的热点。近日,科技巨头苹果公司公布了自家多模态大模型研究成果——MM1,这一具有高达300亿参数的模型,不仅展示了苹果在生成式人工智能领域的深厚实力,更凸显了华人科研团队在全球科技创新中的重要作用。
据悉,MM1模型是由苹果内部一支以华人为主的研发团队打造,其参数规模高达300亿,采用多模态和MoE(混合专家)架构,旨在实现更高效的文本和图像处理能力。这一创新成果的发布,无疑为苹果在人工智能领域的布局增添了浓墨重彩的一笔。
在MM1模型的研究过程中,研发团队在模型架构决策和预训练数据选择上进行了一系列小规模消融实验,发现了多个有趣的趋势。例如,在建模设计方面,图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据的重要性依次排列。这些发现为构建高性能的多模态大型语言模型提供了宝贵的经验。
此外,研究团队还使用了三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,不同类型的预训练数据对模型性能的影响各有侧重。在少样本和纯文本性能上,交错和纯文本训练数据表现出较强的优势;而在零样本性能上,字幕数据则更为重要。这些发现为未来的模型训练提供了有益的指导。
MM1模型在预训练指标中实现了SOTA(当前最佳)性能,并在一系列已有多模态基准上监督微调后也保持了有竞争力的性能。这一成果不仅展示了苹果在人工智能领域的深厚实力,也体现了华人科研团队在全球科技创新中的卓越贡献。
值得注意的是,MM1模型的研发过程中,华人团队发挥了至关重要的作用。他们的专业知识和创新精神为模型的构建和优化提供了有力支持。这也再次证明了华人科研人员在全球科技领域的重要地位和影响力。


