商汤科技在最新发布中展示了其国内首个流式原生多模态交互模型——日日新5.5系列中的5o,标志着AI交互模式的全新突破。该模型整合了文本、声音、图像和视频等多种模态,为AI与人类的交流带来了前所未有的生动性和丰富性。
1、核心交互体验
5o模型的实时交互能力,允许用户随时打断对话,提高了交互的自然度和灵活性。
模型能够精准识别并响应简笔画等视觉输入,展现了AI在视觉识别和交互方面的先进性。
2、Vimi模型
商汤科技还推出了Vimi,这是基于日日新5.5能力的首个可控人物视频生成大模型,仅需一张风格照片即可生成长达1分钟的视频内容。
Vimi的推出,为视频创作者提供了一个高质量AI工具,丰富了他们的创作手段。
3、技术揭秘
日日新5.5采用了混合端边云协同专家架构,有效降低推理成本,提升性能。
模型训练基于超过10TB tokens的高质量数据,包括合成的思维链数据,显著提升了语言理解和交互能力。
4、性能提升
日日新5.5在数学推理、英文理解、指令跟随等核心指标上均有显著提升,与GPT-4o相比,某些维度的分数甚至超越。
5、端侧模型
商汤推出了日日新端侧模型5.5Lite,首次安装包耗时仅为0.19秒,推理速度提高15%,达到每秒90.2个汉字的处理速度。
端侧模型矩阵包括多种专门定制的模型,如Mini写作助手、总结助手和百科助手,满足不同业务场景的需求。
6、价格策略
商汤科技推出了极具竞争力的价格策略,日日新5.5的端侧大模型使用成本最低可达每年9.9元,大幅降低了企业用户的使用门槛。
7、合作与普及:
商汤与超过3000家企业达成合作,覆盖互联网、医疗、金融和编程等多个领域。
提出了“0元Go”计划,为用户提供免费服务和支持,促进AI技术的普及和应用。