彩云科技 DCFormer

AI开源项目

彩云科技 DCFormer

通过改进注意力机制，DCFormer相比Transformer性能提升1.7-2倍。在相同训练数据和算力下，用DCFormer改进后的69亿参数模型效果超过120亿参数模型。

链接直达手机查看

近日，AI技术公司彩云科技发布了全新通用模型结构DCFormer，相关论文将在第41届国际机器学习大会ICML 2024正式发表。据一位评委透露，今年录用论文的平均分为4.25-6.33，而该论文获得平均7分。通过改进注意力机制，DCFormer相比Transformer性能提升1.7-2倍。在相同训练数据和算力下，用DCFormer改进后的69亿参数模型效果超过120亿参数模型。DCFormer模型代码、权重和训练数据集已开源发布，相关成果将陆续在彩云科技旗下产品彩云天气，以及小梦V4、小梦V5等模型上应用。
论文地址：
https://arxiv.org/abs/2405.08553
开源地址：
https://github.com/Caiyun-AI/DCFormer

相关导航

AIOpsLab：自动化运维智能代理开发与评估框架

微软开发的开源框架，旨在设计、开发和评估自主AIOps智能代理，并构建可复现、标准化、互操作性强且可扩展的基准测试环境。

Brain2Qwerty：Meta AI 推出的脑机接口模型

Meta AI 推出的一款非侵入性脑机接口（BCI）模型，能够通过脑电图（EEG）或脑磁图（MEG）信号解码打字内容。

DeepSeek-V3.2：创新稀疏注意力架构大模型

DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型，通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率，降低 API 成本 50%，性能达到 GPT-5 水平，同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。

Fish Audio S1-Mini：轻量化文本转语音模型

开源的轻量化文本转语音（TTS）模型，基于 S1 模型开发，参数规模为 5 亿，支持 14 种语言和 50+ 情感语气控制。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.