一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。
CogView3是一个基于级联扩散框架的文本到图像生成系统,通过中继扩散技术实现精细且快速的图像生成。
CoMPaSS-FLUX.1是一种基于FLUX.1文本到图像扩散模型的LoRA适配器,可显著提升生成图像时对物体空间关系的理解能力。
Janitor AI是由janitorai.com开发的一款强大的平台,允许用户创建具有不同个性的NSFW虚构聊天机器人角色。该平台由大型语言模型驱动,包括OpenAI的GPT模型。
GameGen-O:一款专为开放世界视频游戏生成而设计的扩散变换器模型。
VibeVoice-1.5B 是微软开源的文本转语音(TTS)大模型,可一次性生成 90 分钟高保真、多人轮替的长篇语音,并达到 3200 倍超高音频压缩率。
NiuTrans.LMT 是东北大学开源的多语言翻译大模型,凭借双中心架构与三层语言覆盖设计,支持 60 种语言、234 个翻译方向,在低资源语言翻译领域实现重大突破,兼顾翻译效率与准确性,为跨文化交互提供高效开源解决方案。
CogView3是一个基于级联扩散框架的文本到图像生成系统,通过中继扩散技术实现精细且快速的图像生成。