一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。
TANGOFLUX是一个高效的文本到音频(TTA)生成模型,拥有515M参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。
FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型,用图文对比学习让机器“看得懂”人脸与文本的对应关系。
先进的文本到图像生成模型,支持中文和英文输入,能够根据文本描述生成高质量的图像。
能够实现视频中人物的精准替换和动作表情的无缝迁移,为创意设计和影视制作提供强大的技术支持。
CogVLM2-Video是一个专注于视频理解的模型,它利用了大型语言模型和多模态对齐技术,以实现在开放领域中对视频内容的深入理解。该模型通过自动化的时间定位数据构建方法,生成了30k与时间相关的视频问答数据,并通过这些数据训练出了新的视频理解模型。
DeepSeek 开源的一款高性能通信库,专为混合专家模型(MoE)和专家并行(EP)设计,提供高吞吐量和低延迟的通信解决方案,显著提升大规模分布式训练和推理的效率。
TANGOFLUX是一个高效的文本到音频(TTA)生成模型,拥有515M参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。