AI开源项目 | 网址分类目录 | AI工具箱

AI开源项目

MIDI：从单张图像到3D场景生成的多实例扩散模型

能够从单张图像生成高保真3D场景，通过捕捉物体间的交互关系和空间一致性，实现高效且高质量的3D场景生成。

阿里通义VACE：视频生成与编辑的全能工具

阿里巴巴通义实验室推出的全能型视频生成与编辑框架，集多种功能于一体，能够高效完成复杂的视频创作和编辑任务。

潞晨科技Open-Sora：高效视频生成的开源平台

高效生成高质量视频的开源项目，旨在通过开源原则，让视频生成技术更加普及化，为内容创作者提供简化复杂流程的平台。

AppAgentX：会自我进化的智能体，让AI像人一样操作手机

一款具备自我进化能力的GUI代理工具，旨在通过智能体自主学习和进化机制，高效地操作智能手机应用。

MiniMax Image-01：高效且低成本的文本到图像生成模型

MiniMax推出的全新文本到图像生成模型，旨在通过高效的图像生成能力和极低的使用成本，帮助用户快速将文本描述转化为高质量的图像。

V-JEPA：Meta的创新视觉模型，开启视频自监督学习新时代

Meta推出的一种新型视频自监督学习模型，能够通过观看视频自主学习物理世界的视觉表示，无需外部标注数据。

B站推出的IndexTTS：工业级可控高效的零样本文本到语音系统

可控高效零样本文本到语音（TTS）系统，基于XTTS和Tortoise开发，能够纠正中文发音并控制停顿，同时在音质和说话者相似度方面表现出色。

DeepEP：专为混合专家模型设计的高效通信库

DeepSeek 开源的一款高性能通信库，专为混合专家模型（MoE）和专家并行（EP）设计，提供高吞吐量和低延迟的通信解决方案，显著提升大规模分布式训练和推理的效率。

Step-Video-T2V：开源的高参数文本到视频生成模型

一款由阶跃星辰团队开发的开源文本到视频生成模型，拥有 300 亿参数，能够根据文本提示生成长达 204 帧的高质量视频，支持中英双语输入，并通过深度压缩技术和直接偏好优化提升生成效果。

字节跳动 Phantom：主体一致视频生成框架

视频生成框架，通过跨模态对齐技术结合文本和图像提示，从参考图像中提取主体元素并生成与文本描述一致的视频内容。

Magic1-For-1模型：高效生成高质量视频的AI工具

北京大学、Hedra Inc.和Nvidia联合推出的一款高效视频生成模型，能够在短时间内生成高质量的视频片段。

Step-Audio：阶跃开源的130B语音模型

一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

SkyReels-V1：昆仑万维开源AI短剧创作视频生成模型

昆仑万维开源的中国首个面向AI短剧创作的视频生成模型，能够实现影视级人物微表情表演生成和高质量视频创作。

Light-A-Video：无需训练实现视频重新打光

一款无需训练即可实现视频重光照的工具，通过渐进光融合技术，能够快速生成高质量且光照一致的视频。

阿里巴巴Animate Anyone2：高保真角色动画生成技术

能够实现视频中人物的精准替换和动作表情的无缝迁移，为创意设计和影视制作提供强大的技术支持。

快手CineMaster：开启3D感知视频创作新时代

它允许用户通过多种控制信号精确控制生成视频中物体的位置和相机运动，带来前所未有的创作自由度。

InspireMusic：阿里通义实验室开源的音乐生成技术

一款基于PyTorch的音乐生成工具包，支持高音质音乐、歌曲和音频生成，能够通过文本提示、音乐风格和结构等进行可控生成。

Zonos-TTS：高保真多语言文本到语音模型

一款高保真多语言文本到语音（TTS）模型，支持实时语音克隆和多语言情感控制，能够生成自然、富有表现力的语音。

Brain2Qwerty：Meta AI 推出的脑机接口模型

Meta AI 推出的一款非侵入性脑机接口（BCI）模型，能够通过脑电图（EEG）或脑磁图（MEG）信号解码打字内容。

字节豆包 VideoWorld：自回归视频生成模型

一款自回归视频生成模型，能够通过未标注的视频数据学习知识，并在围棋和机器人控制等任务中表现出色。

DeepSeek Janus-Pro-7B：多模态AI图像生成与理解工具

一款开源的多模态AI模型，专注于图像生成与多模态理解任务，性能超越DALL-E 3和Stable Diffusion，适用于创意设计、教育、企业隐私保护等多种场景。

AIOpsLab：自动化运维智能代理开发与评估框架

微软开发的开源框架，旨在设计、开发和评估自主AIOps智能代理，并构建可复现、标准化、互操作性强且可扩展的基准测试环境。

网易有道子曰-o1推理模型：开启教育推理新时代

国内首个输出分步式讲解的推理模型，专为教育场景设计，能够通过思维链技术模拟人类思考过程，帮助学生更好地理解和掌握知识。

Textoon：漫画AI，基于文本生成角色图像的AI工具

支持中英文提示词的AI角色生成工具，能够根据用户输入的描述生成具有独特外观和风格的角色图像。

TANGOFLUX：超快忠实的文本到音频生成工具

TANGOFLUX是一个高效的文本到音频（TTA）生成模型，拥有515M参数，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。

VMix：提升文本到图像扩散模型的美学质量

VMix 是一个用于提升文本到图像扩散模型美学质量的插件式美学适配器。它通过在图像生成过程中引入美学控制，增强了生成图像的美学表现，同时保持了图像与文本的对齐。

INFP：音频驱动的双向对话交互式头部生成框架

INFP是一个音频驱动的交互式头部生成框架，能够在双向对话中动态合成具有逼真面部表情和节奏性头部姿态动作的代理视频。

ColorFlow：检索增强型图像序列着色

给定一个参考图像池，ColorFlow 能够为黑白图像序列中的各种元素（包括角色的头发颜色和服装）准确地生成颜色，并确保与参考图像的颜色一致性。

Sketch2Sound AI音频工具哼唱和模仿创建音效

一个可控音频生成模型，能够根据一组可解释的时变控制信号（响度、亮度、音高）和文本提示来创造高质量的声音。

Meta Video Seal：AI视频水印工具

Meta 公司推出的开源 AI 视频水印工具，旨在通过在 AI 生成的视频中加入不可察觉的水印来打击深度伪造和保护原创内容。

HelloMeme：创新表情包视频生成工具

一款集成空间编织注意力的扩散模型工具，用于简化表情包视频的制作过程，提升图像和视频生成的质量和效率。

SAMURAI：零样本视觉跟踪工具

SAMURAI 是一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具，它通过引入时间运动线索和运动感知记忆选择机制，实现了无需重新训练或微调的鲁棒、准确跟踪。

1 2 3 4 5 6 7