AI开源项目 | 网址分类目录

XiYan-SQL：自然语言到SQL的多生成器集成框架

XiYan-SQL是一个创新的框架，它采用多生成器集成策略来提高自然语言到SQL任务中的候选生成质量。

AnimateAnything：视频生成的一致性和可控性动画工具

一个统一的可控视频生成方法，它能够实现在不同条件下精确且一致的视频操作，包括相机轨迹、文本提示和用户动作注释。

AI试衣技术Fashion-VDM

一款基于视频扩散模型（VDM）的虚拟试穿技术，它能够结合给定的服装图像和人物视频，生成人物穿着该服装的高质量试穿视频。

AI换头技术CHANGER

CHANGER是一种新型头部融合管道，旨在为数字内容创作提供高保真的头部合成解决方案，特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。

Meissonic 图像生成模型

Meissonic是一款由阿里巴巴集团、Skywork AI及多所高校共同研发的颠覆性图像生成模型，它基于掩蔽图像建模技术，能够生成高质量、高分辨率的图像。

AlphaFold3：革命性的AI蛋白质结构预测工具

AlphaFold3是由谷歌DeepMind团队开发的AI模型，能够预测蛋白质、核酸（DNA和RNA）、小分子、离子及修饰残基等生物分子的三维结构。

通义千问开源Qwen2.5-Coder全系列

Qwen2.5-Coder是通义千问团队开源的一系列AI编程模型，旨在提升编程效率和性能，支持多种编程语言和代码相关任务。

字节跳动X-Portrait2肖像动画技术

一项由字节跳动和清华大学联合开发的肖像动画技术，它能够将静态肖像图像和驱动表演视频结合起来，生成具有高度表现力和真实感的角色动画和视频。

FLUX.1-dev LoRA 服装生成器

FLUX.1-dev LoRA 服装生成器利用先进的人工智能技术，为用户带来前所未有的时尚设计体验，让设计小白也能秒出服装效果图。

Meta MobileLLM 模型

Meta MobileLLM是Meta（前Facebook）推出的专为移动设备设计和优化的大型语言模型，旨在解决云计算成本上升和延迟问题，使其非常适合在资源受限的设备上运行。

Toy Box Flux：基于AI的3D渲染图像生成工具

Toy Box Flux 是一个利用AI生成图像训练的3D渲染模型，结合了3D LoRA模型和Coloring Book Flux LoRA的权重，形成了独特的风格，特别适合生成具有特定风格的玩具设计图像。

Sana：高效高分辨率图像合成工具

Sana 是一个文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像，并保持强文本图像对齐，可部署在笔记本电脑GPU上。

Llama-3.1-Nemotron-70B-Instruct-HF：NVIDIA推出的大型语言模型

NVIDIA推出的一款大型语言模型，它基于70亿参数的Nematron模型，经过特定指令训练，以提高其在自然语言处理任务中的性能和准确性。

F5-TTS 文本到语音转换工具

一个基于深度学习的文本到语音（Text-to-Speech，简称TTS）转换工具，由SWivid开发，旨在将文本转换为自然听起来的语音。

Pyramid-Flow：快手和北大联手开源的视频生成模型

一款由快手与北京大学联合研发并开源的视频生成模型。该模型利用深度学习技术，能够实现高质量的视频生成和处理，为用户提供了一种创新的视频内容创作工具。

Hugging Face OpenAI-Gradio AI构建网页应用工具

该工具让开发者可以在几分钟内启动AI应用，无需庞大团队和复杂的技术基础。对于企业而言，这意味着能够快速推出AI项目，提升创新能力，加速技术转化。

Apple Depth Pro AI 模型

苹果最新推出的 AI 模型 Depth Pro 在深度估计领域取得重大突破，能快速生成高分辨率的3D深度图，无需相机元数据。该模型工作速度快，能捕捉微小细节，提供绝对深度估计，且开源共享。

GS-VTON 3D虚拟试衣间

一种3D虚拟试衣技术，它通过使用高斯散射（3DGS）作为3D表示，实现了从2D虚拟试衣模型到3D空间的知识转移，同时提高了跨视图的一致性。

Revisit-Anything 视觉位置识别技术

Revisit-Anything 可以帮助用户高效地管理和回顾各种内容。它能够对文本、图像、代码等多种类型的文件进行分类和标记，方便用户快速找到所需内容。同时，该工具还支持搜索功能，用户可以通过关键词快速定位到特定的文件或信息。

西湖星辰Westlake-Omni

Westlake-Omni是一个开源的中文情感语音交互大语言模型，采用离散表示实现语音与文本模态的统一处理，支持低延迟生成和高质量的中文情感语音交互。

Hugging Face Chat macOS

HuggingFace公司最新推出的HuggingChat原生macOS客户端为macOS用户带来了无缝且直观的高级AI对话体验，支持本地使用语言模型，并集成了Markdown、网页浏览、代码语法高亮等实用功能。用户可以通过简单的安装步骤快速启动应用，随时享受强大的AI聊天能力。

Moshiko

由Kyutai实验室精心研发的全双工语音对话系统，它通过结合先进的文本语言模型、神经音频编解码器和多流音频语言模型，实现了更自然、更流畅的人机对话体验。

Video Game Bunny（VGB）

VideoGameBunny-V1是一个基于Hugging Face平台的预训练模型，专注于视频游戏内容的理解与生成，旨在为游戏开发者、内容创作者和AI研究者提供强大的工具。

Qwen2-VL

Qwen2-VL是一个基于自然语言处理（NLP）技术的语音到文本（Voice-to-Text）和文本到语音（Text-to-Speech, TTS）转换工具，旨在提供高质量的语音转换服务。

Magic Fixup

MagicFixup是由Adobe Research开发的一款创新工具，它通过学习和分析动态视频中的变化，来优化和提升静态照片的编辑效果，使编辑后的照片更加自然和逼真。

EmoTalk3D 数字人框架

EmoTalk3D是一款集成情感识别与三维虚拟角色交互的创新性沟通工具，能够根据用户的语音或文本输入自动生成对应的情感表达，实现与虚拟角色的深度情感交流。

面壁智能 MiniCPM-V2.6

MiniCPM-V是由OpenBMB开发的一款面向端侧部署的多模态大型语言模型（MLLM），支持图像、视频和文本输入，提供高质量的文本输出。

阿里CosyVoice语音生成模型

CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型，专注于高质量的语音合成，能够生成自然且逼真的语音。该模型支持多种语言、音色和情感控制，为用户提供了丰富的语音生成能力。

FLUX

Flux 是一个开源的、基于 Go 语言的轻量级、高性能的 API 网关，旨在简化微服务架构中的服务间通信。它提供了丰富的功能来增强 API 的安全性、可维护性和可扩展性。

GitHub Models

GitHub Models提供了一个交互式的模型游乐场，用户可以在这里测试不同的提示和模型参数，无需支付费用。此外，GitHub Models与Codespaces和VS Code集成，允许开发者在开发环境中无缝使用这些模型，并通过Azure AI实现生产部署，提供企业级安全和数据隐私保护。

Stable Video 4D（SV4D）

Stable Video 4D（SV4D）是由AI公司Stability AI推出的首个视频生视频模型。该模型能够将单个物体的单视角视频输入，转换成8个不同视角的多视角视频，为用户提供全视图3D动态视频体验。

CLASI 同声传译

CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟，采用多模态检索模块来增强特定领域术语的翻译，利用大型语言模型（LLMs）生成容错翻译，考虑输入音频、历史上下文和检索信息。在真实世界场景中，CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例（VIP），远超其他系统。