AI开源项目 | 网址分类目录

CogVLM2-Video是一个专注于视频理解的模型，它利用了大型语言模型和多模态对齐技术，以实现在开放领域中对视频内容的深入理解。该模型通过自动化的时间定位数据构建方法，生成了30k与时间相关的视频问答数据，并通过这些数据训练出了新的视频理解模型。

AI对口型项目EchoMimic

EchoMimic是一款由蚂蚁集团研究团队推出的创新技术，能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性，实现了更逼真和动态的人像生成。

HumanAIGC

HumanAIGC 是一个专注于人工智能生成内容（AIGC）的GitHub仓库，汇集了多个前沿的AI项目，旨在通过人工智能技术简化内容创作过程，提高创作效率和质量。

腾讯MimicMotion

MimicMotion是腾讯公司推出的一款人工智能人像动态视频生成框架，该框架利用先进的技术，能够根据用户提供的单个参考图像和一系列要模仿的姿势，生成高质量、姿势引导的人类动作视频。

Microsoft GraphRAG

GraphRAG，是一种基于图的RAG（检索增强生成）技术。GraphRAG旨在通过构建知识图谱来增强大模型在搜索、问答、摘要和推理等方面的能力。

AuraSR高清修复放大

AuraSR 是基于 GAN 的 Super-Resolution 模型，通过图像条件化增强技术，提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现，并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量，适用于图像处理领域。

视界一粟 YiSu

WorldDreamer 是一个由清华大学团队开发的先进的视频生成模型，它能够全面理解视觉动态，并在多种场景下生成视频。这个模型在图像到视频合成、文本到视频生成、视频修复、视频风格化甚至动作到视频生成等方面表现出色。

Meta AI NLLB

“No Language Left Behind”（NLLB），旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型，包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。

Hallo

Hallo是由复旦大学开发的一项前沿技术，专注于肖像图像动画。它利用先进的扩散模型生成逼真且动态的肖像动画，与传统的参数模型相比，Hallo技术提供了更为自然和流畅的面部动作。

HumanPlus

HumanPlus 是一个开源项目，旨在实现人形机器人的模仿学习和影子学习。该项目提供了人形影子变换器（Humanoid Shadowing Transformer, HST）和人形模仿变换器（Humanoid Imitation Transformer, HIT）的实现，以及全身姿态估计和相关硬件代码库的指南。

TabPedia 表格理解大模型

TabPedia是一个新型的大型视觉-语言模型，由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制，能够无缝集成多种视觉表格理解（VTU）任务，如表格检测、表格结构识别、表格查询和表格问题回答。

AutoStudio漫画制作模型

AutoStudio是一个基于文本到图像（Text-to-Image, T2I）生成模型的多轮交互式图像生成框架。它由三个基于大型语言模型（Large Language Models, LLMs）的代理和一个基于稳定扩散（Stable Diffusion, SD）的代理组成，用于生成高质量的图像序列。

LlamaGen

LlamaGen 是一个公开的GitHub项目，专注于使用Llama系列模型进行图像生成的自回归模型研究。LlamaGen项目可能是基于Meta公司发布的LLaMA（Large Language Model Meta AI）大语言模型进行图像领域的拓展和应用。

Follow-Your-Emoji

Follow-Your-Emoji是一个基于扩散模型的人像动画框架，能够将目标表情序列动画化到参考人像上，同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术，显著提升了模型在控制自由风格人像表情方面的表现，包括真实人物、卡通、雕塑甚至动物。此外，它还通过简单有效的逐步生成策略，扩展到稳定的长期动画，增加了其潜在的应用价值。

Yandex YaFSDP

YaFSDP是由俄罗斯科技巨头Yandex公司开源的一款大型语言模型（LLM）训练工具。它旨在通过优化GPU通信和减少内存使用量，来提高LLM训练的效率，并节省高达20%的GPU资源。

Follow Your Pose

腾讯混元团队与中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”，只需要输入一张人物图片和一段动作视频，就可以让图片上的人跟随视频上的动作动起来，生成视频长度可达10秒。

Mamba-2

Mamba-2是由普林斯顿大学和卡内基梅隆大学的华人研究人员共同开发的新一代AI架构，它通过结构化状态空间对偶性（SSD）统一了状态空间模型（SSM）和注意力机制（Attention），实现了性能的显著提升。

NEXA AI Octopus v4

NEXA AI，由两位斯坦福校友创办，提出了一种新方法，通过functional token整合多个开源模型，每个模型针对特定任务优化。他们开发了Octopus v4模型，智能地将用户查询引导至最合适的垂直模型，并重新格式化查询以实现最佳性能。

ViViD 虚拟试衣技术

ViViD 是一个创新的视频虚拟试穿框架，它利用扩散模型技术，结合服装编码器和姿态编码器，为用户提供逼真的视频试穿体验。

ScrapeGraphAI

ScrapeGraphAI 结合了大型语言模型（LLM）和直接图逻辑，为用户提供了一种高效的方法，用于构建针对网站、文档和XML文件的爬虫流水线。用户只需指定所需的信息类型，ScrapeGraphAI 就能自动完成数据抓取任务。

PCM：阶段一致性模型

PCM在图像处理方面有着更快更稳定的表现。PCM针对LCM的问题进行了改进，扩展了模型的应用范围，提高了图像和动画生成的质量。对于动画制作者来说，PCM的优化意味着节省后期处理时间，加快制作流程。未来在扩散模型领域有望迎来更多创新和突破。

EditWorld

EditWorld 是由北京大学、Tiamat AI、天工AI和Mila实验室联合开发的一个图像编辑项目。该项目的核心目标是模拟真实世界动态，以实现基于指令的图像编辑。通过引入世界指令（world-instructed）图像编辑，EditWorld 能够根据用户提供的指令，对图像进行精确的编辑和调整。

SignLLM：多语种手语生成模型

SignLLM 是全球首个多语种手语视频生成模型，能够将文本或语音指令实时转化为手语视频，为听障人士提供沟通新方式。

Hpcaitech Open-Sora

Open-Sora是一个由hpcaitech开源的类Sora架构视频生成模型，它基于Diffusion Transformer（DiT）架构，旨在通过文本描述生成高质量的视频内容。该项目涵盖了整个视频生成模型的训练过程，包括数据处理、训练细节和模型检查点，供对文生视频模型感兴趣的人免费学习和使用。

llama3-Chinese-chat(llama3 中文版)

llama3-Chinese-chat是一个开源项目，旨在将强大的llama3模型引入中文世界，使机器能够理解和生成高质量的中文对话。该项目由名为“CrazyBoyM”的开发者主导，通过整合优化后的中文版本模型和一系列教程、资源、工具，为开发者和使用者提供了便利。

3DGen-Arena

3DGen-Arena是由复旦大学和上海AI lab的研究人员开发的一个3D生成模型的人工评测竞技场。它旨在提供一个公开、匿名的平台，让用户对不同的3D生成模型进行比较和评价。

无偏水印（Unbiased Watermark）

该研究介绍了针对大型语言模型的无偏水印技术，表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架，确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法，而不会牺牲质量。

彩云科技 DCFormer

通过改进注意力机制，DCFormer相比Transformer性能提升1.7-2倍。在相同训练数据和算力下，用DCFormer改进后的69亿参数模型效果超过120亿参数模型。

Meta Chameleon

Chameleon 是由 Meta 的 FAIR（Facebook AI 研究）团队开发的突破性 AI 模型，可无缝集成文本和图像处理。与单独处理文本和图像的传统模型不同，Chameleon 从一开始就将它们一起处理，在理解和生成混合模式内容方面提供了前所未有的能力。这篇综合文章深入探讨了 Chameleon 的独特功能、创新训练技术及其在各种任务中的出色表现。

面壁智能 MiniCPM

MiniCPM-V 是一系列端侧多模态大型语言模型（MLLMs），专为视觉-语言理解设计。该模型以图像和文本为输入，提供高质量的文本输出。

Phi-3-vision-128k-instruct

Phi-3-vision-128k-instruct是Phi-3家族中的第一个多模态模型，拥有4.2B参数，支持128K的上下文长度。该模型结合了语言和视觉处理能力，能够在多种设备上高效地处理和响应图像及文本数据。

腾讯混元大模型开源项目

Hunyuan-DiT 是腾讯开源的一款强大的多分辨率扩散变换器（Diffusion Transformer），具备精细的中文理解能力。该模型旨在探索文本到图像的生成，支持中英文双语输入，并能够进行多轮对话式图像生成。

PuLID_ComfyUI

PuLID是一个新兴的ID保持项目，致力于提升ID保持效果并最小化对原始模型的影响。其核心优势包括高度一致性、多功能性、高保真度、稳定性和准确性，应用广泛。

英伟达视觉语言模型 VILA

VILA是由Efficient-Large-Model组织在GitHub上开源的一个视觉语言模型（Visual Language Model）。它是英伟达发布的一个模型，通过大规模的图像-文本数据进行预训练，从而实现了视频理解和多图像理解能力。

ComfyUI-IC-Light

ComfyUI-IC-Light是ComfyUI的原生插件，用于实现IC-Light技术。该技术允许用户通过一系列工作流程生成背景和重新打光，从而增强图像的视觉效果。它的重要性在于能够提供更自然和逼真的图像处理结果，尤其适用于需要高级图像编辑功能的用户。

Siri-Ultra

Siri-Ultra是一个基于云的智能助手，可以在Cloudflare Workers上运行，并且可以与任何大型语言模型（LLM）配合使用。它利用了LLaMA 3模型，并且通过自定义函数调用来获取天气数据和在线搜索。这个项目允许用户通过Apple Shortcuts来使用Siri，从而消除了对专用硬件设备的需求。

Anime gf（动漫女友）

一个本地且开源的CharacterAI替代工具，提供了一个用户友好的界面，允许用户在桌面上与虚拟角色互动。你可以自定义创建各种角色，让每个虚拟角色都有自己的独特个性和语言风格。

Tele-FLM大模型

。该方法通过多模态注意力机制，将视频和文本特征进行融合，并利用多语言翻译模型将不同语言的文本特征进行转换，从而实现跨语言的视频-文本检索。实验结果表明，该方法在多语言视频-文本检索任务上取得了较好的效果。

阿里通义 EMO

通义实验室研发的 AI 模型 ——EMO 正式上线通义 App，并开放给所有用户免费使用。借助这一功能，用户可以在歌曲、热梗、表情包中任选一款模板，然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

北大Open-Sora

Open-Sora 是由北京大学元组智能研究组开发的开源视频生成工具，基于 Stable Diffusion 模型，支持文本转视频、图像转视频、视频编辑等功能。

GitHub Copilot

AI 编码辅助工具，旨在通过提供上下文感知的代码补全和聊天辅助来提升开发者的工作效率。它集成到了流行的集成开发环境（IDE）中，并原生构建在 GitHub 平台上。

中国电信TeleChat 星辰语义大模型

TeleChat 是由中电信人工智能科技有限公司研发训练的大语言模型，提供了7B和12B两个版本的模型，以及它们的量化版本。该模型基于大量的中英文高质量语料进行训练，具备多种语言理解和生成能力。