低成本移动操作机器人,旨在为机器人爱好者和研究人员提供一个易于组装和使用的平台。
RoboBrain 2.0 是目前最强的开源具身智能大脑模型,让机器人“看得更清、想得更多、做得更巧”。
谷歌DeepMind开源的GenAI Processors库,是一个轻量级、高效的Python工具,能帮开发者快速构建异步、可组合的生成式AI工作流,特别适合实时处理音频、视频和文本等多模态数据。
Google 推出的 MedGemma 是目前最强大的开源医疗 AI 模型之一,专为医疗健康领域的 AI 开发而设计。
Reachy Mini 是 Hugging Face 推出的开源桌面机器人,专为 AI 开发者设计,支持 Python 编程,接入 Hugging Face Hub,轻松玩转 170 万+ AI 模型。
微软最新推出的超轻量级AI推理模型,让手机也能轻松运行强大的AI推理功能!
阿里HumanOmniV2是由阿里巴巴通义实验室开发的一款多模态AI系统,能够通过分析视频、音频、文字等多种信息,像人类一样理解复杂的社交情境和人类意图。
PaddleOCR 3.1 是一款基于飞桨深度学习框架开发的开源光学字符识别(OCR)工具,凭借其高精度、多语言支持和强大的文档解析能力,广泛应用于文档处理、信息提取等场景。
DLoRAL是由香港理工大学与OPPO研究院联合推出的一款开源视频超分辨率框架,基于扩散模型实现一步生成高清视频,为视频超分辨率领域带来了革命性突破。
Pickle 团队开发的开源 AI 桌面助手,旨在成为用户的“数字大脑扩展”,通过实时捕捉屏幕和音频活动,将零散信息转化为结构化知识,提升工作效率。
通过创新的“专家集成”策略融合了多个高性能父模型,显著提升了推理速度和效率。
LongAnimation 是一款专注于生成长动画的工具,通过动态全局局部记忆机制实现理想的长期色彩一致性,解决了传统方法在长动画生成中色彩不一致的问题。
Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型,专为移动设备优化,能够在本地快速生成高质量音频。
VINCIE-3B是由字节跳动开源的一款3亿参数的上下文连续图像编辑模型,基于其内部MM-DiT架构开发。
DeepSWE 是一款基于 Qwen3-32B 模型,完全通过强化学习训练而成的开源 AI Agent 系统,旨在提升软件工程任务的自动化和效率。
一款专注于动漫视频生成的人工智能工具,旨在通过优化生成质量、动作流畅度和风格多样性,为动漫、漫画及VTuber内容创作者提供更强大的创作支持。
EX-4D是一种先进的4D视频合成工具,能够将单目视频转化为可在极端视角下自由控制的4D视频体验,生成高质量且物理一致的结果。
Ovis-U1是由阿里巴巴国际AI团队发布的多模态大模型,集多模态理解、文本到图像生成和图像编辑三种核心能力于一身,展现了强大的跨模态处理能力。
中国首个海洋领域的开源大模型,由浙江大学海洋精准感知技术全国重点实验室牵头研发,具备海洋专业知识问答、多模态数据处理以及海洋机器人操控等能力。
该模型专为低资源设备设计,能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行,并具备强大的多模态处理能力,支持图像、音频、视频和文本等多种输入。
Black Forest Labs 推出的开源图像编辑模型,支持通过自然语言对图像进行精准编辑,具备上下文感知能力,能够在多次迭代编辑中保持图像质量和风格一致性。
Gemini CLI 是一个开源的命令行 AI 工具,能够将 Gemini 的强大功能直接集成到终端中,帮助用户高效处理代码、自动化任务以及与各种工具集成。
Claudia 是一款为 Claude Code 设计的强大桌面应用程序,提供直观的图形用户界面,帮助用户管理 Claude Code 会话、创建自定义智能体、跟踪使用情况,并运行安全的后台智能体。
DreamActor-H1 是字节跳动推出的一款基于扩散变换器(Diffusion Transformer, DiT)的框架,能够从配对的人类和产品图像生成高质量的人类产品演示视频。
Jaaz是一款本地化的AI设计工具,能够智能生成图像、海报、分镜头脚本等设计内容,支持本地模型运行,是Lovart的免费替代品。
EmbodiedGen是一个用于生成具有真实世界规模和物理真实感的交互式3D世界的工具,能够以较低成本生成多样化的3D资产,助力具身智能相关研究的泛化能力提升。
谷歌 DeepMind 的 Magenta 团队开发的一款开源工具,能够在本地设备上实时生成流式音乐音频。
OneRec是快手推出的一款端到端生成式推荐系统,通过大模型技术重构传统推荐架构,实现了效果与成本的双重突破。
SongGeneration 是腾讯 AI Lab 推出的开源音乐生成大模型,旨在解决音乐生成领域中的音质、音乐性与生成速度等关键问题,同时支持文本控制、多轨合成与风格跟随等功能。
基于 Model Context Protocol(MCP)的服务器工具,使用 python-pptx 操作 PowerPoint 演示文稿,支持通过 MCP 协议创建、编辑和操作 PowerPoint 文件。
Ming-Omni是一款由蚂蚁集团和Inclusion AI联合推出的多模态模型,具备图像、文本、音频及视频处理能力,支持语音与图像生成、多模态输入融合处理,并开放源代码以促进研究与发展。
MNN TaoAvatar是阿里巴巴基于其开源的轻量级深度学习推理框架MNN开发的3D数字人技术,支持真3D虚拟角色的实时生成与驱动,能够在手机等移动设备上以高达90FPS的帧率运行,带来流畅的交互体验。
趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。
开源的轻量化文本转语音(TTS)模型,基于 S1 模型开发,参数规模为 5 亿,支持 14 种语言和 50+ 情感语气控制。
字节跳动豆包大模型团队推出的一款通用图像编辑模型,用户仅需输入简单的自然语言指令,就能实现专业级的图像编辑效果。
分层多智能体系统,专为深度研究任务和通用任务解决而设计,通过顶层规划智能体协调多个专业底层智能体,实现任务的自动分解和高效执行。
字节跳动开源的一个多模态基础模型,拥有70亿活跃参数(总计140亿),在大规模交错多模态数据上进行训练,其在多模态理解排行榜上超越了当前顶级开源视觉语言模型,如Qwen2.5-VL和InternVL-2.5,并且在文本到图像生成质量上与强大的专业生成器如SD3相当。
新型的多模态大语言模型(MLLM),专为时间序列分析而设计,通过合成数据训练,能够显著提升对时间序列的理解和推理能力。
开源的多模态大型扩散语言模型,旨在通过统一的扩散架构和先进的训练策略,在文本生成、多模态理解和图像生成等领域实现卓越性能。
百度开源的基于 PaddlePaddle 框架的多语言 OCR(光学字符识别)工具,它支持 80 多种语言的识别,提供数据标注和合成工具,并支持在服务器、移动设备、嵌入式设备和物联网设备上的训练和部署。
一款专为数学建模竞赛设计的自动化智能体系统,能够将原本需要 3 天的建模过程压缩至 1 小时,直接输出符合学术规范的完整论文。
以色列科技公司Lightricks发布的开源AI视频生成模型,能够在短时间内生成高质量的视频内容。
Wan2.1 是一个开源的、先进的大规模视频生成模型套件,能够在多种视频生成任务中提供卓越的性能和效果。
基于扩散模型的情感化动态头像生成方法,能够为说话的肖像生成生动且多样化的情感表达。
Flow-GRPO 是一种通过在线强化学习训练流匹配模型的工具,能够显著提升图像生成质量和模型性能。
清华大学自然语言处理实验室(THUNLP)和ModelBest联合开发的开源设备端GUI代理工具,能够操作中文和英文安卓应用,并通过强化微调提升推理能力,高效执行任务。
字节跳动推出的视觉语言基础模型,旨在推进通用多模态理解和推理能力,并在多个公共基准测试中取得了优异的成绩。
图像定制的统一框架,能够实现多种图像生成任务,如人物定制、风格转换、虚拟试穿等。
用于可控游戏世界生成的互动世界基础模型,能够基于参考图像、运动帧和用户操作生成高质量的互动视频。
旨在为用户提供高效、低代码的工程孪生场景构建与渲染解决方案。
创新的强化学习框架,通过利用大型语言模型(LLM)模拟搜索引擎,从而无需依赖真实的搜索引擎即可实现高效的搜索与优化。
腾讯 PCG 的人工智能与机器学习实验室,专注于计算机视觉、语音和自然语言处理等领域,致力于在语音/视频生成、增强、检索、理解以及 AutoML 等技术上进行探索、创新和突破。
能够让您在无需安装 Microsoft Excel 的情况下,通过 AI 代理对 Excel 文件进行创建、读取、修改、格式化、生成图表和透视表等操作。
理解和评估视频中相机运动的基准工具,旨在通过结合几何和语义信息,提升对视频中相机运动的理解和分析能力。
小米开源的首个推理大模型,旨在提升模型在复杂推理任务中的表现,尤其在数学推理和代码生成方面表现出色。
开源视觉语言模型,具备原生分辨率图像理解、多模态推理和128K长上下文处理能力。
开源的自动化机器学习论文代码生成器,能够将机器学习领域的学术论文自动转化为高质量且可运行的代码库。
阿里巴巴推出的最新一代混合推理大模型,支持119种语言,具备强大的推理、编码和智能体能力,广泛应用于自然语言理解、复杂推理、代码生成等场景。
基于多模态大语言模型(MLLLM)的统一图像编辑工具,能够根据真实的用户指令完成高质量的图像编辑任务。
Stepfun AI 团队推出的开源图像编辑模型,能够通过人工智能技术实现高效、智能的图像编辑与创作。
低成本移动操作机器人,旨在为机器人爱好者和研究人员提供一个易于组装和使用的平台。