Ovis-U1是由阿里巴巴国际AI团队发布的多模态大模型,集多模态理解、文本到图像生成和图像编辑三种核心能力于一身,展现了强大的跨模态处理能力。
中国首个海洋领域的开源大模型,由浙江大学海洋精准感知技术全国重点实验室牵头研发,具备海洋专业知识问答、多模态数据处理以及海洋机器人操控等能力。
该模型专为低资源设备设计,能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行,并具备强大的多模态处理能力,支持图像、音频、视频和文本等多种输入。
Black Forest Labs 推出的开源图像编辑模型,支持通过自然语言对图像进行精准编辑,具备上下文感知能力,能够在多次迭代编辑中保持图像质量和风格一致性。
Gemini CLI 是一个开源的命令行 AI 工具,能够将 Gemini 的强大功能直接集成到终端中,帮助用户高效处理代码、自动化任务以及与各种工具集成。
Claudia 是一款为 Claude Code 设计的强大桌面应用程序,提供直观的图形用户界面,帮助用户管理 Claude Code 会话、创建自定义智能体、跟踪使用情况,并运行安全的后台智能体。
DreamActor-H1 是字节跳动推出的一款基于扩散变换器(Diffusion Transformer, DiT)的框架,能够从配对的人类和产品图像生成高质量的人类产品演示视频。
Jaaz是一款本地化的AI设计工具,能够智能生成图像、海报、分镜头脚本等设计内容,支持本地模型运行,是Lovart的免费替代品。
EmbodiedGen是一个用于生成具有真实世界规模和物理真实感的交互式3D世界的工具,能够以较低成本生成多样化的3D资产,助力具身智能相关研究的泛化能力提升。
谷歌 DeepMind 的 Magenta 团队开发的一款开源工具,能够在本地设备上实时生成流式音乐音频。
OneRec是快手推出的一款端到端生成式推荐系统,通过大模型技术重构传统推荐架构,实现了效果与成本的双重突破。
SongGeneration 是腾讯 AI Lab 推出的开源音乐生成大模型,旨在解决音乐生成领域中的音质、音乐性与生成速度等关键问题,同时支持文本控制、多轨合成与风格跟随等功能。
基于 Model Context Protocol(MCP)的服务器工具,使用 python-pptx 操作 PowerPoint 演示文稿,支持通过 MCP 协议创建、编辑和操作 PowerPoint 文件。
Ming-Omni是一款由蚂蚁集团和Inclusion AI联合推出的多模态模型,具备图像、文本、音频及视频处理能力,支持语音与图像生成、多模态输入融合处理,并开放源代码以促进研究与发展。
MNN TaoAvatar是阿里巴巴基于其开源的轻量级深度学习推理框架MNN开发的3D数字人技术,支持真3D虚拟角色的实时生成与驱动,能够在手机等移动设备上以高达90FPS的帧率运行,带来流畅的交互体验。
趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。
开源的轻量化文本转语音(TTS)模型,基于 S1 模型开发,参数规模为 5 亿,支持 14 种语言和 50+ 情感语气控制。
字节跳动豆包大模型团队推出的一款通用图像编辑模型,用户仅需输入简单的自然语言指令,就能实现专业级的图像编辑效果。
分层多智能体系统,专为深度研究任务和通用任务解决而设计,通过顶层规划智能体协调多个专业底层智能体,实现任务的自动分解和高效执行。
字节跳动开源的一个多模态基础模型,拥有70亿活跃参数(总计140亿),在大规模交错多模态数据上进行训练,其在多模态理解排行榜上超越了当前顶级开源视觉语言模型,如Qwen2.5-VL和InternVL-2.5,并且在文本到图像生成质量上与强大的专业生成器如SD3相当。
新型的多模态大语言模型(MLLM),专为时间序列分析而设计,通过合成数据训练,能够显著提升对时间序列的理解和推理能力。
开源的多模态大型扩散语言模型,旨在通过统一的扩散架构和先进的训练策略,在文本生成、多模态理解和图像生成等领域实现卓越性能。
百度开源的基于 PaddlePaddle 框架的多语言 OCR(光学字符识别)工具,它支持 80 多种语言的识别,提供数据标注和合成工具,并支持在服务器、移动设备、嵌入式设备和物联网设备上的训练和部署。
一款专为数学建模竞赛设计的自动化智能体系统,能够将原本需要 3 天的建模过程压缩至 1 小时,直接输出符合学术规范的完整论文。
以色列科技公司Lightricks发布的开源AI视频生成模型,能够在短时间内生成高质量的视频内容。
Wan2.1 是一个开源的、先进的大规模视频生成模型套件,能够在多种视频生成任务中提供卓越的性能和效果。
基于扩散模型的情感化动态头像生成方法,能够为说话的肖像生成生动且多样化的情感表达。
Flow-GRPO 是一种通过在线强化学习训练流匹配模型的工具,能够显著提升图像生成质量和模型性能。
清华大学自然语言处理实验室(THUNLP)和ModelBest联合开发的开源设备端GUI代理工具,能够操作中文和英文安卓应用,并通过强化微调提升推理能力,高效执行任务。
字节跳动推出的视觉语言基础模型,旨在推进通用多模态理解和推理能力,并在多个公共基准测试中取得了优异的成绩。
图像定制的统一框架,能够实现多种图像生成任务,如人物定制、风格转换、虚拟试穿等。
用于可控游戏世界生成的互动世界基础模型,能够基于参考图像、运动帧和用户操作生成高质量的互动视频。
旨在为用户提供高效、低代码的工程孪生场景构建与渲染解决方案。
创新的强化学习框架,通过利用大型语言模型(LLM)模拟搜索引擎,从而无需依赖真实的搜索引擎即可实现高效的搜索与优化。
腾讯 PCG 的人工智能与机器学习实验室,专注于计算机视觉、语音和自然语言处理等领域,致力于在语音/视频生成、增强、检索、理解以及 AutoML 等技术上进行探索、创新和突破。
能够让您在无需安装 Microsoft Excel 的情况下,通过 AI 代理对 Excel 文件进行创建、读取、修改、格式化、生成图表和透视表等操作。
理解和评估视频中相机运动的基准工具,旨在通过结合几何和语义信息,提升对视频中相机运动的理解和分析能力。
小米开源的首个推理大模型,旨在提升模型在复杂推理任务中的表现,尤其在数学推理和代码生成方面表现出色。
开源视觉语言模型,具备原生分辨率图像理解、多模态推理和128K长上下文处理能力。
开源的自动化机器学习论文代码生成器,能够将机器学习领域的学术论文自动转化为高质量且可运行的代码库。
阿里巴巴推出的最新一代混合推理大模型,支持119种语言,具备强大的推理、编码和智能体能力,广泛应用于自然语言理解、复杂推理、代码生成等场景。
基于多模态大语言模型(MLLLM)的统一图像编辑工具,能够根据真实的用户指令完成高质量的图像编辑任务。
Stepfun AI 团队推出的开源图像编辑模型,能够通过人工智能技术实现高效、智能的图像编辑与创作。
开源的音频基础模型,擅长音频理解、生成和对话,适用于多种音频处理任务。
强大的AI工具,能够根据图像或视频中的指定区域生成详细的描述。
Pad.ws 是一款集白板与代码编辑器功能于一体的在线协作工具,旨在为开发者和团队提供便捷的实时协作体验。
开源文本转语音(TTS)模型,能够生成高度逼真的对话语音,并支持情感语调、非语言提示(如笑声、咳嗽)以及声音克隆功能。
Kortix-AI 推出的一款开源通用 AI 智能体平台,旨在成为 Manus 的替代品,通过自然语言对话实现复杂任务的自动化处理。
无需调优的全向全景图像和视频生成工具,通过球形潜在表示实现高质量的 360 度全景内容生成。
开源的 AI 创作工具,专为搭载 Intel® Arc™ GPU 的 PC 设计,支持图像生成、图像风格化和聊天机器人等功能。
昆仑万维SkyReels团队推出的一款无限时长电影生成模型,基于扩散强迫框架结合多模态大语言模型等技术,能够生成高质量、无限时长的视频内容。
腾讯混元团队正式开源了InstantCharacter框架,这一基于扩散变换器的角色个性化工具,具备高一致性和灵活性,能够从单张图像生成多样化的角色定制,适用于多种艺术风格。
Wan2.1 是一个开源的大规模视频生成模型工具,致力于通过先进的技术架构和优化策略,提供高性能、低资源消耗的视频生成解决方案,支持多种生成任务和多语言文本生成。
字节跳动推出的先进推理模型,通过强化学习提升推理能力,在数学、编程和科学等多个领域表现出色。
专注于三维空间理解的大语言模型,能够将三维点云数据转化为结构化的三维场景理解输出,广泛应用于机器人导航、建筑设计等领域。
创新的视频扩散模型,通过帧级别的噪声控制和向量化时间步,实现了高效率的视频生成,支持多种任务,如文本到视频、图像到视频等。
多图像条件下的主体到图像生成模型,通过渐进式跨模态对齐和通用旋转位置嵌入,实现了高一致性和可控性的多主体生成。
基于OminiControl框架开发的AI艺术创作工具,它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合,能够高效生成高质量的艺术图像。
端到端多模态SVG生成模型,能够通过文本、图像或角色参考等多种输入方式生成高质量的矢量图形。
开源的图像生成基础模型,拥有 170 亿参数,能够在短时间内生成高质量的图像,达到行业领先的图像生成水平。
Ovis-U1是由阿里巴巴国际AI团队发布的多模态大模型,集多模态理解、文本到图像生成和图像编辑三种核心能力于一身,展现了强大的跨模态处理能力。