趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。
开源的轻量化文本转语音(TTS)模型,基于 S1 模型开发,参数规模为 5 亿,支持 14 种语言和 50+ 情感语气控制。
字节跳动豆包大模型团队推出的一款通用图像编辑模型,用户仅需输入简单的自然语言指令,就能实现专业级的图像编辑效果。
分层多智能体系统,专为深度研究任务和通用任务解决而设计,通过顶层规划智能体协调多个专业底层智能体,实现任务的自动分解和高效执行。
字节跳动开源的一个多模态基础模型,拥有70亿活跃参数(总计140亿),在大规模交错多模态数据上进行训练,其在多模态理解排行榜上超越了当前顶级开源视觉语言模型,如Qwen2.5-VL和InternVL-2.5,并且在文本到图像生成质量上与强大的专业生成器如SD3相当。
新型的多模态大语言模型(MLLM),专为时间序列分析而设计,通过合成数据训练,能够显著提升对时间序列的理解和推理能力。
开源的多模态大型扩散语言模型,旨在通过统一的扩散架构和先进的训练策略,在文本生成、多模态理解和图像生成等领域实现卓越性能。
百度开源的基于 PaddlePaddle 框架的多语言 OCR(光学字符识别)工具,它支持 80 多种语言的识别,提供数据标注和合成工具,并支持在服务器、移动设备、嵌入式设备和物联网设备上的训练和部署。
一款专为数学建模竞赛设计的自动化智能体系统,能够将原本需要 3 天的建模过程压缩至 1 小时,直接输出符合学术规范的完整论文。
以色列科技公司Lightricks发布的开源AI视频生成模型,能够在短时间内生成高质量的视频内容。
Wan2.1 是一个开源的、先进的大规模视频生成模型套件,能够在多种视频生成任务中提供卓越的性能和效果。
基于扩散模型的情感化动态头像生成方法,能够为说话的肖像生成生动且多样化的情感表达。
Flow-GRPO 是一种通过在线强化学习训练流匹配模型的工具,能够显著提升图像生成质量和模型性能。
清华大学自然语言处理实验室(THUNLP)和ModelBest联合开发的开源设备端GUI代理工具,能够操作中文和英文安卓应用,并通过强化微调提升推理能力,高效执行任务。
字节跳动推出的视觉语言基础模型,旨在推进通用多模态理解和推理能力,并在多个公共基准测试中取得了优异的成绩。
图像定制的统一框架,能够实现多种图像生成任务,如人物定制、风格转换、虚拟试穿等。
用于可控游戏世界生成的互动世界基础模型,能够基于参考图像、运动帧和用户操作生成高质量的互动视频。
旨在为用户提供高效、低代码的工程孪生场景构建与渲染解决方案。
创新的强化学习框架,通过利用大型语言模型(LLM)模拟搜索引擎,从而无需依赖真实的搜索引擎即可实现高效的搜索与优化。
腾讯 PCG 的人工智能与机器学习实验室,专注于计算机视觉、语音和自然语言处理等领域,致力于在语音/视频生成、增强、检索、理解以及 AutoML 等技术上进行探索、创新和突破。
能够让您在无需安装 Microsoft Excel 的情况下,通过 AI 代理对 Excel 文件进行创建、读取、修改、格式化、生成图表和透视表等操作。
理解和评估视频中相机运动的基准工具,旨在通过结合几何和语义信息,提升对视频中相机运动的理解和分析能力。
小米开源的首个推理大模型,旨在提升模型在复杂推理任务中的表现,尤其在数学推理和代码生成方面表现出色。
开源视觉语言模型,具备原生分辨率图像理解、多模态推理和128K长上下文处理能力。
开源的自动化机器学习论文代码生成器,能够将机器学习领域的学术论文自动转化为高质量且可运行的代码库。
阿里巴巴推出的最新一代混合推理大模型,支持119种语言,具备强大的推理、编码和智能体能力,广泛应用于自然语言理解、复杂推理、代码生成等场景。
基于多模态大语言模型(MLLLM)的统一图像编辑工具,能够根据真实的用户指令完成高质量的图像编辑任务。
Stepfun AI 团队推出的开源图像编辑模型,能够通过人工智能技术实现高效、智能的图像编辑与创作。
开源的音频基础模型,擅长音频理解、生成和对话,适用于多种音频处理任务。
强大的AI工具,能够根据图像或视频中的指定区域生成详细的描述。
Pad.ws 是一款集白板与代码编辑器功能于一体的在线协作工具,旨在为开发者和团队提供便捷的实时协作体验。
开源文本转语音(TTS)模型,能够生成高度逼真的对话语音,并支持情感语调、非语言提示(如笑声、咳嗽)以及声音克隆功能。
Kortix-AI 推出的一款开源通用 AI 智能体平台,旨在成为 Manus 的替代品,通过自然语言对话实现复杂任务的自动化处理。
无需调优的全向全景图像和视频生成工具,通过球形潜在表示实现高质量的 360 度全景内容生成。
开源的 AI 创作工具,专为搭载 Intel® Arc™ GPU 的 PC 设计,支持图像生成、图像风格化和聊天机器人等功能。
昆仑万维SkyReels团队推出的一款无限时长电影生成模型,基于扩散强迫框架结合多模态大语言模型等技术,能够生成高质量、无限时长的视频内容。
腾讯混元团队正式开源了InstantCharacter框架,这一基于扩散变换器的角色个性化工具,具备高一致性和灵活性,能够从单张图像生成多样化的角色定制,适用于多种艺术风格。
Wan2.1 是一个开源的大规模视频生成模型工具,致力于通过先进的技术架构和优化策略,提供高性能、低资源消耗的视频生成解决方案,支持多种生成任务和多语言文本生成。
字节跳动推出的先进推理模型,通过强化学习提升推理能力,在数学、编程和科学等多个领域表现出色。
专注于三维空间理解的大语言模型,能够将三维点云数据转化为结构化的三维场景理解输出,广泛应用于机器人导航、建筑设计等领域。
创新的视频扩散模型,通过帧级别的噪声控制和向量化时间步,实现了高效率的视频生成,支持多种任务,如文本到视频、图像到视频等。
多图像条件下的主体到图像生成模型,通过渐进式跨模态对齐和通用旋转位置嵌入,实现了高一致性和可控性的多主体生成。
基于OminiControl框架开发的AI艺术创作工具,它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合,能够高效生成高质量的艺术图像。
端到端多模态SVG生成模型,能够通过文本、图像或角色参考等多种输入方式生成高质量的矢量图形。
开源的图像生成基础模型,拥有 170 亿参数,能够在短时间内生成高质量的图像,达到行业领先的图像生成水平。
通过混合引导实现精细的整体可控性、多尺度适应性和长期时间连贯性,能够生成高质量的人像动画。
能够通过自然语言指令生成动态的动漫游戏世界,并预测下一游戏状态,为用户带来沉浸式的动漫角色交互体验。
创新的人工智能模型,能够完全在AI模型内部生成并运行经典游戏,实时呈现可供玩家操作的游戏版本。
高性能多模态 AI 模型,具备超长上下文处理能力和高效的推理性能,适用于多种复杂任务。
MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音(TTS)模型,以高效、轻量化和高质量语音合成为特点。
MoCha 是一款能够仅通过语音和文本生成电影级对话角色的合成工具,支持情感控制、动作控制以及多角色对话等功能。
百度飞桨3.0是百度推出的深度学习框架的最新版本,以五大核心技术创新为大模型训推提速。
专注于生成吉卜力风格的图像,用户可以通过简单的操作将普通图像转换为具有吉卜力动画特色的艺术作品。
基于 ComfyUI 框架开发的 AI 驱动的定制节点工具,旨在通过自然语言交互简化和增强 AI 算法调试与部署流程,为用户提供智能的节点推荐、工作流构建辅助和模型查询服务。
视频生成技术,通过高效的蒸馏方法和合成数据集,显著提升了视频扩散模型的生成速度,同时保持了高质量的视频输出。
香港科技大学与Multimodal Art Projection(多模态艺术投影)团队联合开发的开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和语言。
用于信息图表生成的文章级视觉文本渲染工具,能够高效地将文本内容转化为具有视觉吸引力的信息图表。
阿里巴巴开源的多模态大模型,参数规模为32B,具备强大的视觉和语言处理能力。
DeepSeek 团队发布的高性能开源大模型,具有强大的编程能力、数学推理能力以及高效的推理效率,广泛适用于多种应用场景。
从单张图像重建可动画化三维人体的技术,能够快速生成高保真度的三维人体模型,并在秒级时间内生成具有精细纹理和姿态的虚拟角色。
趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。