开源的音频基础模型,擅长音频理解、生成和对话,适用于多种音频处理任务。
强大的AI工具,能够根据图像或视频中的指定区域生成详细的描述。
Pad.ws 是一款集白板与代码编辑器功能于一体的在线协作工具,旨在为开发者和团队提供便捷的实时协作体验。
开源文本转语音(TTS)模型,能够生成高度逼真的对话语音,并支持情感语调、非语言提示(如笑声、咳嗽)以及声音克隆功能。
Kortix-AI 推出的一款开源通用 AI 智能体平台,旨在成为 Manus 的替代品,通过自然语言对话实现复杂任务的自动化处理。
无需调优的全向全景图像和视频生成工具,通过球形潜在表示实现高质量的 360 度全景内容生成。
开源的 AI 创作工具,专为搭载 Intel® Arc™ GPU 的 PC 设计,支持图像生成、图像风格化和聊天机器人等功能。
昆仑万维SkyReels团队推出的一款无限时长电影生成模型,基于扩散强迫框架结合多模态大语言模型等技术,能够生成高质量、无限时长的视频内容。
腾讯混元团队正式开源了InstantCharacter框架,这一基于扩散变换器的角色个性化工具,具备高一致性和灵活性,能够从单张图像生成多样化的角色定制,适用于多种艺术风格。
Wan2.1 是一个开源的大规模视频生成模型工具,致力于通过先进的技术架构和优化策略,提供高性能、低资源消耗的视频生成解决方案,支持多种生成任务和多语言文本生成。
字节跳动推出的先进推理模型,通过强化学习提升推理能力,在数学、编程和科学等多个领域表现出色。
专注于三维空间理解的大语言模型,能够将三维点云数据转化为结构化的三维场景理解输出,广泛应用于机器人导航、建筑设计等领域。
创新的视频扩散模型,通过帧级别的噪声控制和向量化时间步,实现了高效率的视频生成,支持多种任务,如文本到视频、图像到视频等。
多图像条件下的主体到图像生成模型,通过渐进式跨模态对齐和通用旋转位置嵌入,实现了高一致性和可控性的多主体生成。
基于OminiControl框架开发的AI艺术创作工具,它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合,能够高效生成高质量的艺术图像。
端到端多模态SVG生成模型,能够通过文本、图像或角色参考等多种输入方式生成高质量的矢量图形。
开源的图像生成基础模型,拥有 170 亿参数,能够在短时间内生成高质量的图像,达到行业领先的图像生成水平。
通过混合引导实现精细的整体可控性、多尺度适应性和长期时间连贯性,能够生成高质量的人像动画。
能够通过自然语言指令生成动态的动漫游戏世界,并预测下一游戏状态,为用户带来沉浸式的动漫角色交互体验。
创新的人工智能模型,能够完全在AI模型内部生成并运行经典游戏,实时呈现可供玩家操作的游戏版本。
高性能多模态 AI 模型,具备超长上下文处理能力和高效的推理性能,适用于多种复杂任务。
MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音(TTS)模型,以高效、轻量化和高质量语音合成为特点。
MoCha 是一款能够仅通过语音和文本生成电影级对话角色的合成工具,支持情感控制、动作控制以及多角色对话等功能。
百度飞桨3.0是百度推出的深度学习框架的最新版本,以五大核心技术创新为大模型训推提速。
专注于生成吉卜力风格的图像,用户可以通过简单的操作将普通图像转换为具有吉卜力动画特色的艺术作品。
基于 ComfyUI 框架开发的 AI 驱动的定制节点工具,旨在通过自然语言交互简化和增强 AI 算法调试与部署流程,为用户提供智能的节点推荐、工作流构建辅助和模型查询服务。
视频生成技术,通过高效的蒸馏方法和合成数据集,显著提升了视频扩散模型的生成速度,同时保持了高质量的视频输出。
香港科技大学与Multimodal Art Projection(多模态艺术投影)团队联合开发的开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和语言。
用于信息图表生成的文章级视觉文本渲染工具,能够高效地将文本内容转化为具有视觉吸引力的信息图表。
阿里巴巴开源的多模态大模型,参数规模为32B,具备强大的视觉和语言处理能力。
DeepSeek 团队发布的高性能开源大模型,具有强大的编程能力、数学推理能力以及高效的推理效率,广泛适用于多种应用场景。
从单张图像重建可动画化三维人体的技术,能够快速生成高保真度的三维人体模型,并在秒级时间内生成具有精细纹理和姿态的虚拟角色。
一款创新的图像生成工具,能够根据用户的文字描述生成高质量的个性化图像,并且在更换场景和内容时精准保留用户的身份特征。
Stability AI 推出的一款 AI 模型,能够将二维图像转换为具有真实深度和透视感的沉浸式三维视频。
全球首个开源的工业界多模态推理模型,具备强大的视觉链式推理能力,能够高效处理复杂的视觉和文本任务。
谷歌推出的新一代文本转语音工具,基于先进的LLM模型,能够生成逼真且富有情感的语音,广泛应用于多种场景,为用户提供高质量的语音合成解决方案。
一款用于生成高分辨率纹理化 3D 资产的大型 3D 合成系统,能够高效地创建高质量的 3D 模型和纹理。
一个基于 Cangjie 平台开发的工具,旨在通过集成大语言模型和其他智能技术,为应用程序开发提供强大的智能支持和创造力增强功能。
基于神经热场的无混叠任意尺度超分辨率方法,能够实现高质量的图像放大,同时避免常见的混叠问题。
一种新型的快速图像到图像翻译方法,通过在潜在空间中进行桥接匹配,实现高效且多用途的图像转换。
香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具,能够通过文字指令实现对任意长度视频的高效修复和编辑。
能够从单张图像生成高保真3D场景,通过捕捉物体间的交互关系和空间一致性,实现高效且高质量的3D场景生成。
阿里巴巴通义实验室推出的全能型视频生成与编辑框架,集多种功能于一体,能够高效完成复杂的视频创作和编辑任务。
高效生成高质量视频的开源项目,旨在通过开源原则,让视频生成技术更加普及化,为内容创作者提供简化复杂流程的平台。
基于 CAMEL-AI 框架开发的前沿多智能体协作框架,致力于通过动态智能体交互实现高效、自然且稳健的任务自动化。
MetaGPT 团队开发,旨在让用户无需邀请码即可创建和使用 AI 智能体,快速实现各种创意和任务自动化。
一款具备自我进化能力的GUI代理工具,旨在通过智能体自主学习和进化机制,高效地操作智能手机应用。
一款高性能、低硬件要求的视频生成工具,旨在为普通GPU用户提供强大的视频生成能力。
基于生成式高斯绘制技术的无边界三维城市生成工具,能够高效生成逼真的虚拟城市环境。
MiniMax推出的全新文本到图像生成模型,旨在通过高效的图像生成能力和极低的使用成本,帮助用户快速将文本描述转化为高质量的图像。
先进的文本到图像生成模型,支持中文和英文输入,能够根据文本描述生成高质量的图像。
Meta推出的一种新型视频自监督学习模型,能够通过观看视频自主学习物理世界的视觉表示,无需外部标注数据。
高效地将PDF文件和其他文档转换为结构化的纯文本。
可控高效零样本文本到语音(TTS)系统,基于XTTS和Tortoise开发,能够纠正中文发音并控制停顿,同时在音质和说话者相似度方面表现出色。
一个开源的Python库,旨在简化实时音频和视频AI应用的开发过程。
DeepSeek 开源的一款高性能通信库,专为混合专家模型(MoE)和专家并行(EP)设计,提供高吞吐量和低延迟的通信解决方案,显著提升大规模分布式训练和推理的效率。
一款由阶跃星辰团队开发的开源文本到视频生成模型,拥有 300 亿参数,能够根据文本提示生成长达 204 帧的高质量视频,支持中英双语输入,并通过深度压缩技术和直接偏好优化提升生成效果。
面向中小团队的 AI 聊天工具,支持多种主流 AI 模型,旨在为团队提供高效、智能的协作体验。
视频生成框架,通过跨模态对齐技术结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。
北京大学、Hedra Inc.和Nvidia联合推出的一款高效视频生成模型,能够在短时间内生成高质量的视频片段。
开源的音频基础模型,擅长音频理解、生成和对话,适用于多种音频处理任务。