AI大模型 | 网址分类目录 | AI工具箱

AI大模型

INFP：音频驱动的双向对话交互式头部生成框架

INFP是一个音频驱动的交互式头部生成框架，能够在双向对话中动态合成具有逼真面部表情和节奏性头部姿态动作的代理视频。

ColorFlow：检索增强型图像序列着色

给定一个参考图像池，ColorFlow 能够为黑白图像序列中的各种元素（包括角色的头发颜色和服装）准确地生成颜色，并确保与参考图像的颜色一致性。

Sketch2Sound AI音频工具哼唱和模仿创建音效

一个可控音频生成模型，能够根据一组可解释的时变控制信号（响度、亮度、音高）和文本提示来创造高质量的声音。

Twelve Labs 多模态AI视频理解平台

一个多模态人工智能平台，它能够像人类一样理解视频内容，帮助用户在任何应用中实现视频内容的深度分析和利用。

Meta Video Seal：AI视频水印工具

Meta 公司推出的开源 AI 视频水印工具，旨在通过在 AI 生成的视频中加入不可察觉的水印来打击深度伪造和保护原创内容。

HelloMeme：创新表情包视频生成工具

一款集成空间编织注意力的扩散模型工具，用于简化表情包视频的制作过程，提升图像和视频生成的质量和效率。

天工大模型4.0 o1版（Skywork o1）

昆仑万维推出的国内首款具备中文逻辑推理能力的大模型，旨在提升模型的深度思考和复杂推理能力，是追求人工通用智能（AGI）的重要一步。

SAMURAI：零样本视觉跟踪工具

SAMURAI 是一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具，它通过引入时间运动线索和运动感知记忆选择机制，实现了无需重新训练或微调的鲁棒、准确跟踪。

AnimateAnything：视频生成的一致性和可控性动画工具

一个统一的可控视频生成方法，它能够实现在不同条件下精确且一致的视频操作，包括相机轨迹、文本提示和用户动作注释。

Fireworks f1：复合AI系统在复杂推理领域的突破

一款专门用于复杂推理的复合AI模型，它通过在推理层交织多个开放模型，实现了与许多封闭前沿模型相匹配甚至超越的推理能力。

AI试衣技术Fashion-VDM

一款基于视频扩散模型（VDM）的虚拟试穿技术，它能够结合给定的服装图像和人物视频，生成人物穿着该服装的高质量试穿视频。

AI换头技术CHANGER

CHANGER是一种新型头部融合管道，旨在为数字内容创作提供高保真的头部合成解决方案，特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。

Meissonic 图像生成模型

Meissonic是一款由阿里巴巴集团、Skywork AI及多所高校共同研发的颠覆性图像生成模型，它基于掩蔽图像建模技术，能够生成高质量、高分辨率的图像。

AlphaFold3：革命性的AI蛋白质结构预测工具

AlphaFold3是由谷歌DeepMind团队开发的AI模型，能够预测蛋白质、核酸（DNA和RNA）、小分子、离子及修饰残基等生物分子的三维结构。

通义千问开源Qwen2.5-Coder全系列

Qwen2.5-Coder是通义千问团队开源的一系列AI编程模型，旨在提升编程效率和性能，支持多种编程语言和代码相关任务。

字节跳动X-Portrait2肖像动画技术

一项由字节跳动和清华大学联合开发的肖像动画技术，它能够将静态肖像图像和驱动表演视频结合起来，生成具有高度表现力和真实感的角色动画和视频。

FLUX1.1 Pro Ultra 超清AI图像生成模型

FLUX1.1 Pro Ultra是由Black Forest Labs开发的一款高分辨率图像生成模型，它支持高达4MP的图像分辨率，并能在10秒内生成一张样本图像。

FLUX.1-dev LoRA 服装生成器

FLUX.1-dev LoRA 服装生成器利用先进的人工智能技术，为用户带来前所未有的时尚设计体验，让设计小白也能秒出服装效果图。

Meta MobileLLM 模型

Meta MobileLLM是Meta（前Facebook）推出的专为移动设备设计和优化的大型语言模型，旨在解决云计算成本上升和延迟问题，使其非常适合在资源受限的设备上运行。

Toy Box Flux：基于AI的3D渲染图像生成工具

Toy Box Flux 是一个利用AI生成图像训练的3D渲染模型，结合了3D LoRA模型和Coloring Book Flux LoRA的权重，形成了独特的风格，特别适合生成具有特定风格的玩具设计图像。

Sana：高效高分辨率图像合成工具

Sana 是一个文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像，并保持强文本图像对齐，可部署在笔记本电脑GPU上。

Llama-3.1-Nemotron-70B-Instruct-HF：NVIDIA推出的大型语言模型

NVIDIA推出的一款大型语言模型，它基于70亿参数的Nematron模型，经过特定指令训练，以提高其在自然语言处理任务中的性能和准确性。

零一万物 Yi-Lightning

Yi-Lightning是零一万物公司最新发布的高性能AI模型，以其卓越的推理速度和生成质量在国际权威盲测榜单LMSYS上取得世界第六、中国第一的排名。

百度智能云一见视觉大模型平台

一款基于百度领先的视觉大模型核心技术和丰富的场景化算法方案，致力于帮助企业和行业伙伴零门槛、低成本建设专业级视觉AI应用的平台。

中国移动九天人工智能平台

九天人工智能平台提供人工智能算力、算法、数据，汇聚优秀AI能力，打造从智算基础设施、核心算法能力到智能化应用的全栈人工智能服务，全面支持自智网络等多样化运营商智慧运营需求，为工业、医疗、政务、教育、金融等行业客户构建创新解决方案。

F5-TTS 文本到语音转换工具

一个基于深度学习的文本到语音（Text-to-Speech，简称TTS）转换工具，由SWivid开发，旨在将文本转换为自然听起来的语音。

Pyramid-Flow：快手和北大联手开源的视频生成模型

一款由快手与北京大学联合研发并开源的视频生成模型。该模型利用深度学习技术，能够实现高质量的视频生成和处理，为用户提供了一种创新的视频内容创作工具。

Hugging Face OpenAI-Gradio AI构建网页应用工具

该工具让开发者可以在几分钟内启动AI应用，无需庞大团队和复杂的技术基础。对于企业而言，这意味着能够快速推出AI项目，提升创新能力，加速技术转化。

Apple Depth Pro AI 模型

苹果最新推出的 AI 模型 Depth Pro 在深度估计领域取得重大突破，能快速生成高分辨率的3D深度图，无需相机元数据。该模型工作速度快，能捕捉微小细节，提供绝对深度估计，且开源共享。

GS-VTON 3D虚拟试衣间

一种3D虚拟试衣技术，它通过使用高斯散射（3DGS）作为3D表示，实现了从2D虚拟试衣模型到3D空间的知识转移，同时提高了跨视图的一致性。

1 … 8 9 10 11 12 … 15