一个用于评估 AI 模型多语言知识理解能力的基准测试集。
LVCD是一种基于参考的带有扩散模型的线性视频着色工具。
个性化解决方案,旨在生成一系列图像时保持多个角色场景中人物的面孔、服装、发型和身材的一致性,从而创建连贯的故事。
一个提供语音到文本、文本到语音以及语言理解 API 的语音 AI 平台。它被全球顶尖企业、对话式 AI 领导者和初创公司所信赖,适用于医疗转录到自主代理等多种场景。
一站式AI创作开发平台,致力于为用户提供全面、高效的AI创作与开发环境。
由Kyutai实验室精心研发的全双工语音对话系统,它通过结合先进的文本语言模型、神经音频编解码器和多流音频语言模型,实现了更自然、更流畅的人机对话体验。
Ovis是由阿里国际AI团队开发的多模态大模型,它具备强大的图像理解和数据处理能力,能够处理文本、图像等多种数据类型。
一个专为iOS和macOS开发的音频处理库,它提供了一个简洁的API来处理音频数据,使得音频的录制、播放和分析变得异常简单。
一款由 Runway 公司开发的,用于将 Gen-3 Alpha Turbo 模型集成到各种应用程序和产品中的开发工具。
OpenAI O1是OpenAI公司推出的一款先进的人工智能模型,旨在通过自然语言处理技术,为用户提供高效、智能的文本生成和处理服务。
GameGen-O:一款专为开放世界视频游戏生成而设计的扩散变换器模型。
Fakespot 是一款由 Mozilla 推出的,使用 AI 来检测虚假评论和诈骗的工具。
DetectFakes是由西北大学凯洛格商学院开发的一个用于检测深度伪造(Deepfakes)图像的在线测试工具。
DeepFakeDefenders是一个用于检测和防御深度伪造(DeepFake)技术的开源工具,通过集成先进的深度学习模型来识别图像中的伪造痕迹。
wechatferry是一个用于微信小程序的自动化测试与部署的工具,旨在提高小程序开发效率与测试覆盖率。
Mini-Omni是一款开源的多模态大型语言模型,支持实时端到端的语音输入和流式音频输出,能够在思考的同时进行语音交互。
腾讯混元Turbo是腾讯公司推出的新一代人工智能大模型,具有显著的性能提升和成本降低优势。
Flageval大模型角斗场是一个在线平台,用于比较和评估不同人工智能模型在多种任务上的表现。
一个开源的实时人像美化和背景替换工具,基于深度学习技术,为视频通话、直播和虚拟背景应用提供高级视觉效果。
文小言是百度推出的一款“新搜索”智能助手,旨在通过AI技术为用户提供更丰富、更个性化的搜索体验。
VideoGameBunny-V1是一个基于Hugging Face平台的预训练模型,专注于视频游戏内容的理解与生成,旨在为游戏开发者、内容创作者和AI研究者提供强大的工具。
一款创新的图像生成模型,专注于混合现实与插画风格的图像创作。
ControlNext是一款强大的自动化控制系统设计与仿真平台,专为工程师和科研人员设计,用于快速搭建、测试和优化自动化控制策略。
智谱AI是一个基于GLM预训练框架的双语对话模型,它通过多阶段增强预训练方法优化了中文问答和对话能力,并结合量化技术,实现了在消费级显卡上的本地部署。
Qwen-VL模型API:阿里云提供的大模型服务平台,支持多模态AI能力,包括图像和视频内容的理解与生成。
Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。
Deep-Live-Cam是一个开源的实时面部交换和一键式视频深度伪造工具,它允许用户仅使用单张图片即可生成深度伪造视频。
Transfusion是一种用于训练多模态模型的方法,能够处理离散数据(如文本)和连续数据(如图像)。
谷歌推出的强大的人工智能开发平台,它允许开发者快速集成 Google DeepMind 的最新 AI 模型,为各种应用程序提供强大的智能功能。
一款由南洋理工大学S-Lab实验室开发的视频人脸超分辨率工具,旨在通过先进的AI技术显著提升视频帧中人脸细节的清晰度。
Captions API是一个能够大规模生成、编辑和翻译视频的API工具,旨在显著转变和优化视频制作工作流程。
Product Hunt是一个发现和分享新产品的平台,它聚集了创业者、设计师、开发者和产品爱好者。
MagicFixup是由Adobe Research开发的一款创新工具,它通过学习和分析动态视频中的变化,来优化和提升静态照片的编辑效果,使编辑后的照片更加自然和逼真。
Exists是一款基于AI技术的游戏创作平台,它允许用户快速将创意转化为可玩的多人在线游戏。
Geekbench AI是一款跨平台的人工智能性能测试工具,它通过模拟真实世界的AI应用场景,为用户提供设备AI性能的多维度评估。
WorldLabs是一个创新平台,旨在帮助企业或组织打造自己的品牌化创新门户,促进创意的孵化、协作与转化。
Pulse Inspect是Pindrop®提供的一款音频真实性检测工具,它通过分析音频来判断其是否为合成或真实,帮助用户在分享信息前验证音频的真实性。
LongWriter是清华大学团队开发的长文本生成模型,专为生成超过10,000字的长篇连贯文本设计。
Black Forest Labs AI是一个集成了多种人工智能技术的在线平台,旨在为用户提供便捷、高效的AI解决方案。
JEST是一种用于大规模预训练的数据筛选方法,通过联合选择数据批次来加速多模态学习。
黑芝麻智能华山®A1000芯片是专为智能驾驶辅助系统(ADAS)和自动驾驶设计的高性能计算芯片。
易采集/EasySpider是一个可视化无代码的网页数据采集工具,用户可以通过图形界面设计和执行爬虫任务,无需编写代码。
书生·浦语是一个致力于大模型研究与开发工具链的开源组织,为AI开发者提供高效、易用的开源平台,加速大模型与算法技术的普及与应用。
EmoTalk3D是一款集成情感识别与三维虚拟角色交互的创新性沟通工具,能够根据用户的语音或文本输入自动生成对应的情感表达,实现与虚拟角色的深度情感交流。
MiniCPM-V是由OpenBMB开发的一款面向端侧部署的多模态大型语言模型(MLLM),支持图像、视频和文本输入,提供高质量的文本输出。
OpenAI API最新引入的结构化输出功能,为用户提供了更直接、高效的数据处理和交互体验,开启了自然语言处理应用的新篇章。
Whisper-Medusa:一款基于Whisper模型的优化版语音识别工具,通过多解码头技术显著提升处理速度
CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,专注于高质量的语音合成,能够生成自然且逼真的语音。该模型支持多种语言、音色和情感控制,为用户提供了丰富的语音生成能力。
Flux 是一个开源的、基于 Go 语言的轻量级、高性能的 API 网关,旨在简化微服务架构中的服务间通信。它提供了丰富的功能来增强 API 的安全性、可维护性和可扩展性。
GitHub Models提供了一个交互式的模型游乐场,用户可以在这里测试不同的提示和模型参数,无需支付费用。此外,GitHub Models与Codespaces和VS Code集成,允许开发者在开发环境中无缝使用这些模型,并通过Azure AI实现生产部署,提供企业级安全和数据隐私保护。
言犀是京东智能人机交互平台,它融合了京东十年的客服服务与营销最佳实践,以及自研的全链路AI能力,为用户提供一个服务数智化平台级的智能人机交互产品。
Snail Radar Dataset 是一个大规模的4D雷达数据集,专为自动驾驶系统中的定位、建图和地点识别而设计。这个数据集通过三种不同的平台(手持设备、电动自行车和SUV)在多种环境条件下收集,包括晴朗天气、夜间和大雨天气。
Stable Video 4D(SV4D)是由AI公司Stability AI推出的首个视频生视频模型。该模型能够将单个物体的单视角视频输入,转换成8个不同视角的多视角视频,为用户提供全视图3D动态视频体验。
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2,是目前最大的公开可用的音视频说话人识别数据集。该数据集丰富了开源语音语料库,支持训练声纹大模型。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
GPT-4o mini是OpenAI推出的一款成本效益极高的小型模型,旨在通过降低智能技术的成本,使其更广泛地应用于各种领域。该模型在MMLU(Massive Multitask Language Understanding)基准测试中获得了82%的分数,并在LMSYS leaderboard的聊天偏好任务中超越了GPT-41,展现了其强大的性能。GPT-4o mini的定价为每百万输入令牌15美分,每百万输出令牌60美分,相比之前的尖端模型,其价格降低了一个数量级,且比GPT-3.5 Turbo便宜了超过60%。
H2O Danube3是由h2oai公司开发的一系列文本生成模型,专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。
CogVLM2-Video是一个专注于视频理解的模型,它利用了大型语言模型和多模态对齐技术,以实现在开放领域中对视频内容的深入理解。该模型通过自动化的时间定位数据构建方法,生成了30k与时间相关的视频问答数据,并通过这些数据训练出了新的视频理解模型。
EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。
Cohere.com是一个提供大语言模型(LLM)的平台,旨在帮助开发人员和企业构建高性能的AI产品。该平台通过提供丰富的API服务,支持多语言输入、神经搜索、搜索排名、文本分类和生成等功能,广泛应用于各种AI应用场景。
一个用于评估 AI 模型多语言知识理解能力的基准测试集。