Whisper-Medusa:一款基于Whisper模型的优化版语音识别工具,通过多解码头技术显著提升处理速度
CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,专注于高质量的语音合成,能够生成自然且逼真的语音。该模型支持多种语言、音色和情感控制,为用户提供了丰富的语音生成能力。
Flux 是一个开源的、基于 Go 语言的轻量级、高性能的 API 网关,旨在简化微服务架构中的服务间通信。它提供了丰富的功能来增强 API 的安全性、可维护性和可扩展性。
GitHub Models提供了一个交互式的模型游乐场,用户可以在这里测试不同的提示和模型参数,无需支付费用。此外,GitHub Models与Codespaces和VS Code集成,允许开发者在开发环境中无缝使用这些模型,并通过Azure AI实现生产部署,提供企业级安全和数据隐私保护。
言犀是京东智能人机交互平台,它融合了京东十年的客服服务与营销最佳实践,以及自研的全链路AI能力,为用户提供一个服务数智化平台级的智能人机交互产品。
Snail Radar Dataset 是一个大规模的4D雷达数据集,专为自动驾驶系统中的定位、建图和地点识别而设计。这个数据集通过三种不同的平台(手持设备、电动自行车和SUV)在多种环境条件下收集,包括晴朗天气、夜间和大雨天气。
Stable Video 4D(SV4D)是由AI公司Stability AI推出的首个视频生视频模型。该模型能够将单个物体的单视角视频输入,转换成8个不同视角的多视角视频,为用户提供全视图3D动态视频体验。
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2,是目前最大的公开可用的音视频说话人识别数据集。该数据集丰富了开源语音语料库,支持训练声纹大模型。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
GPT-4o mini是OpenAI推出的一款成本效益极高的小型模型,旨在通过降低智能技术的成本,使其更广泛地应用于各种领域。该模型在MMLU(Massive Multitask Language Understanding)基准测试中获得了82%的分数,并在LMSYS leaderboard的聊天偏好任务中超越了GPT-41,展现了其强大的性能。GPT-4o mini的定价为每百万输入令牌15美分,每百万输出令牌60美分,相比之前的尖端模型,其价格降低了一个数量级,且比GPT-3.5 Turbo便宜了超过60%。
H2O Danube3是由h2oai公司开发的一系列文本生成模型,专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。
CogVLM2-Video是一个专注于视频理解的模型,它利用了大型语言模型和多模态对齐技术,以实现在开放领域中对视频内容的深入理解。该模型通过自动化的时间定位数据构建方法,生成了30k与时间相关的视频问答数据,并通过这些数据训练出了新的视频理解模型。
EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。
Cohere.com是一个提供大语言模型(LLM)的平台,旨在帮助开发人员和企业构建高性能的AI产品。该平台通过提供丰富的API服务,支持多语言输入、神经搜索、搜索排名、文本分类和生成等功能,广泛应用于各种AI应用场景。
openKylin(开放麒麟)是一个以开源社区为基础,致力于构建开放、共享、协同的操作系统生态的平台。它提供了一系列工具和资源,旨在提高操作系统的智能交互能力、开发效率和用户体验。
可灵AI是快手推出的新一代AI创意生产力平台,专注于为用户提供创意内容的生成与编辑服务
HumanAIGC 是一个专注于人工智能生成内容(AIGC)的GitHub仓库,汇集了多个前沿的AI项目,旨在通过人工智能技术简化内容创作过程,提高创作效率和质量。
MimicMotion是腾讯公司推出的一款人工智能人像动态视频生成框架,该框架利用先进的技术,能够根据用户提供的单个参考图像和一系列要模仿的姿势,生成高质量、姿势引导的人类动作视频。
GraphRAG,是一种基于图的RAG(检索增强生成)技术。GraphRAG旨在通过构建知识图谱来增强大模型在搜索、问答、摘要和推理等方面的能力。
哥伦比亚大学工程学院研究人员开发DIVID工具,可以以93.7%准确率检测AI生成视频。
AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
OrionStar猎户星空是一家由猎豹移动投资的智能服务机器人公司,成立于2016年。猎户星空专注于为“真有用”机器人而生,通过全链条AI技术,提供多样化的智能服务机器人解决方案。
Etched是一家美国芯片初创公司的官方网站,专注于研发和应用先进的AI推理加速芯片技术。其核心产品Sohu,以其独特的Transformer架构“烧录”到芯片中的技术,为全球AI领域带来了革命性的变革。
小米AI开放平台,提供深度学习、计算机视觉、语音处理等多方面的技术能力和服务,帮助开发者构建智能应用。
RunwayML推出了Gen-3 Alpha,这是一款用于高保真、可控视频生成的新型模型。它是Runway基于为大规模多模态训练而构建的新基础设施训练的首批模型之一,与Gen-2相比,在保真度、一致性和动作上都有显著提升,是构建通用世界模型的重要一步。
WorldDreamer 是一个由清华大学团队开发的先进的视频生成模型,它能够全面理解视觉动态,并在多种场景下生成视频。这个模型在图像到视频合成、文本到视频生成、视频修复、视频风格化甚至动作到视频生成等方面表现出色。
DeepSeek-V2是一款基于2千亿参数量的MoE(Mixture of Experts)模型的AI技术产品,它在对话官网和API上全面上线,提供领先性能和超低价格。
“No Language Left Behind”(NLLB),旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型,包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。
Hallo是由复旦大学开发的一项前沿技术,专注于肖像图像动画。它利用先进的扩散模型生成逼真且动态的肖像动画,与传统的参数模型相比,Hallo技术提供了更为自然和流畅的面部动作。
HumanPlus 是一个开源项目,旨在实现人形机器人的模仿学习和影子学习。该项目提供了人形影子变换器(Humanoid Shadowing Transformer, HST)和人形模仿变换器(Humanoid Imitation Transformer, HIT)的实现,以及全身姿态估计和相关硬件代码库的指南。
TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。
Nemotron-4是英伟达推出的一系列开放模型,旨在生成合成数据以训练不同行业的大型语言模型(LLMs)。该模型系列为开发人员提供了一种免费、可扩展的解决方案,用于创建类似真实数据特征的合成数据,以支持大型语言模型的训练和改进。
AutoStudio是一个基于文本到图像(Text-to-Image, T2I)生成模型的多轮交互式图像生成框架。它由三个基于大型语言模型(Large Language Models, LLMs)的代理和一个基于稳定扩散(Stable Diffusion, SD)的代理组成,用于生成高质量的图像序列。
该工具能够从单一图像生成具有复杂面部表情和身体动作的虚拟人物,包括笑、说唱、唱歌、眨眼、微笑、说话等效果。
LlamaGen 是一个公开的GitHub项目,专注于使用Llama系列模型进行图像生成的自回归模型研究。LlamaGen项目可能是基于Meta公司发布的LLaMA(Large Language Model Meta AI)大语言模型进行图像领域的拓展和应用。
Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。
YaFSDP是由俄罗斯科技巨头Yandex公司开源的一款大型语言模型(LLM)训练工具。它旨在通过优化GPU通信和减少内存使用量,来提高LLM训练的效率,并节省高达20%的GPU资源。
腾讯混元团队与中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”,只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达10秒。
苹果智能助手(Apple Intelligence)是苹果公司推出的一款集成在iPhone、iPad和Mac中的智能服务,旨在帮助用户更高效地完成写作、表达和日常任务。它通过在设备上进行处理,保护用户的隐私,同时利用服务器端的模型处理更复杂的请求。
Cloudflare AI Gateway 是 Cloudflare 提供的一项服务,旨在帮助用户观察和控制他们的人工智能应用程序。通过连接应用程序到 AI Gateway,用户可以收集关于应用程序使用情况的分析和日志,控制应用程序的扩展方式,如缓存、限速以及请求重试和模型回退等。
该论文提出了一种全新的神经网络架构——Transformer,它完全基于注意力(Attention)机制,彻底抛弃了传统的循环神经网络(RNN)或卷积神经网络(CNN)结构。Transformer模型通过自注意力(Self-Attention)机制来计算输入序列中不同位置之间的相关性,从而实现对序列数据的高效处理。这种架构具有出色的并行计算能力,大大提高了自然语言处理任务的效率。
腾讯AI Lab是腾讯公司的人工智能实验室,致力于人工智能领域的前沿研究和应用开发,推动AI技术的发展和创新。
Aurora是微软发布的一个大规模大气基础模型,旨在利用人工智能技术预测全球范围内的极端天气事件。该模型通过深度学习技术,对大量气象数据进行训练,以捕捉大气中错综复杂的模式和结构。
Mamba-2是由普林斯顿大学和卡内基梅隆大学的华人研究人员共同开发的新一代AI架构,它通过结构化状态空间对偶性(SSD)统一了状态空间模型(SSM)和注意力机制(Attention),实现了性能的显著提升。
NEXA AI,由两位斯坦福校友创办,提出了一种新方法,通过functional token整合多个开源模型,每个模型针对特定任务优化。他们开发了Octopus v4模型,智能地将用户查询引导至最合适的垂直模型,并重新格式化查询以实现最佳性能。
该方法通过强化学习直接对模型进行微调,无需人类反馈,使模型能够做出决策。RL4VLM的研究成果已在GitHub开源,论文预印本也已上线。
南京大经中医药信息技术有限公司是由中医专家团队和信息化专家团队共同创立的国家级高新技术企业,是中医信息化、智能化行业的开创者和领军者,在名老中医诊疗经验的数字化传承和中医临床智能辅助诊疗系统的开发等领域具有深厚的技术积淀。
Earth-2 是 NVIDIA 计划打造的全球最强大的人工智能超级计算机,其主要功能是预测气候变化。该系统将在 Omniverse 中创造一个地球的数字孪生,以实现对全球不同区域未来几十年气候变化的模拟和预测。
麦肯锡官网,提供关于业务介绍、行业洞察、最新研究、咨询服务以及职业发展机会等信息。
Jina AI Reader是Jina AI团队开发的一款创新工具,旨在将任意网页URL或PDF文件转换为大型语言模型(LLM)友好的输入格式。通过简化和标准化网络内容,它极大地提高了语言模型处理和理解网络内容的效率。
香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT,该模型在时空预测技术领域引发了重大突破。
AnimateAnyone是一个基于人工智能的角色动画生成工具,可以将静态图像转化为动态视频,实现角色的动画化。
ViViD 是一个创新的视频虚拟试穿框架,它利用扩散模型技术,结合服装编码器和姿态编码器,为用户提供逼真的视频试穿体验。
ScrapeGraphAI 结合了大型语言模型(LLM)和直接图逻辑,为用户提供了一种高效的方法,用于构建针对网站、文档和XML文件的爬虫流水线。用户只需指定所需的信息类型,ScrapeGraphAI 就能自动完成数据抓取任务。
PCM在图像处理方面有着更快更稳定的表现。PCM针对LCM的问题进行了改进,扩展了模型的应用范围,提高了图像和动画生成的质量。对于动画制作者来说,PCM的优化意味着节省后期处理时间,加快制作流程。未来在扩散模型领域有望迎来更多创新和突破。
EditWorld 是由北京大学、Tiamat AI、天工AI和Mila实验室联合开发的一个图像编辑项目。该项目的核心目标是模拟真实世界动态,以实现基于指令的图像编辑。通过引入世界指令(world-instructed)图像编辑,EditWorld 能够根据用户提供的指令,对图像进行精确的编辑和调整。
让我们在llm.c (约 4,000 行 C/CUDA)中重现GPT-2(124M),耗时 90 分钟,费用为 20 美元。
SignLLM 是全球首个多语种手语视频生成模型,能够将文本或语音指令实时转化为手语视频,为听障人士提供沟通新方式。
Open-Sora是一个由hpcaitech开源的类Sora架构视频生成模型,它基于Diffusion Transformer(DiT)架构,旨在通过文本描述生成高质量的视频内容。该项目涵盖了整个视频生成模型的训练过程,包括数据处理、训练细节和模型检查点,供对文生视频模型感兴趣的人免费学习和使用。
llama3-Chinese-chat是一个开源项目,旨在将强大的llama3模型引入中文世界,使机器能够理解和生成高质量的中文对话。该项目由名为“CrazyBoyM”的开发者主导,通过整合优化后的中文版本模型和一系列教程、资源、工具,为开发者和使用者提供了便利。
Whisper-Medusa:一款基于Whisper模型的优化版语音识别工具,通过多解码头技术显著提升处理速度