openKylin(开放麒麟)是一个以开源社区为基础,致力于构建开放、共享、协同的操作系统生态的平台。它提供了一系列工具和资源,旨在提高操作系统的智能交互能力、开发效率和用户体验。
可灵AI是快手推出的新一代AI创意生产力平台,专注于为用户提供创意内容的生成与编辑服务
HumanAIGC 是一个专注于人工智能生成内容(AIGC)的GitHub仓库,汇集了多个前沿的AI项目,旨在通过人工智能技术简化内容创作过程,提高创作效率和质量。
MimicMotion是腾讯公司推出的一款人工智能人像动态视频生成框架,该框架利用先进的技术,能够根据用户提供的单个参考图像和一系列要模仿的姿势,生成高质量、姿势引导的人类动作视频。
GraphRAG,是一种基于图的RAG(检索增强生成)技术。GraphRAG旨在通过构建知识图谱来增强大模型在搜索、问答、摘要和推理等方面的能力。
哥伦比亚大学工程学院研究人员开发DIVID工具,可以以93.7%准确率检测AI生成视频。
AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
OrionStar猎户星空是一家由猎豹移动投资的智能服务机器人公司,成立于2016年。猎户星空专注于为“真有用”机器人而生,通过全链条AI技术,提供多样化的智能服务机器人解决方案。
Etched是一家美国芯片初创公司的官方网站,专注于研发和应用先进的AI推理加速芯片技术。其核心产品Sohu,以其独特的Transformer架构“烧录”到芯片中的技术,为全球AI领域带来了革命性的变革。
小米AI开放平台,提供深度学习、计算机视觉、语音处理等多方面的技术能力和服务,帮助开发者构建智能应用。
RunwayML推出了Gen-3 Alpha,这是一款用于高保真、可控视频生成的新型模型。它是Runway基于为大规模多模态训练而构建的新基础设施训练的首批模型之一,与Gen-2相比,在保真度、一致性和动作上都有显著提升,是构建通用世界模型的重要一步。
WorldDreamer 是一个由清华大学团队开发的先进的视频生成模型,它能够全面理解视觉动态,并在多种场景下生成视频。这个模型在图像到视频合成、文本到视频生成、视频修复、视频风格化甚至动作到视频生成等方面表现出色。
DeepSeek-V2是一款基于2千亿参数量的MoE(Mixture of Experts)模型的AI技术产品,它在对话官网和API上全面上线,提供领先性能和超低价格。
“No Language Left Behind”(NLLB),旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型,包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。
Hallo是由复旦大学开发的一项前沿技术,专注于肖像图像动画。它利用先进的扩散模型生成逼真且动态的肖像动画,与传统的参数模型相比,Hallo技术提供了更为自然和流畅的面部动作。
HumanPlus 是一个开源项目,旨在实现人形机器人的模仿学习和影子学习。该项目提供了人形影子变换器(Humanoid Shadowing Transformer, HST)和人形模仿变换器(Humanoid Imitation Transformer, HIT)的实现,以及全身姿态估计和相关硬件代码库的指南。
TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。
Nemotron-4是英伟达推出的一系列开放模型,旨在生成合成数据以训练不同行业的大型语言模型(LLMs)。该模型系列为开发人员提供了一种免费、可扩展的解决方案,用于创建类似真实数据特征的合成数据,以支持大型语言模型的训练和改进。
AutoStudio是一个基于文本到图像(Text-to-Image, T2I)生成模型的多轮交互式图像生成框架。它由三个基于大型语言模型(Large Language Models, LLMs)的代理和一个基于稳定扩散(Stable Diffusion, SD)的代理组成,用于生成高质量的图像序列。
该工具能够从单一图像生成具有复杂面部表情和身体动作的虚拟人物,包括笑、说唱、唱歌、眨眼、微笑、说话等效果。
LlamaGen 是一个公开的GitHub项目,专注于使用Llama系列模型进行图像生成的自回归模型研究。LlamaGen项目可能是基于Meta公司发布的LLaMA(Large Language Model Meta AI)大语言模型进行图像领域的拓展和应用。
Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。
YaFSDP是由俄罗斯科技巨头Yandex公司开源的一款大型语言模型(LLM)训练工具。它旨在通过优化GPU通信和减少内存使用量,来提高LLM训练的效率,并节省高达20%的GPU资源。
腾讯混元团队与中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”,只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达10秒。
苹果智能助手(Apple Intelligence)是苹果公司推出的一款集成在iPhone、iPad和Mac中的智能服务,旨在帮助用户更高效地完成写作、表达和日常任务。它通过在设备上进行处理,保护用户的隐私,同时利用服务器端的模型处理更复杂的请求。
Cloudflare AI Gateway 是 Cloudflare 提供的一项服务,旨在帮助用户观察和控制他们的人工智能应用程序。通过连接应用程序到 AI Gateway,用户可以收集关于应用程序使用情况的分析和日志,控制应用程序的扩展方式,如缓存、限速以及请求重试和模型回退等。
该论文提出了一种全新的神经网络架构——Transformer,它完全基于注意力(Attention)机制,彻底抛弃了传统的循环神经网络(RNN)或卷积神经网络(CNN)结构。Transformer模型通过自注意力(Self-Attention)机制来计算输入序列中不同位置之间的相关性,从而实现对序列数据的高效处理。这种架构具有出色的并行计算能力,大大提高了自然语言处理任务的效率。
腾讯AI Lab是腾讯公司的人工智能实验室,致力于人工智能领域的前沿研究和应用开发,推动AI技术的发展和创新。
Aurora是微软发布的一个大规模大气基础模型,旨在利用人工智能技术预测全球范围内的极端天气事件。该模型通过深度学习技术,对大量气象数据进行训练,以捕捉大气中错综复杂的模式和结构。
Mamba-2是由普林斯顿大学和卡内基梅隆大学的华人研究人员共同开发的新一代AI架构,它通过结构化状态空间对偶性(SSD)统一了状态空间模型(SSM)和注意力机制(Attention),实现了性能的显著提升。
NEXA AI,由两位斯坦福校友创办,提出了一种新方法,通过functional token整合多个开源模型,每个模型针对特定任务优化。他们开发了Octopus v4模型,智能地将用户查询引导至最合适的垂直模型,并重新格式化查询以实现最佳性能。
该方法通过强化学习直接对模型进行微调,无需人类反馈,使模型能够做出决策。RL4VLM的研究成果已在GitHub开源,论文预印本也已上线。
南京大经中医药信息技术有限公司是由中医专家团队和信息化专家团队共同创立的国家级高新技术企业,是中医信息化、智能化行业的开创者和领军者,在名老中医诊疗经验的数字化传承和中医临床智能辅助诊疗系统的开发等领域具有深厚的技术积淀。
Earth-2 是 NVIDIA 计划打造的全球最强大的人工智能超级计算机,其主要功能是预测气候变化。该系统将在 Omniverse 中创造一个地球的数字孪生,以实现对全球不同区域未来几十年气候变化的模拟和预测。
麦肯锡官网,提供关于业务介绍、行业洞察、最新研究、咨询服务以及职业发展机会等信息。
Jina AI Reader是Jina AI团队开发的一款创新工具,旨在将任意网页URL或PDF文件转换为大型语言模型(LLM)友好的输入格式。通过简化和标准化网络内容,它极大地提高了语言模型处理和理解网络内容的效率。
香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT,该模型在时空预测技术领域引发了重大突破。
AnimateAnyone是一个基于人工智能的角色动画生成工具,可以将静态图像转化为动态视频,实现角色的动画化。
ViViD 是一个创新的视频虚拟试穿框架,它利用扩散模型技术,结合服装编码器和姿态编码器,为用户提供逼真的视频试穿体验。
ScrapeGraphAI 结合了大型语言模型(LLM)和直接图逻辑,为用户提供了一种高效的方法,用于构建针对网站、文档和XML文件的爬虫流水线。用户只需指定所需的信息类型,ScrapeGraphAI 就能自动完成数据抓取任务。
PCM在图像处理方面有着更快更稳定的表现。PCM针对LCM的问题进行了改进,扩展了模型的应用范围,提高了图像和动画生成的质量。对于动画制作者来说,PCM的优化意味着节省后期处理时间,加快制作流程。未来在扩散模型领域有望迎来更多创新和突破。
EditWorld 是由北京大学、Tiamat AI、天工AI和Mila实验室联合开发的一个图像编辑项目。该项目的核心目标是模拟真实世界动态,以实现基于指令的图像编辑。通过引入世界指令(world-instructed)图像编辑,EditWorld 能够根据用户提供的指令,对图像进行精确的编辑和调整。
让我们在llm.c (约 4,000 行 C/CUDA)中重现GPT-2(124M),耗时 90 分钟,费用为 20 美元。
SignLLM 是全球首个多语种手语视频生成模型,能够将文本或语音指令实时转化为手语视频,为听障人士提供沟通新方式。
Open-Sora是一个由hpcaitech开源的类Sora架构视频生成模型,它基于Diffusion Transformer(DiT)架构,旨在通过文本描述生成高质量的视频内容。该项目涵盖了整个视频生成模型的训练过程,包括数据处理、训练细节和模型检查点,供对文生视频模型感兴趣的人免费学习和使用。
llama3-Chinese-chat是一个开源项目,旨在将强大的llama3模型引入中文世界,使机器能够理解和生成高质量的中文对话。该项目由名为“CrazyBoyM”的开发者主导,通过整合优化后的中文版本模型和一系列教程、资源、工具,为开发者和使用者提供了便利。
3DGen-Arena是由复旦大学和上海AI lab的研究人员开发的一个3D生成模型的人工评测竞技场。它旨在提供一个公开、匿名的平台,让用户对不同的3D生成模型进行比较和评价。
该研究介绍了针对大型语言模型的无偏水印技术,表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架,确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法,而不会牺牲质量。
若愚科技是一家专注于人工智能领域的科技公司,其主要成果之一是推出了具有自主知识产权的“九天机器人大脑”。
通过改进注意力机制,DCFormer相比Transformer性能提升1.7-2倍。在相同训练数据和算力下,用DCFormer改进后的69亿参数模型效果超过120亿参数模型。
该研究由来自 UT Austin 和 UC Berkeley 的研究者共同完成,提出了一种新颖的扩散模型框架。
Chameleon 是由 Meta 的 FAIR(Facebook AI 研究)团队开发的突破性 AI 模型,可无缝集成文本和图像处理。与单独处理文本和图像的传统模型不同,Chameleon 从一开始就将它们一起处理,在理解和生成混合模式内容方面提供了前所未有的能力。这篇综合文章深入探讨了 Chameleon 的独特功能、创新训练技术及其在各种任务中的出色表现。
MiniCPM-V 是一系列端侧多模态大型语言模型(MLLMs),专为视觉-语言理解设计。该模型以图像和文本为输入,提供高质量的文本输出。
CogVLM2是一个强大的视觉大模型,由THUDM(清华大学自然语言处理实验室)开发,具有出色的视觉和语言理解能力。
通义千问超大规模语言模型,支持长文本上下文,以及基于长文档、多文档等多个场景的对话功能。具体支持的文档格式与限制,可参见上传文件。
FIFO-Diffusion是一种基于预训练扩散模型的新型推理技术,用于无需训练即可从文本生成无限长的视频。
Phi-3-vision-128k-instruct是Phi-3家族中的第一个多模态模型,拥有4.2B参数,支持128K的上下文长度。该模型结合了语言和视觉处理能力,能够在多种设备上高效地处理和响应图像及文本数据。
星火大模型是科大讯飞推出的AI大语言模型,提供丰富的API矩阵,支持多种功能,如图片理解、图片生成、embedding等,旨在推动业务创新发展。
PaliGemma是Google开发的一款开源视觉语言模型,旨在处理与图像相关的文本生成任务,如图像描述、问答和目标分割等。
Seaborn 是一个基于matplotlib的 Python 数据可视化库。它提供了一个高级界面,用于绘制有吸引力且信息丰富的统计图形。
openKylin(开放麒麟)是一个以开源社区为基础,致力于构建开放、共享、协同的操作系统生态的平台。它提供了一系列工具和资源,旨在提高操作系统的智能交互能力、开发效率和用户体验。