GameGen-O:一款专为开放世界视频游戏生成而设计的扩散变换器模型。
DeepFakeDefenders是一个用于检测和防御深度伪造(DeepFake)技术的开源工具,通过集成先进的深度学习模型来识别图像中的伪造痕迹。
wechatferry是一个用于微信小程序的自动化测试与部署的工具,旨在提高小程序开发效率与测试覆盖率。
Mini-Omni是一款开源的多模态大型语言模型,支持实时端到端的语音输入和流式音频输出,能够在思考的同时进行语音交互。
一个开源的实时人像美化和背景替换工具,基于深度学习技术,为视频通话、直播和虚拟背景应用提供高级视觉效果。
VideoGameBunny-V1是一个基于Hugging Face平台的预训练模型,专注于视频游戏内容的理解与生成,旨在为游戏开发者、内容创作者和AI研究者提供强大的工具。
一款创新的图像生成模型,专注于混合现实与插画风格的图像创作。
ControlNext是一款强大的自动化控制系统设计与仿真平台,专为工程师和科研人员设计,用于快速搭建、测试和优化自动化控制策略。
Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。
Deep-Live-Cam是一个开源的实时面部交换和一键式视频深度伪造工具,它允许用户仅使用单张图片即可生成深度伪造视频。
Transfusion是一种用于训练多模态模型的方法,能够处理离散数据(如文本)和连续数据(如图像)。
一款由南洋理工大学S-Lab实验室开发的视频人脸超分辨率工具,旨在通过先进的AI技术显著提升视频帧中人脸细节的清晰度。
MagicFixup是由Adobe Research开发的一款创新工具,它通过学习和分析动态视频中的变化,来优化和提升静态照片的编辑效果,使编辑后的照片更加自然和逼真。
LongWriter是清华大学团队开发的长文本生成模型,专为生成超过10,000字的长篇连贯文本设计。
易采集/EasySpider是一个可视化无代码的网页数据采集工具,用户可以通过图形界面设计和执行爬虫任务,无需编写代码。
EmoTalk3D是一款集成情感识别与三维虚拟角色交互的创新性沟通工具,能够根据用户的语音或文本输入自动生成对应的情感表达,实现与虚拟角色的深度情感交流。
MiniCPM-V是由OpenBMB开发的一款面向端侧部署的多模态大型语言模型(MLLM),支持图像、视频和文本输入,提供高质量的文本输出。
Whisper-Medusa:一款基于Whisper模型的优化版语音识别工具,通过多解码头技术显著提升处理速度
CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,专注于高质量的语音合成,能够生成自然且逼真的语音。该模型支持多种语言、音色和情感控制,为用户提供了丰富的语音生成能力。
Flux 是一个开源的、基于 Go 语言的轻量级、高性能的 API 网关,旨在简化微服务架构中的服务间通信。它提供了丰富的功能来增强 API 的安全性、可维护性和可扩展性。
GitHub Models提供了一个交互式的模型游乐场,用户可以在这里测试不同的提示和模型参数,无需支付费用。此外,GitHub Models与Codespaces和VS Code集成,允许开发者在开发环境中无缝使用这些模型,并通过Azure AI实现生产部署,提供企业级安全和数据隐私保护。
Stable Video 4D(SV4D)是由AI公司Stability AI推出的首个视频生视频模型。该模型能够将单个物体的单视角视频输入,转换成8个不同视角的多视角视频,为用户提供全视图3D动态视频体验。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
H2O Danube3是由h2oai公司开发的一系列文本生成模型,专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。
CogVLM2-Video是一个专注于视频理解的模型,它利用了大型语言模型和多模态对齐技术,以实现在开放领域中对视频内容的深入理解。该模型通过自动化的时间定位数据构建方法,生成了30k与时间相关的视频问答数据,并通过这些数据训练出了新的视频理解模型。
EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。
HumanAIGC 是一个专注于人工智能生成内容(AIGC)的GitHub仓库,汇集了多个前沿的AI项目,旨在通过人工智能技术简化内容创作过程,提高创作效率和质量。
MimicMotion是腾讯公司推出的一款人工智能人像动态视频生成框架,该框架利用先进的技术,能够根据用户提供的单个参考图像和一系列要模仿的姿势,生成高质量、姿势引导的人类动作视频。
GraphRAG,是一种基于图的RAG(检索增强生成)技术。GraphRAG旨在通过构建知识图谱来增强大模型在搜索、问答、摘要和推理等方面的能力。
AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
WorldDreamer 是一个由清华大学团队开发的先进的视频生成模型,它能够全面理解视觉动态,并在多种场景下生成视频。这个模型在图像到视频合成、文本到视频生成、视频修复、视频风格化甚至动作到视频生成等方面表现出色。
“No Language Left Behind”(NLLB),旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型,包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。
Hallo是由复旦大学开发的一项前沿技术,专注于肖像图像动画。它利用先进的扩散模型生成逼真且动态的肖像动画,与传统的参数模型相比,Hallo技术提供了更为自然和流畅的面部动作。
HumanPlus 是一个开源项目,旨在实现人形机器人的模仿学习和影子学习。该项目提供了人形影子变换器(Humanoid Shadowing Transformer, HST)和人形模仿变换器(Humanoid Imitation Transformer, HIT)的实现,以及全身姿态估计和相关硬件代码库的指南。
TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。
AutoStudio是一个基于文本到图像(Text-to-Image, T2I)生成模型的多轮交互式图像生成框架。它由三个基于大型语言模型(Large Language Models, LLMs)的代理和一个基于稳定扩散(Stable Diffusion, SD)的代理组成,用于生成高质量的图像序列。
该工具能够从单一图像生成具有复杂面部表情和身体动作的虚拟人物,包括笑、说唱、唱歌、眨眼、微笑、说话等效果。
LlamaGen 是一个公开的GitHub项目,专注于使用Llama系列模型进行图像生成的自回归模型研究。LlamaGen项目可能是基于Meta公司发布的LLaMA(Large Language Model Meta AI)大语言模型进行图像领域的拓展和应用。
Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。
YaFSDP是由俄罗斯科技巨头Yandex公司开源的一款大型语言模型(LLM)训练工具。它旨在通过优化GPU通信和减少内存使用量,来提高LLM训练的效率,并节省高达20%的GPU资源。
腾讯混元团队与中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”,只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达10秒。
Mamba-2是由普林斯顿大学和卡内基梅隆大学的华人研究人员共同开发的新一代AI架构,它通过结构化状态空间对偶性(SSD)统一了状态空间模型(SSM)和注意力机制(Attention),实现了性能的显著提升。
NEXA AI,由两位斯坦福校友创办,提出了一种新方法,通过functional token整合多个开源模型,每个模型针对特定任务优化。他们开发了Octopus v4模型,智能地将用户查询引导至最合适的垂直模型,并重新格式化查询以实现最佳性能。
该方法通过强化学习直接对模型进行微调,无需人类反馈,使模型能够做出决策。RL4VLM的研究成果已在GitHub开源,论文预印本也已上线。
香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT,该模型在时空预测技术领域引发了重大突破。
AnimateAnyone是一个基于人工智能的角色动画生成工具,可以将静态图像转化为动态视频,实现角色的动画化。
ViViD 是一个创新的视频虚拟试穿框架,它利用扩散模型技术,结合服装编码器和姿态编码器,为用户提供逼真的视频试穿体验。
ScrapeGraphAI 结合了大型语言模型(LLM)和直接图逻辑,为用户提供了一种高效的方法,用于构建针对网站、文档和XML文件的爬虫流水线。用户只需指定所需的信息类型,ScrapeGraphAI 就能自动完成数据抓取任务。
PCM在图像处理方面有着更快更稳定的表现。PCM针对LCM的问题进行了改进,扩展了模型的应用范围,提高了图像和动画生成的质量。对于动画制作者来说,PCM的优化意味着节省后期处理时间,加快制作流程。未来在扩散模型领域有望迎来更多创新和突破。
EditWorld 是由北京大学、Tiamat AI、天工AI和Mila实验室联合开发的一个图像编辑项目。该项目的核心目标是模拟真实世界动态,以实现基于指令的图像编辑。通过引入世界指令(world-instructed)图像编辑,EditWorld 能够根据用户提供的指令,对图像进行精确的编辑和调整。
让我们在llm.c (约 4,000 行 C/CUDA)中重现GPT-2(124M),耗时 90 分钟,费用为 20 美元。
SignLLM 是全球首个多语种手语视频生成模型,能够将文本或语音指令实时转化为手语视频,为听障人士提供沟通新方式。
Open-Sora是一个由hpcaitech开源的类Sora架构视频生成模型,它基于Diffusion Transformer(DiT)架构,旨在通过文本描述生成高质量的视频内容。该项目涵盖了整个视频生成模型的训练过程,包括数据处理、训练细节和模型检查点,供对文生视频模型感兴趣的人免费学习和使用。
llama3-Chinese-chat是一个开源项目,旨在将强大的llama3模型引入中文世界,使机器能够理解和生成高质量的中文对话。该项目由名为“CrazyBoyM”的开发者主导,通过整合优化后的中文版本模型和一系列教程、资源、工具,为开发者和使用者提供了便利。
3DGen-Arena是由复旦大学和上海AI lab的研究人员开发的一个3D生成模型的人工评测竞技场。它旨在提供一个公开、匿名的平台,让用户对不同的3D生成模型进行比较和评价。
该研究介绍了针对大型语言模型的无偏水印技术,表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架,确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法,而不会牺牲质量。
通过改进注意力机制,DCFormer相比Transformer性能提升1.7-2倍。在相同训练数据和算力下,用DCFormer改进后的69亿参数模型效果超过120亿参数模型。
该研究由来自 UT Austin 和 UC Berkeley 的研究者共同完成,提出了一种新颖的扩散模型框架。
Chameleon 是由 Meta 的 FAIR(Facebook AI 研究)团队开发的突破性 AI 模型,可无缝集成文本和图像处理。与单独处理文本和图像的传统模型不同,Chameleon 从一开始就将它们一起处理,在理解和生成混合模式内容方面提供了前所未有的能力。这篇综合文章深入探讨了 Chameleon 的独特功能、创新训练技术及其在各种任务中的出色表现。
MiniCPM-V 是一系列端侧多模态大型语言模型(MLLMs),专为视觉-语言理解设计。该模型以图像和文本为输入,提供高质量的文本输出。
GameGen-O:一款专为开放世界视频游戏生成而设计的扩散变换器模型。