WWW.AWTEY.CN
标签聚合 MoE

/tag/MoE

www.ithome.com · 2026-04-29 07:35:02+08:00 · tech

IT之家 4 月 29 日消息,当地时间 4 月 28 日,英伟达宣布推出名为 Nemotron 3 Nano Omni 的开源全模态推理模型,旨在为企业级 AI Agent 提供一体化基础模型底座。 据介绍,这是一款将视频、音频、图像和文本的统一多模态推理集成于单个高效开放模型中的产品。该模型旨在替代智能体系统中常见的碎片化视觉-语音-语言模型链,从而减少推理跳数与编排复杂度,降低推理成本,同时增强跨模态上下文一致性。 Nemotron 3 Nano Omni 可在智能体系统中充当多模态感知与上下文子 Agent,使智能体能够在单个共享的“感知-行动”循环中处理视觉、音频和文本输入,提升收敛速度,降低编排复杂度和推理成本。 在文档智能榜单(如 MMlongbench-Doc 和 OCRBenchV2)上,该模型取得了同类领先的准确率;同时在视频与音频理解基准(WorldSense、DailyOmni、VoiceBench)中也表现优异。 行业基准 MediaPerf(基于真实媒体数据和生成任务评估视频理解模型的性能、成本和吞吐量)显示,Nemotron 3 Nano Omni 在所有任务上实现了最高吞吐量,且视频级标注的推理成本最低。 ▲ 在固定的用户交互阈值下,各模型所能维持的总系统吞吐量 该模型基于 30B‑A3B 混合专家(MoE)架构,可根据任务和模态进行激活,实现高吞吐量与可扩展的多模态性能。IT之家注意到,其模型权重、数据集和训练配方完全开放,开发者可在本地、云端或企业环境中定制、部署和集成多模态子 Agent。 英伟达表示,在固定交互延迟阈值下,Nemotron 3 Nano Omni 在视频推理任务中可持续提供更高的聚合吞吐量,相比其他开放式全模态模型有效系统容量最高提升约 9.2 倍;在多文档推理任务中,有效系统容量最高提升约 7.4 倍。在 Blackwell GPU 上采用 NVFP4 量化时,该模型在处理复杂文档、长时推理和大批量视频的企业级工作负载中,吞吐量在开放式全模态模型中居于领先。 架构设计方面,Nemotron 3 Nano Omni 核心为混合 MoE,结合 Mamba 层(提升序列与内存效率)和 Transformer 层(实现精准推理),内存和计算效率最高可提升 4 倍。 视觉处理方面,它采用 3D 卷积捕捉帧间运动,推理时通过高效视频采样层将高密度视觉 token 压缩为 LLM 可处理的精简集合;音频部分则基于 NVIDIA Parakeet 编码器与专用数据集;文本部分以强大的文本模型作为中心解码器,保留基础模型的语言能力;视觉编码采用 C-RADIOv4-H,支持高分辨率图像与 OCR 精度。 其训练方法涵盖适配器与编码器训练(约 1270 亿跨模态 token)、多阶段监督微调及后监督强化学习(超过 230 万次环境 rollout)。该模型权重已在 Hugging Face 上提供,并即将作为 NVIDIA NIM 微服务上线。英伟达还开放了完整的端到端训练与评估配方、部署指南、微调食谱以及开放数据集。

www.ithome.com · 2026-04-22 21:23:21+08:00 · tech

IT之家 4 月 22 日消息,阿里云通义千问团队今日宣布,开源模型家族迎来新成员 ——Qwen3.6-27B。这是一款拥有 270 亿参数的稠密多模态模型,也是社区呼声最高的模型规格。 此前,通义千问已陆续发布了 Qwen3.6-Plus 和 Qwen3.6-35B-A3B,而此次开源的 27B 版本在保持稠密架构优势的同时,全面提升了智能体编程与多模态推理能力。 据官方介绍,Qwen3.6-27B 支持多模态思考与非思考模式,在智能体编程方面达到了旗舰级表现,全面超越了前代开源旗舰 Qwen3.5-397B-A17B—— 后者是一款总参数 397 亿、激活参数 170 亿的 MoE(混合专家)模型。作为稠密架构,Qwen3.6-27B 无需 MoE 路由即可部署,是开发者在实用、可广泛部署规模上获取顶尖编程能力的理想选择。 在自然语言与编程基准测试中,Qwen3.6-27B 仅凭 270 亿参数,就在所有主要编程基准上全面超越了参数量高达其 15 倍的 Qwen3.5-397B-A17B。 具体来看,SWE-bench Verified 得分 77.2(前代 76.2),SWE-bench Pro 得分 53.5(前代 50.9),Terminal-Bench 2.0 得分 59.3(前代 52.5),SkillsBench 得分 48.2(前代 30.0)。 在推理任务上,Qwen3.6-27B 在 GPQA Diamond 上取得了 87.8 的成绩,可与数倍于其规模的模型相媲美。 视觉语言方面,该模型原生支持多模态,能够处理图像、视频与文本的混合输入,支持视觉推理、文档理解和视觉问答等任务,其能力与 Qwen3.6-35B-A3B 保持一致。 IT之家提醒,Qwen3.6-27B 的开源权重已在 Hugging Face 和 ModelScope 平台上提供,开发者可下载进行本地部署。同时,用户也可以在 Qwen Studio( chat.qwen.ai )上直接进行交互对话。 另外,阿里云百炼平台即将支持通过 API 调用该模型,并保留“preserve_thinking”功能,可在消息中保留所有前序轮次的思维内容,官方推荐用于智能体任务。 该模型还可以无缝集成到流行的第三方编程助手中,包括 OpenClaw、Claude Code 和 Qwen Code,从而简化开发流程,实现高效且具备上下文感知能力的编码体验。