模态 - WWW.AWTEY.CN - WWW.AWTEY.CN

豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

www.ithome.com · 2026-05-06 21:51:02+08:00 · tech

IT之家 5 月 6 日消息，据字节跳动旗下火山引擎官方消息，今天，Doubao-Seed-2.0-lite 升级新版本，这是豆包大模型家族首款全模态理解模型，支持视频、图像、音频、文本原生统一理解，Agent、Coding 与 GUI 能力同步升级。在同等算力成本下，是企业大规模、批量化部署全模态推理任务的更优性价比选择。 Doubao-Seed-2.0-lite 全新版本已在火山方舟上线。 IT之家附官方详细介绍如下：全模态理解：不止看懂图文，更能听懂世界新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升，在物理（HiPhO）、医疗（MedXpertQA）等高阶学科推理上，表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知（BabyVision、WorldVQA）与具身理解（ERQA）等关键领域达到 SOTA 水平，更适合企业在高价值场景规模化部署。加粗表示最优结果，下划线表示次优结果，下同融入语音理解后，新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态，并完成跨模态联合推理，直接处理必须“音画结合”才能判断的复杂业务需求。在视频理解场景下，模型能够联合分析视频中的画面与音频信息，精准辨析视频中的视听一致性，判断“看到的”与“听到的”是否一致。同时支持根据自然语言指令，在视频中精准定位特定事件发生的时间点；更能跨越多个时间段提取关键线索，持续追踪人物与事件发展，并基于画面进行多步逻辑推理，还原事件关系与行为脉络。 OmniVideoBench&WorldSense 结果基于 Gemini-3.1-Pro 测得在音频上，模型支持 19 个语种的精准语音转写、中英文与其他 14 个语种互译，还能深度捕捉语音中的情绪变化、环境背景声与音乐细节，输出更完整、更接近人类认知的语义信息。根据公开评测集，Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。 ↑ 表示数值越高越优，↓ 表示数值越低越优 Agent 和 Coding 能力升级：长任务更稳定，胜任前后端深度开发 Doubao-Seed-2.0-lite 对多轮、多步、多约束的用户指令遵循度显著提升；继续增强任务反思推理与多 Agent 协同调度能力，让 Agent 在长程任务中自我拆解、自我校验，不偏题、不遗漏。 Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架，强化深度搜索与 Skill 动态调用，可边执行、边沉淀经验，越用越聪明。模型的 Coding 能力全面覆盖前端页面、3D 场景与游戏开发，交付产物在视觉美观度与工程完整度上进一步提升，胜任从原型到上线的前后端深度开发。 GUI 能力融合：界面理解与操作执行一体化基于升级的 GUI 能力，Doubao-Seed-2.0-lite 将“看懂界面”与“动手操作”打通为一条闭环：既能精准识别按钮、菜单、表单、弹窗等界面元素及其状态，也能稳定完成点击、输入、右键、滚动、拖拽等 Browser Use 与 Computer Use 操作。从读懂一张网页，到跨应用、跨窗口连续执行一整套业务流程，让 Agent 真正具备“端到端把活干完”的交付力。 Gemini-3.1-pro 结果由本地复现获取，其他模型评测数据来源于官方技术报告与基准榜单新版本模型正在解锁更多新场景全模态理解结合持续增强的 Agent、Coding 和 GUI 能力，可以帮助各领域企业用户解锁更多商业化应用场景。以电竞游戏场景为例，在下面的 AI 电竞教练比赛例子中，模型联合分析比赛画面与语音指挥，围绕准星、身法、道具、经济、对枪、声音反应等游戏中的多维信息做切片点评；基于视频深度解构能力，跨越整场比赛的多个回合追踪同一选手的走位与决策轨迹，赛后生成高光 / 失误图谱与时间轴复盘。依托 Agent Harness 框架，模型可连续执行跨越 25 小时的长程任务，像真人教练一样精准指出玩家的提升建议。此外，AI 电竞教练的整套交互界面也由 Doubao-Seed-2.0-lite 模型直接生成 —— 从战况图谱到时间轴复盘卡片，排版整洁、层级清晰，视觉美观度与工程完整度均达到可上线的水准。在在线教育场景中，用户也可以在 ArkClaw 中调用该模型，完成高效协作。模型定时查看英语课堂教学录像，识别视频中老师和学生的教学和学习状态、口语发音与情绪变化，发送给班主任和教学组长；随后调用模型 Coding 能力，还能自动生成包括课堂亮点、学生表现高光时刻等可视化课堂表现报告，发送给学生家长。在海外电商运营场景中，在 Hermes Agent 中，基于模型出色的 GUI 能力，自主打开浏览器，在海外电商平台上搜索英、法、西、德等多语言的口红爆款视频，一键下载至本地，拆解口播、 BGM、分镜与文案要素，并回写 Skill 库；随后调用视频生成能力，生成适用于海外推广的多语言版视频，并自动登录电商平台发布，执行过程不断进化 Skills。此外，Doubao-Seed-2.0-mini 全新版也已同步上线，同样支持全模态理解，对比上一版本，思考长度大幅缩短，Tokens 效率更高。

DeepSeek 公布多模态模型技术报告

www.ithome.com · 2026-04-30 22:39:33+08:00 · tech

IT之家 4 月 30 日消息，DeepSeek 在 GitHub 平台正式发布了其多模态大模型，并同步公开了配套技术报告。该报告提出了一种基于“视觉原语”的创新推理框架，旨在突破当前多模态大语言模型（MLLMs）在空间参照任务中的核心瓶颈。技术报告指出，尽管多模态大语言模型近年来取得长足进步，但主流的链式思维（CoT）推理范式仍主要局限于语言学领域。现有研究多聚焦于通过高分辨率图像裁剪等技术手段弥合“感知鸿沟”，即提升模型对视觉细节的识别能力。然而，DeepSeek 团队认为，这一思路忽视了一个更为根本的限制：参照鸿沟。自然语言固有的模糊性使其难以对复杂的空间布局提供精确、明确的指引。当模型需要执行涉及严谨空间参照的任务时，这种语言表达的局限性往往导致推理链条断裂，出现逻辑崩溃。针对上述问题，DeepSeek 提出了“基于视觉原语的思考”（Thinking with Visual Primitives）框架。该框架将点、边界框等空间标记从单纯的视觉输入元素，提升为推理过程中的“基本思维单元”。通过将这些视觉原语直接嵌入模型的思考链路，DeepSeek 使模型在推理过程中具备了“指代”能力 —— 即能够将抽象的认知轨迹锚定到图像的具体物理坐标上，从而实现对空间关系的精确推演。技术报告披露，该框架采用了高度优化的模型架构，具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低，DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上，能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。 IT之家注意到，DeepSeek 此前已经上线了“识图模式”，该模式和“快速模式”“专家模式”并列，并非简单的 OCR 文字，而是终于具备了多模态识别能力。

阿里开源 Qwen3.6-35B-A3B 模型：主打高效轻量，支持多模态思考

www.ithome.com · 2026-04-20 14:46:49+08:00 · tech

IT之家 4 月 20 日消息，4 月 19 日（昨天）晚间，千问 3.6 系列中等尺寸模型 Qwen3.6-35B-A3B 模型正式开源，仅激活 3B。根据介绍，该模型不但轻量高效，而且在智能体编程方面表现卓越，大幅超越前代模型 Qwen3.5-35B-A3B，并可与 Qwen3.5-27B 和 Gemma4-31B 等稠密模型一较高下。其采用混合专家（MoE）架构，总参数量 350 亿、激活仅 30 亿，在推理过程中，可实现以更低的算力消耗完成更高性能的智能输出。阿里方面称，在考察终端编程的 Terminal-Bench2.0、长程编程任务 NL2Repo、真实世界 Agent 能力评测的 QwenClawBench 等权威基准测试中，Qwen3.6-35B-A3B 的表现均明显优于前一代 Qwen3.5-35B-A3B，以及 Gemma4-26B-A4B、Gemma4-31B 等同类开源模型。新模型还支持多模态思考与非思考模式。多模态推理方面，在 MMBench、RealWorldQA、SimpleVQA 等多项视觉语言基准测试中，新模型表现媲美 Claude-Sonnet-4.5。在空间智能方面，Qwen3.6-35B-A3B 在例如 RefCOCO、ODInW13 等考核模型对复杂图像识别能力的基准测试中，分别取得 92 和 50.8 的成绩。 Qwen3.6-35B-A3B 还实现了 OpenClaw、Qwen Code、Claude Code 等主流 Agent 框架的深度兼容，能够将模型的编程能力、原生多模态能力，更好地赋予各类智能体，完成更长程、更复杂的任务，有望成为本地部署的“智能大脑”。 IT之家附模型调用 / 体验地址如下：魔搭社区： https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B Hugging Face： https://huggingface.co/Qwen/Qwen3.6-35B-A3B Qwen Studio： https://chat.qwen.ai/

元戎启行首次证实前 DeepSeek 多模态核心研究员阮翀加盟，出任首席科学家

www.ithome.com · 2026-04-12 18:17:11+08:00 · tech

IT之家 4 月 12 日消息，由车百会研究院主办的智能电动汽车发展高层论坛（2026）在北京召开，主题为“推进新能源汽车智能化、绿色化、融合化、国际化发展”。元戎启行 CEO 周光上发表演讲，宣布元戎已打造 400 亿参数规模的基础模型，实现辅助驾驶从“执行系统”到“认知系统”的范式跃迁。他还首次对外确认，前 DeepSeek 多模态技术核心研究员阮翀（IT之家注读音：ruǎn chōng）已加盟公司，出任首席科学家。他透露阮翀已于数月前加入，但此前未有公开信息。阮翀将于 2026 年北京车展首次公开亮相并发表演讲，展示“基座模型”在智能驾驶领域的最新成果。公开资料显示，阮翀 2018 年毕业于北京大学计算语言研究所，2023 年加入 DeepSeek 担任研究员，曾深度参与 DeepSeek-VL / VL2、Janus 系列等多模态模型的研发，并与 DeepSeek 创始人梁文锋共同署名论文多达 9 篇。此外，阮翀还是 2025 年 9 月《Nature》收录论文《DeepSeek-R1：通过强化学习激励大型语言模型进行推理》的作者之一，并参与了 DeepSeekMoE、DeepSeek-V3、Native Sparse Attention 等多项底层技术研究。元戎启行方面表示，公司很早就将基座模型确立为技术战略方向，这是吸引阮翀加入的重要原因。周光称，下一阶段辅助驾驶竞争的关键不再是单纯的算法优化，而是系统认知能力的进化，基座模型将推动辅助驾驶从功能升级迈向认知升级。周光在演讲中还透露，元戎启行计划 2026 年推动辅助驾驶系统量产交付规模突破 100 万辆。截至 2026 年 3 月，元戎启行已交付近 30 万台搭载城市 NOA 的车型，累计行驶里程超 13 亿公里，系统成功避免 14.1 万次前向碰撞和 4.7 万次后碰撞事故。相关阅读：《元戎启行宣布与国际头部车企达成 L3 合作，累计融资金额已超 7 亿美元》《黑芝麻智能与元戎启行合作，推动高阶辅助驾驶技术量产》《元戎启行组合辅助驾驶方案合作车型累计交付超 13 万台，9 月交付超 3 万台》

氪星晚报｜三星电子借AI热潮市值突破1万亿美元；智源发布业内首个心脏磁共振多模态诊断智能体BAAI Cardiac Agent；财政部今年将在香港发行840亿元人民币国债

36kr.com · None · tech

大公司： SpaceX提议投入550亿美元在得州启动Terafab项目埃隆·马斯克旗下的SpaceX公司提议斥资550亿美元，在得克萨斯州启动一座名为Terafab的新半导体生产设施的建设。根据格兰姆斯县官网发布的一份公告，如果该项目的后续阶段得以完成，预计总投资额可能升至1190亿美元。（财联社）三星电子借AI热潮市值突破1万亿美元在人工智能相关股票需求蓬勃发展的推动下，三星电子市值突破1万亿美元，成为继台积电之后第二家跻身这一精英俱乐部的东亚企业。（新浪财经） Mike Xu旗下食品科技公司GrubMarket入选《时代》TIME100行业领袖榜单美国《时代》周刊（TIME）日前正式揭晓2026年度TIME100企业行业领袖（TIME 100Companies Industry Leaders）榜单，由华裔企业家MikeXu创立并掌舵的食品科技公司GrubMarket，成为全球食品供应链领域唯一入选企业。据了解，成立于旧金山的GrubMarket，定位“食品行业的操作系统”，是美国最大民营食品公司，估值达45亿美元，同时也是全球规模领先的食品电商与AI供应链技术服务商。美股光模块巨头Lumentum总裁：产品需求远大于供应能力，订单已排至2028年美股光模块巨头Lumentum总裁兼CEO迈克尔·赫尔斯顿表示，Lumentum第三财季业绩表现卓越，营收同比增长90%，创下8.08亿美元的历史新高。虽然营收增长持续占据新闻头条，但近期业绩更令人印象深刻的是利润率的提升。第三财季，毛利率环比提升540个基点，营业利润率环比提升700个基点。利润率的提升得益于多方面因素。随着共封装光学器件和光路开关等关键增长动力开始发挥作用，预计盈利能力将进一步增强。赫尔斯顿表示，公司的订单已经排到2028年，因为连接GPU集群所需的组件的需求增长速度已经远远超过了供应的生产速度。（财联社） Anthropic承诺投入2000亿美元，采购谷歌云服务与芯片谷歌上月宣布，将向Anthropic提供高达5吉瓦的服务器算力，但当时双方并未披露这笔合作涉及的具体金额。据知情人士透露，这项合作将于明年正式启动，作为协议一部分，Anthropic计划未来五年在谷歌累计投入约2000亿美元。谷歌上周向投资者披露了云业务合同储备收入，Anthropic一家就占到其中40%以上，代表着谷歌已锁定的云客户长期合约承诺规模。（新浪财经） Meta正在开发名为“Hatch”的AI智能体及Instagram内置AI购物工具据知情人士透露，Meta平台公司正在打造一款面向普通消费者、对标OpenClaw的AI智能体，同时开发全新智能购物工具。眼下Meta首席执行官马克・扎克伯格正大力推进AI新产品落地，希望为公司巨额人工智能投资带来实际回报。（新浪财经）投融资： “白犀牛”宣布完成C1轮融资 36氪获悉，5月6日，L4级自动驾驶企业“白犀牛”正式宣布完成C1轮融资。本次融资由战略投资方全球物流产业资本、深圳南山战新投、以及老股东元禾厚望等多方联合注资，资金将主要用于核心技术研发迭代、车规级产品规模化量产、多场景商业化拓展及全球市场布局。月之暗面将完成20亿美元新融资，估值破200亿美元 Kimi （月之暗面）即将完成新一轮20亿美元融资，投后估值突破200亿美元。本轮融资由美团龙珠领投，中国移动、CPE（中信产业基金）等参投，其中仅龙珠就出手超2亿美元。今年1月和2月，Kimi 刚密集完成3轮融资，分别融了5亿美元、7亿美元和7亿美元。算上这笔最新融资，不到半年里，Kimi融资超39亿美元，最新估值相比去年11月的约43亿美元翻了4倍有余。至此，Kimi累计融资额已超376亿人民币，成为大模型创业公司中累计融资最多的公司。（晚点LatePost）新产品：智源发布业内首个心脏磁共振多模态诊断智能体BAAI Cardiac Agent 36氪获悉，近日，北京智源人工智能研究院（BAAI）联合首都医科大学附属北京安贞医院、河南医药大学第一附属医院，正式发布业内首个心脏磁共振多模态智能体BAAI Cardiac Agent。这套智能体完成了一站式 “结构分割与分析-功能定量评估-疾病诊断与分类-智能化报告” 的全流程诊疗闭环，基于Agent-Expert架构、能够动态协调多个“专家”子模型的智能体系统，可对心脏核磁共振影像完成端到端自动化分析，自动输出符合临床规范的标准化报告。其他值得关注的新闻：浙江人形联合香港中文大学提出RAM三维空间理解与操作模型 36氪获悉，近日，浙江人形机器人创新中心联合香港中文大学、浙江大学等机构共同完成机器人空间智能研究成果发表于国际顶刊《Science Robotics》，提出RAM 三维空间理解与操作模型。该技术破解视觉语言大模型三维空间感知短板，通过检索增强构建外部三维知识库，实现物体位姿理解与长程任务规划。实机验证显示，语言指令驱动操作平均成功率达89.17%，图像引导操作成功率92%。RAM可适配GPT、Qwen-VL等大模型及人形机器人平台。国家数据领域国际合作上海综合试点启动记者从5月6日在上海开幕的2026全球数字合作交流会暨全球数据周活动上了解到，在国家数据局指导下，上海作为数据领域国际合作首批试点，正式启动国家数据领域国际合作上海综合试点工作。本次试点聚焦6大板块、17项具体任务，面向2030年，上海着力构建设施领先、规则互认、载体赋能、场景融合的国际数据合作新体系，紧扣释放数据价值、繁荣数字经济、推进数字出海服务，打造“高标准跨境数据新基座、高质量规则互认新体系、高能级国际合作新载体、高协同出海服务新生态”的工作格局，为参与全球数字治理、推动数据跨境便捷流动探索创新。（央视新闻） “五一”假期海南离岛免税购物金额5.54亿元据海口海关统计，今年“五一”假期期间（2026年5月1日至5月5日），海口海关共监管离岛免税购物金额5.54亿元，购物人数8.46万人次，购物件数44.17万件，比2025年同期分别增长10.4%、7.4%、3.8%。假日消费市场的蓬勃活力，彰显了离岛免税政策的强大吸引力。（央视新闻）财政部今年将在香港发行840亿元人民币国债 36氪获悉，经国务院批准，2026年财政部将在香港特别行政区，分六期发行840亿元人民币国债。其中，前两期共计295亿元人民币国债已分别于2月、4月发行。

智源发布业内首个心脏磁共振多模态诊断智能体BAAI Cardiac Agent

36kr.com · None · tech

36氪获悉，近日，北京智源人工智能研究院（BAAI）联合首都医科大学附属北京安贞医院、河南医药大学第一附属医院，正式发布业内首个心脏磁共振多模态智能体BAAI Cardiac Agent。这套智能体完成了一站式 “结构分割与分析-功能定量评估-疾病诊断与分类-智能化报告” 的全流程诊疗闭环，基于Agent-Expert架构、能够动态协调多个“专家”子模型的智能体系统，可对心脏核磁共振影像完成端到端自动化分析，自动输出符合临床规范的标准化报告。

英伟达推出Nemotron 3 Nano Omni模型

36kr.com · None · tech

当地时间4月28日，英伟达在公司博客宣布，推出名为Nemotron 3 Nano Omni的开源全模态推理模型，旨在为企业级AI Agent提供一体化基础模型底座。英伟达介绍，这款模型融合了视觉、音频与语言能力，将帮助AI智能体实现高达9倍的效率提升。（界面）

阿里HappyHorse开启灰测

36kr.com · None · tech

36氪获悉，4月27日，阿里巴巴视频生成模型HappyHorse1.0开启灰测。HappyHorse 1.0依托原生多模态架构，采用音视频联合生成方案，面向广告、电商、短剧、社媒创意等内容生产场景，提供从智能生成到编辑的一体化创作能力。官网720P和1080P的视频生成刊例价分别为0.9元/秒及1.6元/秒。

海光DCU Day 0适配商汤科技SenseNova-U1

36kr.com · None · tech

36氪获悉，4月27日，商汤科技推出并开源新一代原生多模态大模型SenseNova-U1，海光DCU率先完成全量适配，是国内首批适配SenseNova-U1的国产芯片厂商。SenseNova-U1基于商汤行业首创的NEO-unify原生架构，无需编解码器即可实现多模态理解与生成的高效统一，达到开源模型的SOTA水平。

元戎启行全面押注大模型自动驾驶

36kr.com · None · tech

4月25日，北京车展上，前DeepSeek多模态技术核心研究员阮翀以元戎启行首席科学家身份首次公开亮相。元戎启行CEO周光表示，多模态大模型能力在2026年初取得突破性进展，大模型自动驾驶路线起点已远优于上一代技术，小模型自动驾驶存在“跷跷板效应”，无法实现全场景安全覆盖，公司已全面转向大模型路线。（证券时报）

腾讯混元3D世界模型2.0发布并开源

36kr.com · None · tech

36氪获悉，4月16日，混元3D世界模型 2.0（HY-World 2.0）正式发布并开源。HY-World 2.0是一个多模态世界模型，能够根据文字、图片、视频等不同类型输入，自动生成、重建和模拟3D世界，同时支持多格式3D资产（Mesh/3DGS/点云等）导出，支持与现有的游戏工作流无缝对接，用于快速生成游戏地图和关卡原型。

/tag/模态