语音 - WWW.AWTEY.CN - WWW.AWTEY.CN

消息称苹果 AirPods 将迎史诗级加强，iOS 27 全面重构 Siri AI 语音交互

www.ithome.com · 2026-04-29 07:10:33+08:00 · tech

IT之家 4 月 29 日消息，科技媒体 9to5Mac 昨日（4 月 28 日）发布博文，报道称在 iOS 27 系统中，苹果公司将会全面重构 Siri 语音助手，从而增强 AirPods 耳机的交互体验，让其成为用户的全天候智能伴侣，实现类似电影《Her》中的无缝语音交互。 IT之家援引博文介绍，基于目前掌握的信息，苹果 iOS 27 版 Siri 预估会提供以下功能：类似 ChatGPT 的对话式、聊天机器人交互风格；通过大语言模型智能感知世界，并能基于上下文理解用户的意图；深度、系统级控制应用内和跨应用操作；用户只需提出一次请求，Siri 就能自动完成多个连续步骤；支持接入第三方 AI 平台该媒体认为这些升级将直接改变 AirPods 的使用场景，电影《Her》曾描绘过全天候耳畔 AI 伴侣的未来，而 iOS 27 正在将这一科幻场景变为现实。 AirPods Pro 3 佩戴图对于重度 AirPods 用户来说，在 Siri 变得足够聪明且可靠后，随时通过语音唤醒 Siri，从而感知周围环境，实现 Siri 深层交互。在 iOS 27 中，Siri 将提供无缝的连续对话体验。无论是在 iPhone 屏幕前，还是戴着 AirPods 走在路上，用户只需一句 "Siri"，就能唤醒一个真正智能的 AI 伴侣。相比需要手动打开 App 的第三方 AI 聊天机器人，苹果的软硬件深度集成优势明显。目前 Siri 接入 ChatGPT 的体验仍显生硬，用户每次都必须明确说出“询问 ChatGPT”，且对话连贯性不足，而 iOS 27 将打破这种割裂感。 AirPods iOS 26 苹果智能

微软发布 Win11 26H1 28200.1873 预览版：重构语音输入界面、优化磁盘管理

www.ithome.com · 2026-04-25 07:48:18+08:00 · tech

IT之家 4 月 25 日消息，微软昨日（4 月 24 日）发布公告，邀请 Experimental 频道的 Windows Insider 项目成员，测试适用于 Windows 11 26H1 的更新，升级后最新版本号为 Build 28200.1873。微软自今天开始调整 Windows Insider 项目，IT之家附上相关频道调整如下： Beta 版（包括 Beta 频道）：当前最新版本号 Build 26220.8283 Experimental 版（包括 Dev 频道）：当前最新版本号 Build 26300.8289 此外微软还推出其它特定版本： Experimental（26H1）：主要面向 Windows 11 AI+ PC 设备，当前最新版本号 Build 28200.1873 Experimental（Future Platforms）：主要测试内核等底层调整，当前最新版本号 Build 29576.1000 在更新内容方面，Windows 11 Build 28200.1873 提升系统稳定性，改善用户使用体验外，主要推进 Xbox 模式、优化语音输入界面等。在游戏体验方面，微软为用户营造沉浸的游戏环境，将原有的 Xbox 全屏体验更名为 Xbox Mode，并加入了改进的首次运行引导流程。在输入体验方面，最新版本重构触控键盘的语音输入界面。新设计移除了旧版全屏悬浮窗，转而在听写键上直接显示语音输入动画。这一改动有效减少了视觉干扰，帮助用户在输入时保持专注。更新前更新后存储管理方面，新版针对大容量磁盘，提升“设置 > 系统 > 存储 > 高级存储设置 > 磁盘和卷”路径访问导航速度。同时，微软调整了权限逻辑，用户进入存储页面不再立即弹出 UAC 提示，仅在查看临时文件时触发，减少了不必要的操作打断。系统还修复了“设置 > 网络和 Internet > 数据使用量”显示数值异常偏大的问题，并优化开机应用的加载性能。

阶跃星辰发布 StepAudio 2.5 ASR 自动语音识别模型：推理速度提升 400%，定价骤减 90%

www.ithome.com · 2026-04-24 21:19:21+08:00 · tech

IT之家 4 月 24 日消息，阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域，在推理速度与转写精度两个维度均有显著提升，主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。传统语音识别模型受限于自回归生成机制，需要逐个 Token 依次输出，效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构，将此前应用在 Step 3.5 Flash 大模型上的 MTP（IT之家注：多 Token 预测）技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token，并通过并行验证机制快速确认结果，打破了传统自回归机制逐个输出的效率瓶颈。实测数据显示，模型推理速度提升 400%、时延降低 60%，推理峰值达 500 tokens/s，推理成本直降 80%。以 5 分钟左右的音视频为例，几乎可以实现即时转写。在转写精度方面，StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上，综合转写精度达到业内 SOTA 水准。在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。针对长音频处理这一语音识别领域的长期痛点，行业内通常依赖“切片-转写-拼接”方案，即把音频切成若干小段分别识别再合并，但这种方式容易造成上下文信息割裂 —— 模型在转写后半段内容时，可能已经“忘记”了开头信息。StepAudio 2.5 ASR 复用了大语言模型原生的 32K 上下文窗口能力，支持端到端一次性读入最长 30 分钟的连续音频，无需分段切割。在 30 分钟满载输入测试中，模型没有出现随时间推移精度衰减的情况。定价方面，StepAudio 2.5 ASR 仅为 0.15 元 / 小时，约为此前 Step ASR 2 的十分之一。目前，该模型已全量上线阶跃星辰开放平台和 Step Plan，开发者可通过官网体验使用。相关阅读：《人人都能是配音导演，阶跃星辰发布语音生成模型 StepAudio 2.5 TTS 》参考资料：阶跃星辰开放平台： https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr Step Plan： https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api 体验中心： https://www.stepfun.com/studio/audio ?tab=speech-recognition Demo Page： https://stepaudiollm.github.io/step-audio-2.5-asr/ Model Card： https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/

Nothing OS 4.1 系统发布：引入智能语音输入与实时锁屏信息、更新 2026 年 4 月安全补丁

www.ithome.com · 2026-04-24 16:02:03+08:00 · tech

IT之家 4 月 24 日消息，据科技媒体 Android Authority 今天报道，Nothing OS 4.1 系统现已发布，首批推送给 Nothing Phone (4a) 手机，本周新增适配 Nothing Phone (3) 。据介绍，本次更新主要带来了 Essential Voice 智能语音输入功能，支持 100 多种语言，可自动去除口头语、结巴等，提供特定拼写短语和文本库，支持翻译。功能方面，本次更新带来了全新锁屏时钟，灵感源自 Nothing Phone (3a) 社区版。支持“实时更新”功能，逻辑类似苹果的“实时活动”，可展示外卖配送进度、导航路程等，覆盖锁屏、AOD、Glyph 和通知栏界面。 IT之家注意到，本次更新还改善了 Nothing 音频产品的通话质量，手机本身的视频通话质量也有所改善。合入 2026 年 4 月安全补丁。本月晚些时候推送给 Nothing Phone (2a)、(3a)、(2)、CMF Phone 1、Phone 2 Pro。Nothing Phone (3a) Lite 预计下月收到更新。

小米发布 MiMo-V2.5-TTS / ASR 语音大模型：通过自然语言调度声音表现

www.ithome.com · 2026-04-24 07:34:22+08:00 · tech

IT之家 4 月 24 日消息，小米今日正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR —— 一套面向 Agent 时代的全链路语音模型系列，覆盖识别与合成两大核心能力，让语音的输入与输出都可以被语言自由调度。 IT之家从官方介绍获悉，MiMo-V2.5-TTS Series 包含三款模型，现已登陆小米 MiMo 开放平台，并且限时免费。三者共享统一的风格指令遵循、音频标签控制与文本理解能力，让声音表现可以被语言精细调度，分别覆盖三种典型创作需求： MiMo-V2.5-TTS：内置多款高质量精品音色，支持语速、情绪、语气等精细化控制，开箱即用，满足多场景表达。 MiMo-V2.5-TTS-VoiceDesign：一句话快速定义并生成全新音色，让音色创作更直观、更高效。 MiMo-V2.5-TTS-VoiceClone：少量样本高保真复刻目标音色，同时保持稳定的风格指令遵循与音频标签控制能力。 MiMo-V2.5-ASR 正式开源。模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平，为 Agent 提供清晰可靠的语音转写，确保每一次交互都建立在精准的理解之上。 MiMo-V2.5-TTS 精准的风格指令遵循能力从简短的单句指令，到一整份导演笔记，模型都能稳定理解并遵循，覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数 —— 像给演员说戏一样把想要的感觉描述出来，模型就会落到对应的演绎之中。对于一致性要求更高的场景 —— 有声剧、游戏 NPC、角色化对话等 —— 模型还支持导演剧本级的结构化输入：把人物、场景、详细指导分层描述，各层按自己的节奏独立更新、自由组合。这种分层既让角色的音色身份贯穿始终，也让每一句话的表演都能被单独控制。灵活的音频标签控制能力除了段落级的自然语言指令，模型还支持行内音频标签，用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述，允许在同一段文本中灵活混用。从简单的情感标注，到多标签叠加、细粒度排布的复杂编排，模型都能稳定表达，在标签的表达力和组合稳定性上均有出色表现。丰富的文本理解能力即便没有任何 prompt，也没有任何标签 —— 就是一段最普通的文本 —— 模型也能直接表现出其中的韵律与情感。标点的停顿、句式的起伏，会被自然呈现；文本中暗藏的情感弧线，从平静叙述到激烈转折，模型能主动捕捉；甚至连字里行间透露出的说话人身份（年龄、气质、角色类型），也会自动落到声音里。换句话说：最朴素的纯文本，交给它，也能还你一段有血有肉的演绎。 MiMo-V2.5-ASR 如果说 TTS 是在“输出”端让声音成为创作工具，那么 ASR 就是在“输入”端为这一切打开大门。在真实场景下，语种切换、背景噪声、说话人带着浓重的方言口音，在这样的环境里还能听清、听准，才是真正好用的语音识别。 MiMo-V2.5-ASR 作为全链路语音模型系列的听觉基座，在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。它不只是为了把清晰的语音转成文字，更是让 Agent 在嘈杂的真实声音里，抓住每一个值得被理解的字词。核心特点中文方言：支持吴语、粤语、闽南语、四川话等方言英文复杂场景：在 AMI 等复杂英文场景 Open ASR Leaderboard 上达到领先水平 Code-Switch：中英 Code-Switch 语音转录自由流畅，无需预设语种标签歌曲识别：中英文歌曲歌词识别，在伴奏与人声混合场景下保持高精度强噪音场景：在高噪音、远场拾音等复杂声学环境中保持鲁棒识别多说话人：支持多人交叉对话场景的准确转录，如会议场景强知识关联：古诗词、专业术语、人名、地名等知识密集型内容的精准识别原生标点：结合语音韵律与语义原生输出标点，转写结果即拿即用，无需后处理性能表现 MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌词识别等多个维度上均取得当前最优或极具竞争力的结果，展现出跨场景、跨语种的稳定优势。以下为代表性评测结果：如何使用 MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 开放平台限时免费，同时，用户可以到 Xiaomi MiMo Studio 进行快速体验。 MiMo-V2.5-ASR 目前已开源模型权重和代码，支持开发者和研究者直接使用或二次开发。参考 Xiaomi MiMo API 开放平台限时免费 Xiaomi MiMo Studio 快速体验 MiMo-V2.5-ASR Demo page MiMo-V2.5-ASR 项目开源地址 MiMo-V2.5-ASR 权重开源地址 MiMo-V2.5-ASR Huggingface space:

电脑终于能发语音了：微信 4.1.9 for Windows / Mac 版正式发布

www.ithome.com · 2026-04-22 21:49:23+08:00 · tech

IT之家 4 月 22 日消息，微信昨晚发布了最新的微信 4.1.9 for Windows、微信 4.1.9 for Mac 版以及微信 8.0.71 for Android 版本。安卓版本依然是“修复了一些已知问题”，而 Windows / Mac 电脑版则新增支持发送语音消息功能。 IT之家提醒：发送语音消息不是语音转文字，而是直接发送语音，和手机微信上的语音功能类似。如图所示，微信 4.1.9 电脑版在聊天框的“发送”按钮旁边增加了一个语音按钮，用户也可以按住键盘的 Alt 键说话。与手机版相同，PC 版微信最长支持发送 60 秒语音，发送语音时后会有进度提醒。此外，新版本中有几项细节功能优化：点击「默认表情」中的表情后，按键盘的右方向键，即可批量复制表情发送；合并转发聊天消息中的文本消息可以右键翻译；网页打印支持预览。大家在 IT之家微信号回复“ 微信 ”两字，即可获取当前最新官方内部版微信下载。

iOS 测试版谷歌 Chrome 浏览器扩展支持快捷指令，Siri 语音可直达 Dino 游戏

www.ithome.com · 2026-04-22 10:10:29+08:00 · tech

IT之家 4 月 22 日消息，科技媒体 macobserver 今天（4 月 22 日）发布博文，报道称在最新 TestFlight 测试 iOS 版 Chrome 浏览器中，谷歌扩展支持快捷指令（Shortcuts），并深度集成 Siri 体验。 IT之家援引博文介绍，在现有 iOS 稳定版 Chrome 浏览器中，通过系统快捷指令仅支持打开应用或网址等通用操作，而在最新 TestFlight 测试版本中，谷歌提供了一套完整的专属操作列表，支持用户直接调用浏览器的深层功能，通过语音指令或自动化流程。最新 TestFlight 测试版本中，用户可以创建快捷指令来管理设置、密码及付款方式，以及快速查看历史记录、最近标签页、书签和阅读列表。此外，操作列表还包括打开新标签页或隐身标签页、运行安全检查、将 Chrome 设为默认浏览器等实用选项。其中，最引人注目的是支持直接启动 Chrome 内置的恐龙（Dino）游戏。在实际应用场景中，用户可以预设语音指令“Hey Siri, play Chrome Dino game”，系统将直接跳转至游戏界面，省去了打开浏览器并输入地址的繁琐步骤。同样，用户无需在应用内层层点击，也可以创建直达密码管理或安全检查页面的快捷方式，从锁屏界面或 Siri 直接进入特定功能模块。这一功能目前仅出现在 Chrome for iOS 的 TestFlight 测试版本中，Google 尚未公布其向 App Store 正式版推送的具体时间表。

特斯拉车机语音大模型服务在我国上海市完成备案

www.ithome.com · 2026-04-22 00:34:42+08:00 · tech

IT之家 4 月 22 日消息，网信上海 4 月 21 日发布了生成式人工智能服务已备案信息公告：截至 4 月 21 日，上海市新增 1 款已完成备案的生成式人工智能服务，累计已完成 158 款生成式人工智能服务备案。备案信息显示，特斯拉车机语音大模型服务于 4 月 20 日备案，备案单位为特斯拉（上海）有限公司。据介绍，已上线的生成式人工智能应用或功能，应在显著位置或产品详情页面公示所使用已备案生成式人工智能服务情况，注明模型名称及备案号，并根据《人工智能生成合成内容标识办法》添加生成合成内容标识。 IT之家注意到，去年 11 月，由上海推荐备案的特斯拉 xBot 客户服务、沃尔沃小沃智能助手，成为全国首批获批上线的外企大模型产品。其中，特斯拉 xBot 客户服务为特斯拉车主及潜在用户提供的智能问答场景，通过 Tesla App 在线客服模块对用户输入的问题进行深度理解，并生成相应的应答内容，完成与用户之间的多轮聊天与对话。相关阅读：《全国首批、上海两款外企 AI 大模型通过国家备案，分别来自特斯拉和沃尔沃》

京东京造推出云宁 AI 语音驱蚊风扇：支持离线语音控制、接入小米米家 App，159 元

www.ithome.com · 2026-04-21 21:47:27+08:00 · tech

IT之家 4 月 21 日消息，京东京造现已推出一款云宁 AI 语音驱蚊风扇，该风扇集成驱蚊仓，支持 AI 离线语音控制功能，同时接入了小米米家 App，定价为 189 元，首发价为 159 元。京东京东京造云宁驱蚊电风扇 159.元直达链接该风扇提供 4 档体感系统，机身高度 1.2 米，支持上下 30 度手动俯仰及左右 60 度自动摇头，采用 7 羽扇叶及 40cm 直径网罩，送风距离达 10 米，风速至高可达 6 米 / 秒。该风扇支持 AI 离线语音遥控，同时支持小米米家 App 进行操控，还附送了远程遥控器便于手动控制。 IT之家附产品参数：

大众汽车今年下半年将为中国市场车型引入 AI 语音助手功能，整合腾讯阿里百度等企业技术

www.ithome.com · 2026-04-21 20:58:56+08:00 · tech

IT之家 4 月 21 日消息，大众中国首席技术官托马斯・乌尔布里希在接受外媒 CNBC 采访时表示，大众汽车将从今年下半年起为中国市场车型引入语音人工智能控制系统，用户可通过语音指令操控车辆各项功能。托马斯・乌尔布里希表示，大众车载 AI 助手将整合腾讯、阿里巴巴、百度等企业的技术，打造出具备“个性”、能够预判驾驶员需求的智能工具，该人工智能采用本地化训练的大语言模型，所有运算均在车机端完成，无需依赖云端。 IT之家注意到，4 月 16 日时大众汽车和小鹏汽车联合开发的首款车型“与众 08”正式上市，价格区间为 22.99 万元-28.99 万元。该车搭载 800 伏高压超快充平台，全系标配小鹏汽车 VLA 全场景智能驾驶辅助系统，搭载高通 8295P 芯片，拥有同级领先的 1500TOPs 智驾算力，采用宁德时代电池，CLTC 续航最高超 700 公里。

索尼 PS5 玩家突然收到年龄验证通知，不验证将无法使用语音及文字聊天

www.ithome.com · 2026-04-21 10:14:12+08:00 · tech

IT之家 4 月 21 日消息，据 Pushsquare 报道，部分 PlayStation 5 玩家突然陆续收到了年龄验证通知。截至IT之家撰稿时，该通知仅面向英国和爱尔兰地区的玩家。通知内容显示，为“遵守全球相关法规”，若用户希望继续使用本世代主机的文字消息、语音聊天等社交功能，需在“今年晚些时候”完成年龄验证。通知中还附带一个二维码（如上图所示），用手机扫描后可跳转至索尼官网。玩家可通过以下三种方式完成年龄验证：面部扫描（拍摄本人照片，由系统进行“年龄估算”）证件验证（使用驾照、护照、身份证等身份证明文件核验年龄）手机号码验证（通过接收手机短信验证码完成核验）玩家可通过 PlayStation 支持页面的相关链接，查看关于整个流程的常见问题解答。此类年龄验证流程，与英国和爱尔兰近期出台的年龄核验法规相符。目前，各类被认定为成人内容的网络服务，均已要求进行年龄验证。不过，用户对数据安全的担忧依然非常普遍，这项新规在 PS5 玩家群体中会引发怎样的反响，值得关注。

阿里通义 Fun-ASR1.5 语音识别大模型发布：精通 30 国语言及中文七大方言

www.ithome.com · 2026-04-20 14:29:18+08:00 · tech

IT之家 4 月 20 日消息，4 月 20 日（今天）下午，阿里通义实验室正式推出语音识别大模型 Fun-ASR1.5。其基于统一的大模型架构，单模型即可覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音，古诗词吟诵也能精准转写。目前，Fun-ASR1.5 已在阿里云百炼平台正式上线，面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。在一些“高难度”的跨语言切换（Code-Switching）场景下，它也能应对自如。比如，同一段对话里夹杂多种语言，模型也能准确识别，无需提前告诉它接下来要说哪种语言。Fun-ASR1.5 现在可以做到无需预设语种标签，就自动识别并切换，保证转写的准确性。据IT之家了解，该能力源于模型的架构和训练创新。MoE（混合专家）架构让模型内部可以分工协作，听到特定语言时仅激活相关部分进行处理，因而更为灵活高效。同时，在训练阶段分级、分阶段地使用精准数据，也让模型能更好地应对真实世界中的复杂语音情况。在中文本土化方面，基于数十万小时真实方言语音数据的“喂养”，Fun-ASR1.5 的平均字错误率（CER）相比上一版本下降 56.2%。 Fun-ASR1.5 可原汁原味还原方言，如上海话的“侬”、苏州话“倷”（均指“你”），为下游模型处理方言文字提供了准确的基础语料。 Fun-ASR1.5 对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音-文本对齐语料库，涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。在内部评测集中，Fun-ASR1.5 对古诗词的字符级准确率达到 97% ，可应用于国学在线课程和有声诗词，助力文化传承。模型还可以基于上下文语义自动插入逗号、句号、问号、感叹号等标点，使转写结果接近书面表达。例如输入语音：“今天天气怎么样啊我想出去走走但又怕下雨”，输出文本就是“今天天气怎么样啊？我想出去走走，但又怕下雨。” 其还支持将口语中的非标准表达自动转换为规范格式：数字：“三千五百六十二” → “3562” 日期：“二零二六年三月二十九号” → “2026 年 3 月 29 日” 金额：“五万八千块” → “58000 元” 电话：“幺三八零零幺三八零零零” → “13800138000” 这些改进大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。目前，用户可在阿里云百炼平台调用其 API，或在魔搭社区直接体验。阿里云百炼： https://bailian.console.aliyun.com/cn-beijing ?tab=model# /efm/model_experience_center/voice ?modelId=fun-asr 魔搭社区： https://modelscope.cn/studios/iic/FunAudio-ASR

DeepL 推出实时语音翻译功能，支持语言对语音通话

www.ithome.com · 2026-04-16 20:50:56+08:00 · tech

IT之家 4 月 16 日消息，此前专注于文字内容的语言人工智能企业 DeepL 德国当地时间今日宣布推出专为实时口语交流设计的实时翻译产品套件 DeepL Voice-to-Voice。 DeepL Voice-to-Voice 套件包括 Voice for Meetings 会议实时翻译、跨平台的 Voice for Conversations、跨语言群组对话、API、专门化自定义等一系列功能，部分将在未来正式推出。在 DeepL 委托 Slator 独立进行的盲测中， 96% 的语言学家更青睐 DeepL Voice 而非谷歌、微软、Zoom 提供的原生翻译解决方案。 DeepL 创始人兼首席执行官 Jarek Kutylowski 表示：今天，我们在翻译领域又迈出了新的一步：实时口语交流。我们的使命一直是打破语言障碍，而如今，我们已成功攻克了其中最难的一道。 DeepL Voice-to-Voice 语音通话功能让每个人都能用自己的语言自然交流，无需面对翻译带来的障碍或成本。我们将世界一流的语音模型与我们不断推向新高度的业界标杆级翻译人工智能相结合。现在，专业能力才是关键，语言并不重要。

人人都能是配音导演，阶跃星辰发布语音生成模型 StepAudio 2.5 TTS

www.ithome.com · 2026-04-16 15:33:43+08:00 · tech

IT之家 4 月 16 日消息，阶跃星辰今日发布新一代语音生成模型 StepAudio 2.5 TTS ，官方号称人人都能是配音导演。阶跃星辰官方表示，该语音合成模型首次将语境理解能力引入语音生成全流程。通过 Global Context（全局语境）+ Inline Context（文中语境）双档控制，搭配 Zero-shot 音色复刻，让 AI 不是念文本，而是演文本。 StepAudio 2.5 TTS 支持以下核心能力：全局语境控制：支持自定义整段语音的情绪基调、角色状态与场景氛围，使表达更统一、更连贯。文中语境控制：不仅能控制一句话怎么说，还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感，让声音表达更有分寸。零样本复刻与全音色控制：在保留目标音色特征的同时，支持对情感、风格和表达方式进行灵活调节，让同一种声音说出更多不同感觉。 IT之家附官方演示网址如下： https://stepaudiollm.github.io/step-audio-2.5-tts/zh.html

IT早报 0416：华为稳居 Q1 中国智能手机出货量第一；免受网页攻击苹果提醒 iPhone 用户尽快更新系统；微信电脑版能发语音了；金立创始人刘立荣消失 8 年后现身...

www.ithome.com · 2026-04-16 07:20:24+08:00 · tech

“IT早报”时间，大家好，现在是 2026 年 4 月 16 日星期四，今天的重要科技资讯有： 1、IDC：2026 年 Q1 中国智能手机市场出货量约 6901 万台，华为延续增长势头继续稳居第一 IDC 4 月 15 日最新发布的《中国季度手机跟踪报告》初步统计数据显示，2026 年第一季度，中国智能手机市场出货量约为 6,901 万台，同比下降 3.3%，整体表现略高于预期，主要得益于华为与苹果的强势拉动。>> 查看详情 2、苹果官微发文提醒 iPhone 用户：更新 iOS 以免受网页攻击最近出现了一些关于过时版本的 iOS 容易受到网页攻击的报道。在发现这些问题之后，Apple 进行了全面调查并在第一时间针对最新的操作系统版本发布了软件更新，以解决相关漏洞并阻断攻击。>> 查看详情 3、电脑终于能发语音了，微信 Win / Mac PC 版 4.1.9 内测更新发布微信官方近日放出了 PC 版微信 for Windows / Mac 4.1.9 内测版，版本号为 4.1.9.17。本次更新主要升级是聊天界面增加发送语音功能。>> 查看详情 4、金立创始人刘立荣消失 8 年后最新动向：被曝在印尼卖家具，海尔、宁德时代、小米都是客户多个印尼相关账号曾在 2025 年 7 月发文，Starlead Group 总部及 Prospace 展厅在 Alam Sutera Kino Tower 开幕，照片最右侧穿蓝色花衣服的疑似为刘立荣。>> 查看详情 5、格力朱磊指责海信空调没有资格自称“真铜实料”，后者回应“又当又立” 格力市场总监朱磊 4 月 14 日晚发文，直指海信空调“没有资格”在传播中自称“真铜实料”。随后，海信空调品牌总监杨祥玺转发朱磊微博表示“又当又立”。>> 查看详情 6、空调“含铜量”几何？海信高管再发声：冷凝器、蒸发器等均为铜管，美的、海尔等主流品牌也大多使用铜管格力与海信就空调“含铜量”隔空交锋。海信高管回应称其室内外机冷凝器、蒸发器及连接管均为铜管，并指出“真铜实料”并非某企业专属概念。格力方面则强调其“真铜实料格力造”是一套完整的铜材标准。>> 查看详情 7、华为官宣姚安娜出任 Pura X Max 先锋大使，行业首款横向阔折叠手机 4 月 20 日发布华为终端 4 月 15 日宣布，姚安娜与王安宇将一同出任行业首款横向阔折叠手机 —— Pura X Max 的先锋大使。另外，姚安娜去年就担任了华为 Pura 品牌挚友。>> 查看详情 8、曝年底旗舰手机将区分档位，多家厂商仅 Pro Max 级别机型才能用上顶配满血 SoC 博主 @数码闲聊站 4 月 15 日发文透露，所以不只最近的新机，年底的旗舰机也会区分档位，好几家只有 Pro Max 级别的机型才能用上顶配满血 SoC。他还表示，只能希望价格稍微合理一点。>> 查看详情 9、消息称苹果为 iOS 27 版 Siri 练兵，近 200 名工程师参加 AI 编程训练营科技媒体 The Information 4 月 15 日发布博文，报道称苹果公司为追赶 AI 竞争对手，安排近 200 名 Siri 工程师参加为期数周的 AI 编程训练营，学习使用 Claude Code 等工具辅助开发。>> 查看详情 10、39.98 万元起，小鹏首款全尺寸旗舰 SUV 车型 GX 开启预售作为小鹏首款全尺寸豪华 SUV，GX 预售价 30-40 万元，纯电续航 750km，增程综合续航 1585km。新车搭载行业最高 3000TOPS 算力，采用纯视觉 L4 级自动驾驶方案，并集成了飞行汽车安全冗余技术。车身采用航空级六重安全冗余设计，完成 720° 五重连环碰撞测试。全车配备 21.4 英寸吸顶屏、零重力座椅等豪华配置。>> 查看详情 11、36.5 万元起，全新坦克 500 黑武士车型上市全新坦克 500 黑武士正式上市，首批限量 500 台。新车采用原厂一体化全黑套件，内饰红黑撞色，并提供 Hi4-T 与 Hi4-Z 两种动力版本，分别主打强悍越野与泛越野属性。售价 36.5 万元起，你心动了吗？>> 查看详情 12、客厅电视买多大合适？TCL、海信、创维、小米、海尔、长虹、华为、康佳、三星等给出推荐规范该标准确定了平板电视最小观看距离、最佳观看距离等指标，并根据公式给出了平板电视推荐尺寸。>> 查看详情 13、腾讯《王者荣耀世界》将登鸿蒙端，适配支持华为手机、平板设备游玩腾讯《王者荣耀世界》移动端 4 月 15 日开启预下载，首发支持 iOS 和安卓双平台。目前，本作也已开启鸿蒙端的预约，这意味着本作后续也将登陆 HarmonyOS 6 系统的华为手机和平板。>> 查看详情 14、华为 Pura X Max 折叠屏手机支持手写笔功能，适配“天生会画”App 可一键 AI 生成风格作品华为预热 Pura X Max 折叠屏新机，内屏支持手写笔，可进行自由绘画与笔记。适配“天生会画”App，提供灵感妙创 AI 功能，一句话让小艺生成风格作品。目前已上架官方商城，提供多款配色及至高 16GB+1TB 典藏版。>> 查看详情 15、智界 V9 将于 4 月 22 日开启预订 4 月 15 日，智界汽车正式官宣智界 V9 将于 4 月 22 日开启小订 >> 查看详情 16、国产科幻电影《群星闪耀时》首曝预告，黄渤、吴磊、高叶、孙阳主演影片讲述未来时空，三名中国航天员在返回地球途中突遇险情，与地面失去联系。危急时刻，一条神秘电子信号悄然出现，其中隐藏的代码，将彻底改写他们的命运。>> 查看详情 17、设计公司回应张雪机车 LOGO 争议：独立创作完成，相关商标已核准注册杭州巴顿品牌设计有限公司 4 月 14 日发布关于张雪机车 LOGO 设计争议的声明：本次 LOGO 设计由巴顿独立创作完成，相关商标已向国家知识产权局申请并核准注册。>> 查看详情 18、消息称苹果自担 DRAM 内存成本压力，iPhone 18 Pro / Max 不涨价消息源 yeux1122 4 月 14 日发布博文，爆料称苹果为了在竞品普遍涨价的背景下获取市场优势，今年秋季上线的 iPhone 18 Pro 系列将维持现价。>> 查看详情 19、小米雷军晒图，刚和西班牙首相自拍、又会见阿联酋阿布扎比王储小米创办人、董事长兼 CEO 雷军 4 月 15 日晒图，会见了阿联酋阿布扎比王储哈立德殿下。>> 查看详情 20、2025 年比亚迪旗下车型获得 200 次 OTA 升级，丰田 8 次、大众 5 次 OTA 正在重塑汽车生命周期。传统模式下，新车上市约 2 年进行小幅改进，6 至 7 年完成一次换代。而软件定义汽车可以像智能手机一样持续升级功能，如果无法保持功能更新，产品竞争力会迅速下降。>> 查看详情 21、哈弗方盒子旗舰 SUV 正式定名为“长城 H10”，基于归元平台打造新车基于归元平台打造，造型方正硬朗，车长超 5.1 米，轴距达 3 米。提供 1.5T 和 2.0T 插混动力，最大功率分别为 123 千瓦和 175 千瓦。车顶配备激光雷达，预示高阶智能驾驶能力。>> 查看详情 22、宁德时代 2026 年 Q1 营收 1291.31 亿元同比暴增 52.45%，净利润 207.38 亿元增长 48.52% 宁德时代 2026 年一季度营业总收入 1291.31 亿元、同比增长 52.45%；归母净利润 207.38 亿元、同比增长 48.52%。>> 查看详情 23、万事达中国信用卡 4 月 16 日支持 Apple Pay：中行绑卡境外消费返消费金四大银行已官宣支持，中国银行还推出了境外消费返消费金的限时活动，单笔最高返等值 5 美元，活动持续到 6 月底。绑卡需升级至 iOS 17.0 或 watchOS 10.0 及以上版本。>> 查看详情 24、我国电子边境管理区通行证正式启用，内地居民可在微信 / 支付宝小程序申请国家移民管理局宣布，4 月 15 日起启用电子边境管理区通行证，纸质证件同步停发。内地居民可通过“移民局 12367”App 或微信、支付宝小程序在线申请，有效期最长三个月。港澳台居民、华侨、外国人及需申请一年有效期证件的内地居民仍需现场办理。>> 查看详情 25、印度加码苹果代工：塔塔集团再砸 150 亿卢比扩产 iPhone，美国市场七成以上 iPhone 产自印度塔塔集团向旗下电子公司注资 150 亿卢比，持续扩大 iPhone 产能。数据显示，美国市场超 70% 的 iPhone 已由印度制造，且印度在全球苹果组装份额预计两年内将达 30% 以上。这标志着全球电子制造链正加速向印度转移。>> 查看详情 26、比亚迪辅助驾驶车型保有量超 285 万辆，天神之眼每天生成数据超 1.8 亿公里比亚迪集团-品牌及公关处总经理李云飞 4 月 15 日公布数据：比亚迪辅助驾驶车型保有量超 285 万辆，天神之眼每天生成数据超 1.8 亿公里。>> 查看详情 27、Claude 要求部分用户上传身份证件官方表示，当用户访问某些功能时，可能会看到验证提示，这是其例行平台完整性检查或其他安全和合规措施的一部分。仅使用用户的验证数据来确认身份，不用于任何其他目的。>> 查看详情 28、我国网民平均每人每天刷视频超 200 分钟，微短剧人均单日观看时长超长视频 2025 年，AI 生成 20 亿 + 条视音频，较 2024 年增长了 14 倍以上。过半数用户接触过 AI 生成的视音频内容，其中四成以上认为 AI 生成的内容新奇有趣、更感兴趣。>> 查看详情 29、宇树科技官宣 H1 机型参赛北京人形机器人马拉松，内部测试半马 50 多分钟宇树科技官方 4 月 15 日宣布，将参赛北京人形机器人马拉松。受时间精力限制，宇树官方仅 H1 一款机型参赛；另有众多独立团队，自发基于宇树产品进行自行开发后参赛。>> 查看详情 30、日本进口车销量 7 年来首次增长，比亚迪翻倍至 4536 辆日本汽车进口商协会（JAIA）发布的数据显示，2025 年度进口车销量（日本厂商的汽车除外）同比增长 3%，达到 23.8 万辆，7 年来首次增长。>> 查看详情 31、2026 人形机器人半马赛事规则发布：首个冲线机器人未必是冠军由于参赛机器人包括自主导航、遥控操作两种参赛模式，遥控操作组成绩将乘以 1.2 加权系数，加之比赛过程中可能会有罚时情况，首个冲线机器人未必是冠军。网友还可以参与票选机器人最佳步态控制奖。>> 查看详情 32、鸿蒙智行问界 M6 官宣 4 月 22 日上市，预售 26.98 万元起问界 M6 于 3 月 23 日开启预售，新车主打年轻市场并首次全系标配全球量产最高的 896 线双光路激光雷达，预售价增程版 26.98 万元起、纯电版 28.98 万元起。>> 查看详情 33、DeepSeek 要在内蒙古建数据中心：首次面向乌兰察布开启招聘，月薪最高 3 万元 DeepSeek 官网 4 月 2 日放出了新一批岗位招聘信息，除了杭州和北京外，首次出现了工作地为内蒙古乌兰察布的岗位。>> 查看详情 34、比亚迪海豹 08 内饰正式公布：主打“松弛之境 + 治愈之美” 比亚迪汽车海洋网销售事业部总经理张卓公布了比亚迪海豹 08 的内饰。据其介绍，海豹 08 拥有海洋美学 2.0 全新旗舰座舱，主打“松弛之境”和“治愈之美”，新车将在 2026 北京车展期间正式亮相。>> 查看详情今天就先聊到这里，IT早报，咱们明天见。

电脑终于能发语音了，微信 Win / Mac PC 版 4.1.9 内测更新发布

www.ithome.com · 2026-04-15 16:03:29+08:00 · tech

IT之家 4 月 15 日消息，据IT之家小伙伴反馈，微信官方近日放出了 PC 版微信 for Windows / Mac 4.1.9 内测版。本次更新主要升级是聊天界面增加发送语音功能，注意不是语音转文字，而是直接发送语音，和手机微信的功能类似。从截图可以看到，PC 版微信 4.1.9 内测版在聊天框的 “发送”按钮旁边增加了一个语音按钮，用户也可以按住键盘的 Alt 键说话。与手机版相同， PC 版微信最长支持发送 60 秒语音，发送语音时后会有进度提醒。此外，新版本中有几项细节功能优化：点击「默认表情」中的表情后，按键盘的右方向键，即可批量复制表情发送；合并转发聊天消息中的文本消息可以右键翻译；网页打印支持预览。需要注意的是，PC 版微信 4.1.9 有多个内测版本： Mac 版 4.1.9.17 需要内测资格，此前参加过任意一次内测即可获得登录权限，其余用户可等待后续正式更新。 Windows 版 4.1.9.20 无需内测资格，下载后可直接使用。大家在 IT之家微信号回复“ 微信 ”两字，即可获取当前最新官方内部版微信下载。

告别千篇一律，谷歌为 Pixel 系列手机推送语音信箱自定义问候语功能

www.ithome.com · 2026-04-12 17:52:40+08:00 · tech

IT之家 4 月 12 日消息，据科技媒体 Android Authority 今天报道，谷歌现已为 Pixel 系列手机推送语音信箱自定义问候语功能，可以更换掉默认提示语“您拨打的用户暂时无法接听，请在听到哔一声后留言”，告别千篇一律。 IT之家在此援引 Android Authority，谷歌从去年 8 月起开始为 Pixel 系列手机推出“Take a Message”功能，可自动接听未接来电、提供实时文字转写，并在电话应用中提供对话记录，本质上是传统语音信箱的现代化版本。自定义问候语功能支持 Pixel 6 或更新机型，用户只需要将电话应用更新到 217 Beta 测试版即可开始使用。如果功能已经开启，电话应用的顶部会出现“Take a Message”弹窗提示，只需要点击“立即试用”即可按照引导完成设置。用户可点击底部的麦克风按钮开始录制提示语。

阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR

36kr.com · None · tech

36氪获悉，4月24日，阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR。据介绍，该模型率先将大语言模型推理加速技术引入语音识别领域，在推理速度与转写精度两个维度均有显著提升，主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。

特斯拉AI语音功能即将上线

36kr.com · None · tech

据网信上海消息，4月21日，上海新增1款已完成备案的生成式人工智能服务，为特斯拉车机语音大模型服务。对此，4月22日，特斯拉方面人士回应称：“敬请期待”。按照规定，已上线的生成式人工智能应用应在显著位置或产品详情页面公示所使用已备案生成式人工智能服务情况，注明模型名称及备案号，并根据《人工智能生成合成内容标识办法》添加生成合成内容标识。（第一财经）

报道称大众汽车今年将在其中国车型中加入语音人工智能技术

36kr.com · None · tech

据报道，大众汽车今年将在其中国车型中加入语音人工智能技术。（财联社）

/tag/语音