声音 - WWW.AWTEY.CN - WWW.AWTEY.CN

www.ithome.com · 2026-04-28 13:32:20+08:00 · tech

IT之家 4 月 28 日消息，英国卫报昨日（4 月 27 日）发布博文，报道称美国创作歌手泰勒 · 斯威夫特（Taylor Swift）旗下公司为应对 AI 滥用风险，已提交 3 项商标申请，涵盖其声音短语及舞台形象。斯威夫特旗下公司 TAS Rights Management 于 4 月 24 日向美国商标和专利局（USPTO）提交申请，其中两项为声音商标，分别涵盖短语“Hey, it's Taylor Swift”和“Hey, it's Taylor”。第 3 项申请为视觉商标，针对其“时代”巡回演唱会中的经典舞台形象，描述包括粉色吉他、珠光紧身衣及紫色灯光背景等具体视觉特征。IT之家附上相关截图如下：卫报指出，此举被视为针对 AI 技术滥用的防御性措施。斯威夫特此前频遭深度伪造（Deepfake）技术侵害，曾出现虚假的“不雅照” 。演员马修 · 麦康纳（Matthew McConaughey）今年 1 月也曾为其著名口头禅注册商标，目的是在 AI 时代划定权益边界，确保肖像与声音使用需经本人授权。知识产权律师乔希 · 格本指出，注册名人声音是商标领域的新尝试。传统版权法仅保护既有录音制品，无法覆盖 AI 生成的模仿内容，这造成了法律监管真空。通过注册特定短语，斯威夫特不仅能挑战完全复制行为，还可依据商标法中的“混淆性相似”标准，对模仿其声音的 AI 生成内容维权。

小米发布 MiMo-V2.5-TTS / ASR 语音大模型：通过自然语言调度声音表现

www.ithome.com · 2026-04-24 07:34:22+08:00 · tech

IT之家 4 月 24 日消息，小米今日正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR —— 一套面向 Agent 时代的全链路语音模型系列，覆盖识别与合成两大核心能力，让语音的输入与输出都可以被语言自由调度。 IT之家从官方介绍获悉，MiMo-V2.5-TTS Series 包含三款模型，现已登陆小米 MiMo 开放平台，并且限时免费。三者共享统一的风格指令遵循、音频标签控制与文本理解能力，让声音表现可以被语言精细调度，分别覆盖三种典型创作需求： MiMo-V2.5-TTS：内置多款高质量精品音色，支持语速、情绪、语气等精细化控制，开箱即用，满足多场景表达。 MiMo-V2.5-TTS-VoiceDesign：一句话快速定义并生成全新音色，让音色创作更直观、更高效。 MiMo-V2.5-TTS-VoiceClone：少量样本高保真复刻目标音色，同时保持稳定的风格指令遵循与音频标签控制能力。 MiMo-V2.5-ASR 正式开源。模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平，为 Agent 提供清晰可靠的语音转写，确保每一次交互都建立在精准的理解之上。 MiMo-V2.5-TTS 精准的风格指令遵循能力从简短的单句指令，到一整份导演笔记，模型都能稳定理解并遵循，覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数 —— 像给演员说戏一样把想要的感觉描述出来，模型就会落到对应的演绎之中。对于一致性要求更高的场景 —— 有声剧、游戏 NPC、角色化对话等 —— 模型还支持导演剧本级的结构化输入：把人物、场景、详细指导分层描述，各层按自己的节奏独立更新、自由组合。这种分层既让角色的音色身份贯穿始终，也让每一句话的表演都能被单独控制。灵活的音频标签控制能力除了段落级的自然语言指令，模型还支持行内音频标签，用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述，允许在同一段文本中灵活混用。从简单的情感标注，到多标签叠加、细粒度排布的复杂编排，模型都能稳定表达，在标签的表达力和组合稳定性上均有出色表现。丰富的文本理解能力即便没有任何 prompt，也没有任何标签 —— 就是一段最普通的文本 —— 模型也能直接表现出其中的韵律与情感。标点的停顿、句式的起伏，会被自然呈现；文本中暗藏的情感弧线，从平静叙述到激烈转折，模型能主动捕捉；甚至连字里行间透露出的说话人身份（年龄、气质、角色类型），也会自动落到声音里。换句话说：最朴素的纯文本，交给它，也能还你一段有血有肉的演绎。 MiMo-V2.5-ASR 如果说 TTS 是在“输出”端让声音成为创作工具，那么 ASR 就是在“输入”端为这一切打开大门。在真实场景下，语种切换、背景噪声、说话人带着浓重的方言口音，在这样的环境里还能听清、听准，才是真正好用的语音识别。 MiMo-V2.5-ASR 作为全链路语音模型系列的听觉基座，在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。它不只是为了把清晰的语音转成文字，更是让 Agent 在嘈杂的真实声音里，抓住每一个值得被理解的字词。核心特点中文方言：支持吴语、粤语、闽南语、四川话等方言英文复杂场景：在 AMI 等复杂英文场景 Open ASR Leaderboard 上达到领先水平 Code-Switch：中英 Code-Switch 语音转录自由流畅，无需预设语种标签歌曲识别：中英文歌曲歌词识别，在伴奏与人声混合场景下保持高精度强噪音场景：在高噪音、远场拾音等复杂声学环境中保持鲁棒识别多说话人：支持多人交叉对话场景的准确转录，如会议场景强知识关联：古诗词、专业术语、人名、地名等知识密集型内容的精准识别原生标点：结合语音韵律与语义原生输出标点，转写结果即拿即用，无需后处理性能表现 MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌词识别等多个维度上均取得当前最优或极具竞争力的结果，展现出跨场景、跨语种的稳定优势。以下为代表性评测结果：如何使用 MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 开放平台限时免费，同时，用户可以到 Xiaomi MiMo Studio 进行快速体验。 MiMo-V2.5-ASR 目前已开源模型权重和代码，支持开发者和研究者直接使用或二次开发。参考 Xiaomi MiMo API 开放平台限时免费 Xiaomi MiMo Studio 快速体验 MiMo-V2.5-ASR Demo page MiMo-V2.5-ASR 项目开源地址 MiMo-V2.5-ASR 权重开源地址 MiMo-V2.5-ASR Huggingface space:

小米技术详解新一代 SU7「通透模式」：不开车门不开窗，也能听见车外声音

www.ithome.com · 2026-04-15 18:53:22+08:00 · tech

IT之家 4 月 15 日消息，新一代小米 SU7 已于今年 3 月正式上市，售价 21.99 万-30.39 万元。这款新车带来了全新的「通透模式」功能。IT之家注意到，小米技术官方今日发文，详细介绍了新一代 SU7 的「通透模式」：该模式可通过车外麦克风阵列和车内音响系统，将车外环境声音实时透传进车内空间，无需开窗即可全方位感知周围声音，也可实现与车外人员的自然交互。这意味着，车内人员不需要开窗、不需要开门，车内依然保持封闭 —— 空调、隐私照常等。但车外的声音，可以通过小米自研的智能声学算法处理后，低延迟、带方位感地进入车内。同时车内人员还可以与车外人员进行语音交流。 IT之家注意到，新一代 SU7 支持车外语音泊车辅助。小米汽车官方已确认，小米 YU7 全系也搭载了车外麦克风硬件，未来小米 YU7 全系车型也将通过 OTA 推送车外语音泊出功能，具体升级时间与计划，将根据功能适配进度分批推送。

/tag/声音