IT之家 4 月 30 日消息,今日,快手宣布推出 AI 桌面智能体产品 KroWork。 据介绍,KroWork 面向非技术用户,通过自然语言即可驱动 AI 自主完成文件处理、浏览器自动化、应用生成和本地部署,意味着用户可使用 KroWork 将重复性工作流生成为本地桌面应用,同时数据不上传云端。KroWork 团队表示,希望通过 AI 降低软件开发门槛,让不会编程的人也能把日常需求变成自己的桌面工具。 IT之家附官方详细介绍如下: 今天,KroWork 正式上线! KroWork 是快手研发的一款运行在桌面端的通用 AI 智能体,用自然语言告诉 KroWork 你需要什么 —— 它会自主规划步骤、在安全沙箱中执行,然后把结果交给你。KroWork 不光能帮你完成写报告、做分析等常见的办公任务,还能帮你把重复性工作写成应用,并安装到桌面。你的应用你来管理。 所思即所得,让创意效率直达桌面。 KroWork 适合谁? KroWork 为非程序员的知识工作者而生 —— 市场营销、数据分析师、财务经理、研究人员、内容创作者、HR 专员。任何一位每天花大量时间在重复性电脑任务上的人,都值得拥有一位不知疲倦、能力出众的助手 KroWork。 KroWork 核心优势 1. 重复工作固化成应用,省力省钱 和其他 AI 产品 " 每次从头推理 " 不同,KroWork 能更进一步,可以把用户的工作流 固化为本地应用 ,下次使用只需点击 " 运行 ",无需再消耗积分 / token。 以财务中发票报销的场景为例,财务人员只需告诉 Kro" 做一个发票报销汇总工具 ",它即可生成一个本地桌面应用 —— 导入发票明细后自动按部门归类、校验金额、标注异常项并生成汇总报表。下次月底报销时,双击打开直接使用。 当然,KroWork 不止于工作,生活中你的小妙思也可以告诉 Kro,它会帮你做成你想要的应用。当然,所有应用都可以部署在你电脑本地,是你的个人资产。 Kro 解决本地部署的难题: 做一款桌面应用不仅需要写代码,还需要配环境、装依赖等等,这一系列的事情对非技术用户来说难如登天。但没关系,Kro 来帮你,从代码生成、界面搭建到应用打包,Kro 一步到位。Kro 生成的应用直接出现在你的桌面上,双击即用,并且支持开机自启和系统级管理。 固化为本地应用后,优势明显: • 代码部分在本地运行 —— 零 Token 消耗 。 • AI 按固化指令精准执行 —— 输出稳定一致 。 • 数据留在你的电脑上 —— 本地运行,数据安全 。 从一次性的 Prompt,到永久留存的产品。你的工作流,在本地,成为你的资产。 不再为重复工作反复付费 。 2. 本地托管,权限可控,安全透明 KroWork 在帮用户完成任务的过程中: • 沙箱执行:每项操作都在隔离的工作区中运行。 • 权限管控:在触碰沙箱外的任何内容之前,KroWork 都会先征求用户同意。 • 白盒可见:用户可以查看它执行的每一个步骤。 3. 集成市面顶尖模型,聪明好用 KroWork 集成了当前主流模型,能基于简单的自然语言指令,快速完成任务。国内版支持 Qwen、Kimi、Deepseek 等最新模型,国际版支持 OpenAI 和 Anthropic 最新旗舰模型。 KroWork 强项是写应用、帮用户部署、让用户来管理应用。当然,这并不意味着 KroWork 只会做应用,它会根据用户的实际需求选择最佳执行方式。你日常工作中的常规任务,KroWork 也能帮你高质量完成。KroWork 具备操作文件、生成文档、自动化浏览器操作等能力。日常工作中查资料、爬数据、做分析、写报告等全都不再话下。
IT之家 4 月 24 日消息,小米今日正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR —— 一套面向 Agent 时代的全链路语音模型系列, 覆盖识别与合成两大核心能力 ,让语音的输入与输出都可以被语言自由调度。 IT之家从官方介绍获悉,MiMo-V2.5-TTS Series 包含三款模型,现已登陆 小米 MiMo 开放平台 ,并且 限时免费 。三者共享统一的风格指令遵循、音频标签控制与文本理解能力,让声音表现可以被语言精细调度,分别覆盖三种典型创作需求: MiMo-V2.5-TTS: 内置多款高质量精品音色,支持语速、情绪、语气等精细化控制,开箱即用,满足多场景表达。 MiMo-V2.5-TTS-VoiceDesign: 一句话快速定义并生成全新音色,让音色创作更直观、更高效。 MiMo-V2.5-TTS-VoiceClone: 少量样本高保真复刻目标音色,同时保持稳定的风格指令遵循与音频标签控制能力。 MiMo-V2.5-ASR 正式开源。 模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平,为 Agent 提供清晰可靠的语音转写,确保每一次交互都建立在精准的理解之上。 MiMo-V2.5-TTS 精准的风格指令遵循能力 从简短的单句指令,到一整份导演笔记,模型都能稳定理解并遵循,覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数 —— 像给演员说戏一样把想要的感觉描述出来,模型就会落到对应的演绎之中。 对于一致性要求更高的场景 —— 有声剧、游戏 NPC、角色化对话等 —— 模型还支持 导演剧本级 的结构化输入:把 人物 、 场景 、 详细指导 分层描述,各层按自己的节奏独立更新、自由组合。这种分层既让角色的音色身份贯穿始终,也让每一句话的表演都能被单独控制。 灵活的音频标签控制能力 除了段落级的自然语言指令,模型还支持行内音频标签,用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述,允许在同一段文本中灵活混用。从简单的情感标注,到多标签叠加、细粒度排布的复杂编排,模型都能稳定表达,在标签的表达力和组合稳定性上均有出色表现。 丰富的文本理解能力 即便没有任何 prompt,也没有任何标签 —— 就是一段最普通的文本 —— 模型也能直接表现出其中的韵律与情感。标点的停顿、句式的起伏,会被自然呈现;文本中暗藏的情感弧线,从平静叙述到激烈转折,模型能主动捕捉;甚至连字里行间透露出的说话人身份(年龄、气质、角色类型),也会自动落到声音里。换句话说:最朴素的纯文本,交给它,也能还你一段有血有肉的演绎。 MiMo-V2.5-ASR 如果说 TTS 是在“输出”端让声音成为创作工具,那么 ASR 就是在“输入”端为这一切打开大门。在真实场景下,语种切换、背景噪声、说话人带着浓重的方言口音,在这样的环境里还能听清、听准,才是真正好用的语音识别。 MiMo-V2.5-ASR 作为全链路语音模型系列的听觉基座,在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。它不只是为了把清晰的语音转成文字,更是让 Agent 在嘈杂的真实声音里,抓住每一个值得被理解的字词。 核心特点 中文方言:支持吴语、粤语、闽南语、四川话等方言 英文复杂场景:在 AMI 等复杂英文场景 Open ASR Leaderboard 上达到领先水平 Code-Switch:中英 Code-Switch 语音转录自由流畅,无需预设语种标签 歌曲识别:中英文歌曲歌词识别,在伴奏与人声混合场景下保持高精度 强噪音场景:在高噪音、远场拾音等复杂声学环境中保持鲁棒识别 多说话人:支持多人交叉对话场景的准确转录,如会议场景 强知识关联:古诗词、专业术语、人名、地名等知识密集型内容的精准识别 原生标点:结合语音韵律与语义原生输出标点,转写结果即拿即用,无需后处理 性能表现 MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌词识别等多个维度上均取得当前最优或极具竞争力的结果,展现出跨场景、跨语种的稳定优势。以下为代表性评测结果: 如何使用 MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 开放平台限时免费,同时,用户可以到 Xiaomi MiMo Studio 进行快速体验。 MiMo-V2.5-ASR 目前已开源模型权重和代码,支持开发者和研究者直接使用或二次开发。 参考 Xiaomi MiMo API 开放平台限时免费 Xiaomi MiMo Studio 快速体验 MiMo-V2.5-ASR Demo page MiMo-V2.5-ASR 项目开源地址 MiMo-V2.5-ASR 权重开源地址 MiMo-V2.5-ASR Huggingface space:
IT之家 4 月 15 日消息,阿里云今日宣布推出阿里 ATH 事业群首款 AI 开发工具“妙悟 Meoo”。该工具集成了千问、Kimi、GLM、MiniMax 四大模型,并内置阿里云数据库、存储等核心产品服务。 用户无需具备任何编程基础,仅使用自然语言描述自身需求,Meoo 即可在最快 1 分钟内自动生成前端与后端完整的网站或 H5 页面,并支持在阿里云上一键部署上线。 据官方介绍,Meoo 内置了阿里云数据库、存储服务、域名服务、FC 沙盒服务、NAS 文件系统、百炼模型 API 等核心产品,无需用户额外配置,即可直接完成前端界面、后端逻辑和数据库搭建等任务,生成的应用具备完整功能。 在模型层,Meoo 集成了 Qwen3.6-Plus、Kimi K2.5、GLM-5、MiniMax-M2.5 四个大模型,能够基于简单指令快速生成匹配用户需求的代码。 在 Agent 框架层,Meoo 支持蜂群 Agent 模式,允许多个 Agent 并行处理任务,简单应用的生成时间可低至 1 分钟。 对于复杂任务,用户可选择 Agent 模式,Meoo 能够自主规划并拆解任务,在遇到问题时进行自我检测和修复。 在实际应用场景中,销售人员准备在节假日进行促销活动,只需在 Meoo 上输入活动规则,几分钟内即可生成一个 H5 活动页面,并能展示转化数据。创作者可将个人作品集或一段文字描述发送给 Meoo,生成可交互的个人作品集网站。 IT之家附官网地址: https://meoo.com/