
AI愚弄风向标(公众号:ZhidxcomAI)
智东西12月10日报谈,本日,智谱厚爱发布并开源GLM-ASR系列语音识别模子,并同步上线了基于该模子打造的桌面端智谱AI输入法“小凹”。
比拟传统语音输入只可“把话形成字”,小凹在输入框中即可完成翻译、改写、计较、策动等指示操作。
咱们在实质体验中发现,小凹不仅能在竣事相对瓦解的语音转写,还能顺着用户的白话进行内容整理、作风弯曲或班师完成小任务。
举例随口报账、算工资、安排旅行、以致解一谈数学解说题,它齐能跟上。而关于碎碎念、自我修正和中英混说等复杂白话,小凹也能给出相应为止,但全体瓦解性仍有升迁空间。
与此同期,智谱这次还开源了1.5B参数目的端侧模子GLM-ASR-Nano-2512,重心面向腹地低蔓延与秘密场景,在部分公开测试集上达到开源SOTA发扬。
GLM-ASR-2512使用指南:https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
体验中心:https://bigmodel.cn/trialcenter/modeltrial/voice
接口文档:https://docs.bigmodel.cn/api-reference/模子-api/语音转文本
GLM-ASR-Nano-2512开源地址:
Hugging Face:https://huggingface.co/zai-org/GLM-ASR-Nano-2512
魔搭社区:https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512
一、从云侧到端侧,语音识别被班师塞进输入法这次同步发布的GLM-ASR-2512是一款云表语音识别模子,营救及时语音转翰墨,在多语种、多口音与复杂环境下进行过瓦解性测试,其字符诞妄率(CER)仅为0.0717。
同期开源的GLM-ASR-Nano-2512则是一款约1.5B参数鸿沟的端侧模子,主打腹地运行,在蔓延和秘密层面更友好。它在开源语音识别标的已达到SOTA水平,在部分测试中以致率先了若干闭源模子。

▲GLM-ASR-Nano与多款主流语音识别模子在多个公开数据集上的识别诞妄率对比
围绕这套模子才气,智谱将语音识别班师镶嵌桌面端输入法中,使语音不错班师驱动翻译、改写、扩写、情怀抒发弯曲与计较等一系列后续操作,用户在输入框中即可完成从语音到为止的齐全经由,不需要再切换窗口,也不需要复制粘贴,光标在哪,说完就能班师替换。
二、语音不单转翰墨,还能顺着你的话去改、去算、去策动在实质体验中,初度使用需要跳转浏览器完成手机号登录,并进行麦克风和“允许粘贴翰墨”基础权限授权。

▲使用浏览器登录以使用小凹语言就业

▲麦克风和“允许粘贴翰墨”基础权限授权
完成授权后,输入法会自动跳转到一个体验界面,主要用于语曲调试和闇练中枢功能。随后,插足输入法主页,全体界面分红“首页”“辞书”和“东谈主设”三个主要区域。
首页更像是一个“使用姿色盘”,会把近期的语音输入时长、生成翰墨数目以及按打字速率愚顽计较的勤俭时代齐展示出来,底部还会自动纪请托户一天内的输入内容,苟简回看。

▲智谱AI输入法主页
“辞书”是一个用于选藏特闻名词和理论抒发的吝啬具栏。它会自动学惯用户时时说的词,但也允许用户手动添加式样名、东谈主名、行业术语等,幸免转写时出现诞妄。

▲辞书页面
再往下是“东谈主设”页面,不错说是输入法里AI化最赫然的部分。这里不仅能看到多个预置的东谈主设,如“默许作风”“自动翻译”“大喊行大神”“濒临雇主”“濒临伴侣”“濒临共事”等,每一个齐带着对应的抒发口吻。同期也营救用户我方新建东谈主设,调节口吻、抒发面貌或手脚偏好。点开轻易东谈主设,右侧会自大可裁剪的形貌区域。

▲东谈主设页面
插足厚爱体验后,我先从最基础、亦然最逼近日常使用的场景启动试起。
看到案例里它能把说错的日历和时代自动整理成最终说明的为止,我也顺遂用了一种接近确凿理论抒发的面貌来测试。

我像平时言语一样随口讲:“呃呃我策动九点召开一个会议,嗯……算了,照旧十少许吧。”
在多轮尝试后,最终才取得的预期为止“我策动在十少许召开一个会议”。可见,它对白话中自我修正和停顿词的自动管束,当今还谈不上齐备瓦解。

在更为复杂的一轮测试中,我班师白话输入了一整段中英文混合的责任同样内容:“这次Q3的marketing campaign involves our research team,leverage on他们新出的诠释吧,然后用度的话charge Joanna部门,问一下他翌日有没偶而代一谈过一下budget,上周五你present的deck等会不错发我一下吗?也cc一下Jennifer吧。”

在这一轮中英混说的测试中,系统诚然能基本复兴语句结构,但英文部分的识别准确性一般,连气儿抒发时容易出现偏差。
随后我测试了东谈主设抒发功能,分离聘用了“濒临雇主”和“濒临伴侣”,输入团结条“对不起,我临时有事,下昼去不清亮”,两种东谈主设在口吻上全体各异并不大。

▲ “濒临雇主”这一东谈主设的输出为止

▲ “濒临伴侣”这一东谈主设的输出为止
要是但愿达到展示案例中的赫然作风切换后果,或仍需要在自界说东谈主设中补充更明确的领导语。

▲东谈主设功能的官决议例展示
而濒临缔造者,“大喊行大神”这一东谈主设则具备一定的实用性,我语音输入“自大现时悉数python进度的进度号”后,系统功能班师给出程序大喊为止。

▲ “大喊行大神”这一东谈主设的输出为止
随后我又连气儿语音发问“小凹,智谱AI输入法的上风在那处”和“为什么语音输入比键盘输入更友好”,嗅觉更像是在输入法里班师“召唤”了一个AI助手,谜底不是弹窗面貌出现,而是班师生成在光标位置,这两次发问齐能普通给出解释性回复。

▲解释性回答
此外,在选中语本后,说出“翻译成英文”、“翻译成日文”和“翻译成四川话”,为止均可即时替换,光标所选即所改的模式在裁剪过程中比较高效。

在更偏向生计类的小任务里,我先试了一个随口报账的场景:“嘿小凹,帮我记一下今天的账单,我早上吃饭花了六块五,中午快餐二十五,晚上看电影三十九,晚饭一百。”输入法能把这些数字正确纪录下来,自动汇记忆算。

▲记账
随后,我又试了试计较工资的场景:“嘿小凹,计较一下年薪有几许?月工资三十k,署名费五万,十万期权分两年披发。”系统能把这些要求间隔并算出一个明确的为止,用语音完成这种微型算式比意想中顺滑。

▲算工资
再往后我测试了一个策动任务,比如“嘿小凹,我想去上海玩两天,从北京动身,帮我制定一个旅行缱绻。”它也能给出一个结构化的行程冷漠。

▲行程策动
此外,我还抛了一谈数学解说题进去,系统不仅给了过程,还在听到有歧义的部分时主动领导:“题目中的‘1+x分之x’我聚合为‘1+x/x’。”这种在语音抒发容易粗疏时给出的稀奇说明,对纯语音输入来说照旧挺关节的。

此外,在完周密部功能测试后,我又把“小凹”放进了确凿的写稿经由中。这篇稿子里,约有90%的内容,是通过语音班师生成在输入框里的,许多段落果真是“边想边说”就成型了。我也第一次赫然嗅觉到,输入面貌正在反过来影响写做念路。
结语:输入法很可能会成为AI下一个高频进口从这次全体体验来看,小凹的变化在于它启动吸收一部分正本需要东谈主手完成的小任务:一句话不错记账、算清一笔收入、改一句抒发、顺遂做一个行程策动。
输入法这个正本最基础、最闇练的器具,正在被重新界说成一个“随叫随用”的AI进口。
更进攻的是,这种变化发生在桌面端,AI才气简略被班师嵌进日常最频繁使用的输入场景里,安详形成责任流的一部分。
天然,从碎碎念整理、中英混说到东谈主设抒发的瓦解性来看,小凹仍然处在阻挡打磨的过程中,但标的仍是很清晰,AI仍是启动更具体地参与到用户每天的责任中。