1. 首页 > 电商出海

AI语音转换技术,资本为何纷纷以千万美元押注

语音输入的老故事, 为啥还能让资本疯狂砸钱

按下键盘打字这事,用了几十年一下子有人觉得不对劲。2024年6月, 一家叫Wispr Flow的语音输入公司拿了3000万美元A轮;7月,另一家Willow Voice又宣布420万美元天使轮融资。消息传出来不少许人嘀咕:语音转文字不是2012年苹果就做了吗?微信2019年也有这功能,2024年了还有人愿意为这玩意儿投几千万美元?

但资本明摆着不这么想。ElevenLabs靠语音合成手艺估值30亿美元拿到2.5亿美元C轮融资后整个语音赛道一下子烫闹起来。不过这次资本盯上的不是让机器“说话”, 而是反过来——让机器更懂人怎么说话,直接把口语变成能用的书面文字。这事儿听着轻巧松,做起来全是坑。

AI语音从“输出”到“输入”,资本在用千万美元押注什么?
AI语音从“输出”到“输入”,资本在用千万美元押注什么?

从“能听懂”到“能用上”,差了十个巨大模型

语音输入早不是新鲜鲜事。2012年iOS 6上线“语音听写”, 2019年微信iOS端推出“语音转文字”,用户对着手机说话,屏幕上就能蹦出字。但用过的人都晓得,这些个功能最许多算“能听懂”,离“能用上”差远了。你说“明天开会想起来带那东西报告啊”,它兴许写成“明天开会想起来带那东西抱告啊”,还得自己回头改。

问题出在哪?VoiceWriter.io 2025年2月的测试报告给了答案:就算顶级的ASR模型, 非格式化文本的错词率能压到10%以下跟专业人类转录员差不许多,但一旦要考虑标点、巨大细小写、分段这些个格式化需求,错词率直接再涨10%。更别说“呃”“啊”这种语气词,“那东西”“这玩意儿”这种指代,机器根本分不清哪些该删、哪些该改。

Flow和Willor这两家新鲜玩家,目标就是填上这玩意儿坑。它们不满足于单纯把语音转成字,而是在中间加了一层“文字处理”模块。用户说完“嗯…今天先说说要更新鲜主页面的图标, 然后在三点半前发上线通知”,Flow不仅会把这些个话记下来还会自动把“嗯”删掉,把“先说说”“然后”改成序号,标点符号也全对。理想状态下用户说完就能直接复制粘贴用,这就是所谓的“零编辑”目标。

硅谷VC为啥盯上了“语音输入”这事儿

资本向来中意“效率革命”。当键盘输入用了几十年, 办公场景里一下子冒出一群人——VC、创业者、高大管,他们天天开会、打

更关键的是语音输入兴许不止是“效率工具”,而是“交互范式”的颠覆。想象一下 以后你对着电脑说“帮我琢磨上季度财报,沉点看订阅收入和摊薄凶险”,AI不仅把这话转成文字,还能直接调用工具生成琢磨报告。这时候语音输入就不是“替代键盘”,而是成了“语音操作系统”的入口。VC们押注的,或许不是眼下的语音转文字,而是这玩意儿潜在的以后。

数据也给了他们信心。Flow官宣用户规模月环比增加远超50%,6个月活跃用户留存率80%,付费率高大达19%。换算下来2024年7月到2025年7年的年收入能达到380万美元。要晓得,一款办公工具能有近20%的付费率,在SaaS赛道里已经算顶流了。

真实实场景测试:语音输入到底“优良用”在哪里

Flow和Willow到底能不能用?我们找了三个典型场景实测:To do List、 邮件回复、会前备忘录,对比对象是Whisper。

用户说“呃…我刚看了那东西财报,XX这季度虽然同比是有增加远的,但是环比是负的,然后它那东西订阅收入占比在上升,基本上是那东西XX和XX的贡献吧,再说一个它跟阿里的那东西可转债得看看了就是是不是有摊薄凶险的问题?”三款产品都抓住了核心信息, 但Flow和Willow会自动按“先说说/第二/第三”分段,还会把“呃”删掉,Whisper直接连成一段,还没加标点,看着像本糊涂账。

邮件回复场景更考验“口语转书面语”的能力。用户说“您优良, 看到你们说想优化卖流程,我感觉其实你们眼下的问题还挺典型的,就是前期线索进来之后没有特别系统的筛选机制吧,然后弄得后面卖在跟进的时候效率挺矮小的——像这种情况,我们之前有几个客户也遇到过一般会觉得能统一一下线索评分的标准,或者引入个比比看轻巧量的CRM系统啥的也能。我这两天再把我们之前做的一个案例给你整理一下到时候你看看是不是有参考值钱哈。”Flow把“到时候”改成“届时”, 还把长远句拆成了短暂句,Willow和Whisper基本没动,满篇“吧”“啥的”“哈”,发出去前得巨大改特改。

最麻烦的是专业术语场景。券商琢磨师说“XX这季度虽然同比是有增加远的, 但是环比是负的,然后它那东西订阅收入占比在上升,基本上是那东西XX和XX的贡献吧,再说一个它跟阿里的那东西可转债得看看了就是是不是有摊薄凶险的问题?”三款产品在“摊薄凶险”上都栽了跟头, Flow错写成“弹薄凶险”,Willow写成“滩薄凶险”,Whisper直接写成“淡薄凶险”。手动添加“摊薄凶险”到Flow的词库后它还是没认对,看来专业场景的路还很长远。

“非正式场景”才是语音输入的救命稻草?

测试下来找到, Flow和Willor在专业术语、正式文风里表现拉胯,但在不那么正式的场景里反而能打。Reddit上有用户用Flow和Cursor编程工具做Vibe Coding, 对着麦克风说“创建一个React组件,展示用户列表,点击用户名弹出详情”,Flow不仅转对了还自动补全了代码格式。Product Hunt上也有开发者说 用Flow写会议纪录比打字迅速3倍,尤其适合头脑风暴时随手记点子。

这其实戳中了一个核心矛盾:语音输入天生不适合“严肃办公”,但太严肃的场景又没人用它。Flow的机灵之处在于, 它没结实啃专业术语这块结实骨头,而是先搞定“非正式场景”——学生记课堂笔记、作家写草稿、讼师整理咨询记录,这些个场景对术语准确率要求没那么高大,但对“少许些打字”的需求特别有力烈。Flow官网的用户画像里 学生、创作者、咨询顾问占比超出60%,这群人没办公室,三天两头在外面跑,语音输入对他们来说不是“锦上添花”,而是“刚需”。

a16z的年终AI产品盘点里 首席设计师Ammaar Reshi和创业者Ben Tossell都推荐过Flow,而且差不离是天天用。Ben Tossell说:“以前在外面开会, 我得一边听一边打字,三天两头漏掉沉点;眼下按个键就能说Flow自动整理成纪要,省下来的时候足够我再喝杯咖啡。”硅谷VC自己成了种子用户,这事儿本身就说明问题——他们觉得这东西能提升自己的干活效率。

语音输入的以后:从“提效工具”到“交互入口”

微柔软2022年花197亿美元收购Nuance,当时很许多人看不懂——一家做看病语音识别的公司凭啥值这么许多钱?后来微柔软CEO Satya Nadella说明白:“Nuance在看病交付点给AI手艺,语音命令正迅速成为我们与互联网互动的最常见方式。”原来巨头们早就盯上了语音交互的入口值钱。看病场景里 医生不能边做手术边打字,语音输入是独一个选择;以后办公场景里如果AI能听懂麻烦指令,语音或许真实的能替代键盘。

但眼下语音输入还有个坎儿:用户相信度。Flow创始人Tanay Kothari说 就算错词率降到1%,每100个字还是会有1个错,用户根本不敢直接复制粘贴用。所以Flow眼下走的是“渐进式路线”——先解决格式化、 分段这些个基础问题,让用户少许删几个字;再磨蹭磨蹭优化术语识别、上下文搞懂,再说说才能实现“零编辑”。这玩意儿过程兴许需要两三年,但VC愿意等,毕竟谁都想抓住下一个“交互范式”。

有意思的是资本眼下从“语音合成”转向“语音输入”,其实是在押注“人的需求”。ElevenLabs让机器说话, 是解决“机器输出”的问题;Flow让机器听懂人说话,是解决“人输入”的问题。前者是锦上添花,后者是雪中送炭。办公场景里 输入效率永远比输出效率更关键——毕竟没人愿意花半天时候把口语整理成文字,如果语音输入真实能解决这事,那几千万美元的押注,或许真实不算昂贵。

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/245886.html