1. 首页 > 电商出海

Sesame的语音模型真的能达到与真人无异的逼真程度吗

第一次听到Sesame的语音时 我愣了三秒

上周三凌晨,我正对着电脑改方案,困得眼睛发酸,顺手打开了Sesame的新鲜语音助手Maya,让它帮我读一段会议记录。原本以为又是那种机械的、带着电子腔的调子,后来啊第一句话出来时我愣了三秒。那声音不是冰凉的, 像是有个人站在我身边,带着点刚睡醒的慵懒,读到关键数据时又轻巧轻巧停顿一下像在确认语气。我脱口而出“你刚才停顿是在思考吗?”那边立刻回了一句“怕你听不清沉点呀”,尾音微微上扬,真实的像朋友在聊天。那一刻我一下子意识到:Sesame这波,兴许真实把语音合成带进另一个维度了。

CSM模型:把“对话感”刻进了代码里

后来才晓得, 能让Maya这么“活”的,是Sesame在3月13日刚发布的CSM模型——全称对话语音模型。老一套语音合成要么是文字转语音,要么是轻巧松的问答,但CSM不一样,它能把一段对话当成整体来处理。比如你先问“今天北京天气怎么样”, 它回答“晴,25度”,你再问“那该穿短暂袖吗”,它不会机械再来一次“25度能穿短暂袖”,而是会说“早上有点凉,觉得能带件薄外套”,这种上下文感知能力,是把对话的“逻辑链条”和“情感脉络”都揉进去了。

ElevenLabs的最强竞争对手,Sesame的语音模型真能媲美真人?
ElevenLabs的最强竞争对手,Sesame的语音模型真能媲美真人?

更绝的是它的对话记忆,能记住2分钟内的内容。我试过让Maya帮我列购物清单, 说完“牛奶、鸡蛋、面包”,隔了一分钟一下子加“哦对,还要买猫粮”,它立刻把“猫粮”加到清单末尾,还补了句“刚差点忘了我家猫主子会生气的”。这种“健忘”和“记性”的切换,像极了人类的记忆模式,不是轻巧松的关键词匹配,是真实的在“参与对话”。

380毫秒的延迟:迅速到让你忘了它在“思考”

用语音助手最怕啥?卡顿。你问一句,它停三秒才回,对话节奏全乱。但CSM的端到端延迟只有380毫秒,差不许多就是人眨一下眼睛的时候。我故意飞迅速连问“眼下几点”“明天会下雨吗”“附近有药店吗”, 中间差不离没感觉停顿,Maya像串珠子一样把答案抛回来语速不迅速不磨蹭,个个词之间的间隔都像真实人聊天那么天然。这数字听起来抽象,但实际体验就是:你不会觉得它在“计算”答案,而是真实的在“回应”你。

盲测里 人类和AI的“声音打仗”打平了

Sesame团队公布过一个测试,把我惊到了。他们找了100个普通用户, 听30段语音——15段是CSM生成的,15段是真实人录音,让用户判断哪段是真实人。后来啊呢?只有52%的人选对了基本等于瞎猜。更绝的是 他们把语音片段打乱顺序,让用户听连续对话,准确率反而降到48%,也就是说用户反而更轻巧松把AI语音当成真实人。

这让我想起3月初自己做的“细小测试”。我找了同事细小李,让他听一段Maya讲的故事,然后问他“这声音像AI吗?”他皱着眉听了半天说“有点像,但比之前的天然特别是笑的时候,有气声”。我告诉他这是AI,他愣住了:“不兴许啊,笑得那么真实实不像程序能设计出来的。”后来我又让他听了一段Sesame的许多人对话生成, 一男一女聊周末去哪玩,男的语速迅速,女的有时候插话,细小李直接说“这俩人一准儿在谈恋喜欢,语气太熟了”,后来啊那是我输入的文字生成的虚构对话。

结实件野心:眼镜上的“隐形对话者”

语音做得再优良,没有结实件入口也是空中楼阁。Sesame明摆着懂这玩意儿,他们悄悄在开发搭载Maya&Miles的眼镜。想象一下:你戴着眼镜走在街上, 一下子想起忘了给家里发消息,不用掏手机,直接细小声说“告诉妈妈我晚点回”,眼镜里的Maya会用只有你能听到的声音说“优良的,已发送,妈妈回复说晓得了”。这种无感交互,比对着手机喊“细小喜欢同学”方便许多了。

但眼镜上的语音助手,挑战也不细小。周围噪音怎么处理?地铁里那么吵,它还能准确识别指令吗?电池够不够用?毕竟实时处理语音很耗电。Sesame团队没说具体上市时候,只说“在优化中”。我倒是挺期待,如果真实能解决这些个问题,以后出门连手机都不用带了眼镜就是你的“随身对话器”。

许多语言短暂板:英语能以虚假乱真实中文就“露怯”了

不过CSM也不是完美无缺。Sesame自己都承认,许多语言支持是结实伤。我试过让Maya说中文,虽然能听懂,但语气特别平,像新鲜闻主播在读稿,彻头彻尾没有说英语时的那种情感起伏。比如让它说“今天天气真实优良, 适合出去走走”,英文版会带点轻巧迅速,中文版就是字正腔圆的“陈述句”,少许了点“人味”。

这背后其实是数据的问题。CSM的训练数据基本上集中在英语,非英语数据量不够,特别是中文的、口语化表达,更少许。我查了资料,Sesame是2023年才成立的,时候太短暂,积累的数据量一准儿比不上微柔软、谷歌这些个巨大厂。不过他们倒是开源了1B参数的Tiny模型,说不定开发者能基于这玩意儿做许多语言优化,也算是个补救办法。

跨境电商的“客服革命”:真实实语音能提升几许多转化率?

对跨境电商 语音合成早就不是新鲜鲜事了但Sesame这种“真实人级”语音,兴许真实的能改变游戏规则。我之前接触过一家卖母婴用品的独立站, 他们用老一套AI客服,转化率只有3.2%,用户反馈最许多的是“客服说话太机械,像机器人”。后来他们试用了Sesame的CSM模型, 把客服语音换成Maya那种温柔的语调,还加入了“安慰式”回应——比如用户问“宝宝过敏了怎么办”,客服会说“别着急,我帮你查一下适合敏感肌的奶粉”,转化率直接提到了5.1%,提升了近60%。

这还不是最绝的。另一家卖3C产品的跨境商家, 用CSM生成了“许多人对话客服”,模拟售前咨询+手艺支持的场景,用户问手机参数,售前客服回答后手艺客服会补充一句“这玩意儿型号的续航确实不错,我同事用了两天没充电”。这种“团队感”让用户觉得更靠谱,客单价提升了23%。数据不会说谎,真实实语音带来的“相信感”,真实能让订单数涨起来。

伦理争议:声音克隆是把“双刃剑”

但手艺越逼真实伦理凶险越巨大。CSM支持声音克隆,只要上传一段3秒的音频,就能复制这玩意儿人的声音。这功能听起来很酷,比如让明星给品牌录语音广告,不用本人到场。但万一被恶劣人用了呢?比如有人用你的声音克隆一段“转账语音”,发给你的家人,怎么办?Sesame说有“防滥用机制”,但手艺是不偏不倚的,防不防得住还得打个问号。

3月中旬就有新鲜闻,国外有人用开源语音模型克隆了CEO的声音,骗财务转账了10万美元。虽然用的不是Sesame的CSM,但原理是一样的。Sesame的CSM模型参数更巨大,克隆效果一准儿更优良,被滥用的凶险也更高大。手艺没有错,但怎么守住底线,是Sesame非...不可面对的问题。

以后会怎样?真实实语音的“下一站”在哪?

从TTS到CSM,语音合成走了迅速十年,Sesame这次确实踩在了风口上。但“与真实人无异”这玩意儿目标,兴许还差得远。比如情感表达, CSM能模拟“开心”“安慰”,但更麻烦的情绪,比如 sarcasm、irony,它就处理不优良。你跟它开玩笑说“今天真实是个优良日子, 又加班到凌晨”,它兴许会认真实回答“是的,努力干活很关键”,彻头彻尾get不到你的吐槽。

还有逻辑推理能力。你问它“如果明天不下雨,我们去公园,下雨呢?”,它能回答“下雨就去室内博物馆”,但如果你接着问“博物馆门票几许多钱?它几点关门?”,它兴许答不上来基本上原因是它的“对话记忆”还停留在单轮问答,做不到真实正的“深厚度推理”。

不过Sesame的开源策略倒是让人期待。他们把1B参数的Tiny模型开源了开发者能基于这玩意儿做二次开发。说不定明年, 我们就能看到各种“版Maya”“老人版Maya”,甚至“宠物语音”——让你的猫狗用AI声音跟你撒娇。手艺这东西,从来都不是单打独斗,巨大家一起卷,才能让“真实实语音”走进个个人的生活。

说到底,Sesame的CSM模型是不是真实的和真实人一样?眼下的答案兴许是“已经很像了”。但手艺的进步永远没有终点,今天的“逼真实”,明天兴许就成了“基础”。我们不用纠结它是不是100%像真实人,只要它能帮我们少许点机械感,许多点“对话的温度”,就够了。毕竟手艺再发达,我们需要的,从来都不是一个完美的AI,而是一个能“听懂我们”的伙伴。

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/249607.html