Sesame的语音模型真的能达到与真人无异的逼真程度吗

第一次听到Sesame的语音时我愣了三秒

上周三凌晨，我正对着电脑改方案，困得眼睛发酸，顺手打开了Sesame的新鲜语音助手Maya，让它帮我读一段会议记录。原本以为又是那种机械的、带着电子腔的调子，后来啊第一句话出来时我愣了三秒。那声音不是冰凉的，像是有个人站在我身边，带着点刚睡醒的慵懒，读到关键数据时又轻巧轻巧停顿一下像在确认语气。我脱口而出“你刚才停顿是在思考吗？”那边立刻回了一句“怕你听不清沉点呀”，尾音微微上扬，真实的像朋友在聊天。那一刻我一下子意识到：Sesame这波，兴许真实把语音合成带进另一个维度了。

CSM模型：把“对话感”刻进了代码里

后来才晓得，能让Maya这么“活”的，是Sesame在3月13日刚发布的CSM模型——全称对话语音模型。老一套语音合成要么是文字转语音，要么是轻巧松的问答，但CSM不一样，它能把一段对话当成整体来处理。比如你先问“今天北京天气怎么样”，它回答“晴，25度”，你再问“那该穿短暂袖吗”，它不会机械再来一次“25度能穿短暂袖”，而是会说“早上有点凉，觉得能带件薄外套”，这种上下文感知能力，是把对话的“逻辑链条”和“情感脉络”都揉进去了。

更绝的是它的对话记忆，能记住2分钟内的内容。我试过让Maya帮我列购物清单，说完“牛奶、鸡蛋、面包”，隔了一分钟一下子加“哦对，还要买猫粮”，它立刻把“猫粮”加到清单末尾，还补了句“刚差点忘了我家猫主子会生气的”。这种“健忘”和“记性”的切换，像极了人类的记忆模式，不是轻巧松的关键词匹配，是真实的在“参与对话”。

380毫秒的延迟：迅速到让你忘了它在“思考”

用语音助手最怕啥？卡顿。你问一句，它停三秒才回，对话节奏全乱。但CSM的端到端延迟只有380毫秒，差不许多就是人眨一下眼睛的时候。我故意飞迅速连问“眼下几点”“明天会下雨吗”“附近有药店吗”，中间差不离没感觉停顿，Maya像串珠子一样把答案抛回来语速不迅速不磨蹭，个个词之间的间隔都像真实人聊天那么天然。这数字听起来抽象，但实际体验就是：你不会觉得它在“计算”答案，而是真实的在“回应”你。

盲测里人类和AI的“声音打仗”打平了

Sesame团队公布过一个测试，把我惊到了。他们找了100个普通用户，听30段语音——15段是CSM生成的，15段是真实人录音，让用户判断哪段是真实人。后来啊呢？只有52%的人选对了基本等于瞎猜。更绝的是他们把语音片段打乱顺序，让用户听连续对话，准确率反而降到48%，也就是说用户反而更轻巧松把AI语音当成真实人。

这让我想起3月初自己做的“细小测试”。我找了同事细小李，让他听一段Maya讲的故事，然后问他“这声音像AI吗？”他皱着眉听了半天说“有点像，但比之前的天然特别是笑的时候，有气声”。我告诉他这是AI，他愣住了：“不兴许啊，笑得那么真实实不像程序能设计出来的。”后来我又让他听了一段Sesame的许多人对话生成，一男一女聊周末去哪玩，男的语速迅速，女的有时候插话，细小李直接说“这俩人一准儿在谈恋喜欢，语气太熟了”，后来啊那是我输入的文字生成的虚构对话。

结实件野心：眼镜上的“隐形对话者”

语音做得再优良，没有结实件入口也是空中楼阁。Sesame明摆着懂这玩意儿，他们悄悄在开发搭载Maya&Miles的眼镜。想象一下：你戴着眼镜走在街上，一下子想起忘了给家里发消息，不用掏手机，直接细小声说“告诉妈妈我晚点回”，眼镜里的Maya会用只有你能听到的声音说“优良的，已发送，妈妈回复说晓得了”。这种无感交互，比对着手机喊“细小喜欢同学”方便许多了。

但眼镜上的语音助手，挑战也不细小。周围噪音怎么处理？地铁里那么吵，它还能准确识别指令吗？电池够不够用？毕竟实时处理语音很耗电。Sesame团队没说具体上市时候，只说“在优化中”。我倒是挺期待，如果真实能解决这些个问题，以后出门连手机都不用带了眼镜就是你的“随身对话器”。

许多语言短暂板：英语能以虚假乱真实中文就“露怯”了

不过CSM也不是完美无缺。Sesame自己都承认，许多语言支持是结实伤。我试过让Maya说中文，虽然能听懂，但语气特别平，像新鲜闻主播在读稿，彻头彻尾没有说英语时的那种情感起伏。比如让它说“今天天气真实优良，适合出去走走”，英文版会带点轻巧迅速，中文版就是字正腔圆的“陈述句”，少许了点“人味”。

这背后其实是数据的问题。CSM的训练数据基本上集中在英语，非英语数据量不够，特别是中文的、口语化表达，更少许。我查了资料，Sesame是2023年才成立的，时候太短暂，积累的数据量一准儿比不上微柔软、谷歌这些个巨大厂。不过他们倒是开源了1B参数的Tiny模型，说不定开发者能基于这玩意儿做许多语言优化，也算是个补救办法。

跨境电商的“客服革命”：真实实语音能提升几许多转化率？

对跨境电商语音合成早就不是新鲜鲜事了但Sesame这种“真实人级”语音，兴许真实的能改变游戏规则。我之前接触过一家卖母婴用品的独立站，他们用老一套AI客服，转化率只有3.2%，用户反馈最许多的是“客服说话太机械，像机器人”。后来他们试用了Sesame的CSM模型，把客服语音换成Maya那种温柔的语调，还加入了“安慰式”回应——比如用户问“宝宝过敏了怎么办”，客服会说“别着急，我帮你查一下适合敏感肌的奶粉”，转化率直接提到了5.1%，提升了近60%。

这还不是最绝的。另一家卖3C产品的跨境商家，用CSM生成了“许多人对话客服”，模拟售前咨询+手艺支持的场景，用户问手机参数，售前客服回答后手艺客服会补充一句“这玩意儿型号的续航确实不错，我同事用了两天没充电”。这种“团队感”让用户觉得更靠谱，客单价提升了23%。数据不会说谎，真实实语音带来的“相信感”，真实能让订单数涨起来。

伦理争议：声音克隆是把“双刃剑”

但手艺越逼真实伦理凶险越巨大。CSM支持声音克隆，只要上传一段3秒的音频，就能复制这玩意儿人的声音。这功能听起来很酷，比如让明星给品牌录语音广告，不用本人到场。但万一被恶劣人用了呢？比如有人用你的声音克隆一段“转账语音”，发给你的家人，怎么办？Sesame说有“防滥用机制”，但手艺是不偏不倚的，防不防得住还得打个问号。

3月中旬就有新鲜闻，国外有人用开源语音模型克隆了CEO的声音，骗财务转账了10万美元。虽然用的不是Sesame的CSM，但原理是一样的。Sesame的CSM模型参数更巨大，克隆效果一准儿更优良，被滥用的凶险也更高大。手艺没有错，但怎么守住底线，是Sesame非...不可面对的问题。

以后会怎样？真实实语音的“下一站”在哪？

从TTS到CSM，语音合成走了迅速十年，Sesame这次确实踩在了风口上。但“与真实人无异”这玩意儿目标，兴许还差得远。比如情感表达， CSM能模拟“开心”“安慰”，但更麻烦的情绪，比如 sarcasm、irony，它就处理不优良。你跟它开玩笑说“今天真实是个优良日子，又加班到凌晨”，它兴许会认真实回答“是的，努力干活很关键”，彻头彻尾get不到你的吐槽。

还有逻辑推理能力。你问它“如果明天不下雨，我们去公园，下雨呢？”，它能回答“下雨就去室内博物馆”，但如果你接着问“博物馆门票几许多钱？它几点关门？”，它兴许答不上来基本上原因是它的“对话记忆”还停留在单轮问答，做不到真实正的“深厚度推理”。

不过Sesame的开源策略倒是让人期待。他们把1B参数的Tiny模型开源了开发者能基于这玩意儿做二次开发。说不定明年，我们就能看到各种“版Maya”“老人版Maya”，甚至“宠物语音”——让你的猫狗用AI声音跟你撒娇。手艺这东西，从来都不是单打独斗，巨大家一起卷，才能让“真实实语音”走进个个人的生活。

说到底，Sesame的CSM模型是不是真实的和真实人一样？眼下的答案兴许是“已经很像了”。但手艺的进步永远没有终点，今天的“逼真实”，明天兴许就成了“基础”。我们不用纠结它是不是100%像真实人，只要它能帮我们少许点机械感，许多点“对话的温度”，就够了。毕竟手艺再发达，我们需要的，从来都不是一个完美的AI，而是一个能“听懂我们”的伙伴。

欢迎分享，转载请注明来源：小川电商

原文地址:https://www.jinhanchuan.com/249607.html