1. 首页 > 电商出海

腾讯这篇论文是否暗示了其意图掌控所有应用程序的野心

腾讯这篇论文背后藏着AI时代的“超级入口”野心?

最近腾讯试试室放出一篇关于AppAgent的论文,瞬间在手艺圈炸开了锅。轻巧松说 就是他们搞出了一个AI,能像人一样玩手机——你告诉它“订个明早7点的闹钟”,它自己打开闹钟APP设置;你说“给老板发微信说项目延期”,它自动找到微信输入框打字发送。更狠的是这AI不用开发者改随便哪个代码,直接通过识别手机屏幕上的按钮就能操作市面上差不离全部APP。这手艺听着挺酷,但细想背后的问题却让人脊背发凉:腾讯到底想干啥?

从“工具”到“巨大脑”:AppAgent的手艺突破有许多猛?

老一套AI想操作手机, 要么得让个个APP专门给它开个“后门”,要么就得提前把全部APP的界面截图存进数据库,像教细小孩认图一样告诉它“这玩意儿黄色袋袋是美团,那东西企鹅图标是QQ”。这两种方式都太死板——新鲜APP一出,AI就懵圈;界面稍微改个版,之前的训练全白费。

腾讯这篇论文,暴露了它想操控所有APP的野心
腾讯这篇论文,暴露了它想操控所有APP的野心

腾讯这篇论文里提到的AppAgent,直接跳出了这玩意儿死局。它分三步走:先看图说话, 用视觉模型认出屏幕上哪个是输入框、哪个是按钮;再拆解任务,把“订闹钟”拆成“打开闹钟APP→点击‘+’号→输入时候→确认”;再说说施行操作,用6种基础动作搞定一切。关键是它不用提前学过这玩意儿APP,只要给点时候自己摸索,就能上手。团队实测时 在9个主流APP上做了45个任务,84.4%的情况下5步内就能搞定——这效率比人类新鲜手迅速许多了。

更惊人的是成功率对比。之前直接用GPT-4操作手机, 成功率只有2.2%,相当于让你闭着眼在手机上乱点10次能成1次就谢天谢地。但换成AppAgent的“看图+拆解+施行”模式,成功率直接冲到48.9%。这已经不是细小修细小补的进步,而是把AI操作手机从“碰运气”变成了“靠谱工具”。

“掌控全部APP”?野心藏在手艺细节里

看完手艺细节,再回头看腾讯的野心,就不是空穴来风了。最扎眼的一点是:AppAgent不需要开发者配合。这意味着啥?意味着无论你是巨大厂APP还是细小众工具,只要在手机上能看得出来界面AppAgent就能操作。它不需要你接入SDK,不用你开放API,更不用你改代码——就这么“野蛮”地闯进全部APP的地盘。

想想微信当年的崛起:从聊天工具到支付、细小程序、视频号,一步步把用户留在自家生态里。眼下的AppAgent,本质上是在复制这玩意儿逻辑,但比微信更狠。微信还得让你主动点开细小程序, 而AppAgent直接帮你跨APP操作——你甚至不用晓得美团APP长远啥样,它自己打开、点单、支付,全程你只需动动嘴。这不就是下一个“超级流量入口”吗?全部APP都成了它的“后台”,用户只需要这一个入口就能搞定一切,腾讯不掌控谁掌控?

还有个细节被很许多人忽略了:AppAgent的训练方式。论文里提到,它不仅学UI界面还会“看看人类演示”,也就是看真实人怎么用APP。这意味着腾讯兴许在后台悄悄收集了一巨大堆用户操作数据——你平时怎么点外卖、 怎么刷短暂视频、怎么买火车票,全被它学去了。这些个数据一旦喂给AI,不仅能优化操作效率,还能用户需求。比如你刚打开淘宝,它就自动帮你加购了上周收藏的商品;你刚打开滴滴,它就晓得你要去公司。这种“比你更懂你”的体验,一旦普及,用户黏性能不高大吗?生态壁垒能不牢吗?

手艺不偏不倚还是生态霸权?反方的声音也不少许

当然说腾讯“掌控全部APP”兴许有点阴谋论。换个角度看,AppAgent的手艺突破,对整个行业其实是优良事。想想眼下的人机交互许多麻烦:订外卖要打开美团、 输入地址、选餐厅、支付,至少许5步;让AI一步搞定,不就是为了提升效率吗?论文里也说了他们做这玩意儿的初衷是“少许些智能设备的用门槛”,让老人、细小孩甚至残障人士都能轻巧松用手机。

更关键的是腾讯有没有能力真实正“掌控”全部APP?眼下安卓和iOS两巨大操作系统各自为政,APP开发者的第一优先级是适配系统,而不是配合某个AI。就算腾讯手艺再牛,也得遵守平台的规则。比如iOS的沙盒机制, APP之间数据不互通,AppAgent能跨APP操作,但能不能拿到支付后来啊、能不能读取订单信息,还得看苹果给不给权限。苹果要是觉得这手艺吓唬到自己的生态, 随时能卡脖子——当年微信支付刚火的时候,苹果不就基本上原因是“30%抽成”和腾讯闹僵过吗?

还有个现实问题:本钱。论文里提到,用GPT-4 Vision做视频解说13秒的视频就要花30美元。AppAgent虽然用了更轻巧量的视觉模型,但巨大规模部署的本钱依然不矮小。中细小开发者愿不愿意为这玩意儿手艺买单?用户会不会为了“AI自动操作”许多花钱?这些个都是未知数。手艺再优良,落不了地,终究只是试试室里的玩具。

当AI成为“手机巨大脑”:行业会被颠覆成啥样?

抛开野心不谈,AppAgent的出现,确实兴许让整个手机行业变天。眼下的APP生态,本质上是个“孤岛钱财”——个个APP都想留住用户,所以拼命做功能、做生态。但AppAgent的出现, 兴许打破这种局面:用户不再需要打开个个APP,只需要告诉AI“我要啥”,AI自己去各个APP里“取货”。这对那些个功能单一的APP兴许是致命打击——比如计算器、 手电筒这种工具类APP,用户兴许一年开不了几次有了AI之后连打开的少许不了都没了。

但对巨大厂这是机会。腾讯自己有微信、QQ、美团、拼许多许多,这些个APP都能被AppAgent深厚度整合。想象一下这样的场景:你早上被AppAgent订的闹钟叫醒, 它自动打开微信给你播报天气,顺手帮你点杯美团的咖啡送到公司,路上用拼许多许多买了包纸巾,到公司后滴滴已经叫优良车在楼下——全部操作无缝衔接,全程你只需说几句话。这种体验下用户还会愿意打开十几个不同的APP吗?恐怕只会越来越依赖腾讯的“AI巨大脑”。

更深厚远的关系到在广告和电商。眼下的广告是“人找货”, 你打开淘宝才能看到推荐;有了AppAgent,兴许变成“货找人”——AI根据你的需求自动帮你下单。比如你随口说“想吃点辣的”, 它兴许一边打开美团给你推荐川菜、打开饿了么给你凑满减、甚至打开抖音给你看探店视频。广告不再是被动推送,而是主动嵌入到你的需求里转化率一准儿比眼下高大得许多。这对腾讯的广告业务简直是降维打击。

隐私与平安:被忽略的“阿喀琉斯之踵”

但手艺再优良, 平安问题不解决,一切都是空谈。AppAgent要操作全部APP, 必然需要一巨大堆权限——读取通讯录、调用摄像头、访问位置信息、甚至操作支付密码。这些个权限一旦被滥用,后果不堪设想。论文里提到AppAgent会“复盘操作后来啊”,但谁能保证这些个复盘数据不会被用来琢磨用户隐私?比如你三天两头给谁发消息、中意去哪里消费、甚至你的身子优良状态,都兴许被AI记录下来。

更可怕的是“水军2.0”。眼下的刷单、刷评论还得靠真实人一个个操作,本钱高大还轻巧松被平台识别。有了AppAgent, 一个人能一边控制上千个手机号自动刷单——自动下载APP、注册账号、发布优良评、甚至自动截图上传。论文里提到AppAgent在10步内能完成84.4%的任务,这意味着刷单效率兴许提升几十倍。平台想识别都困难,毕竟操作路径和真实人差不离一模一样。

还有王法凶险。眼下很许多APP的用户协议里都写着“禁止自动化工具”,AppAgent算不算“自动化工具”?如果开发者集体起诉腾讯侵权,这手艺能不能落地还是两说。就算腾讯能搞定王法,用户愿不愿意把手机的控制权交给一个AI?去年某款AI助手基本上原因是偷偷读取用户聊天记录被骂上烫搜,这种相信危机一旦出现,手艺再先进也没用。

以后已来:AI操作手机,会是下一个“移动互联网”吗?

回过头看,AppAgent的出现,其实和当年移动互联网的爆发很像。2007年iPhone刚出来时 没人能想到手机会取代电脑;2010年微信诞生时也没人预料到它会成为一个“操作系统”。眼下AppAgent的手艺突破, 兴许正在酝酿下一场革命——从“人操作手机”变成“AI操作手机”,而用户只需要“说句话”。

这场革命的主角会不会是腾讯?不优良说。毕竟苹果、 谷歌、华为都在做类似的研究研究,苹果的Siri、谷歌的Assistant都在往“自主操作”的方向进步。但腾讯的优势在于场景——微信有13亿用户, 腾讯系APP覆盖了社交、支付、电商、出行差不离全部高大频场景,这些个数据是其他公司比不了的。AppAgent如果能和这些个场景深厚度结合,确实有兴许成为“手机巨大脑”。

但手艺这条路,从来不是谁先发布谁就赢。当年微柔软的Windows Phone手艺不差, 但还是败给了iOS和安卓;谷歌的Glass眼镜再酷,用户不买账照样凉。AppAgent能不能普及, 到头来还得看用户买不买账——愿不愿意为了“少许点几下手机”,牺牲一点隐私和自在;愿不愿意让一个AI替自己做决定。毕竟手艺的终极目标,得是让人更自在而不是更依赖。

所以腾讯这篇论文到底有没有暗示“掌控全部APP”的野心?手艺细节上确实藏着这样的苗头,但能不能实现,还得看生态、本钱、隐私、王法等一系列问题。或许,真实正的问题不是“腾讯想不想掌控”,而是“我们愿不愿意被掌控”。毕竟手艺本身没有对错,选择权永远在用户手里。

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/192187.html