1. 首页 > 电商出海

硅谷大厂为何砸数十亿美元抢购我的自拍和聊天记录

硅谷巨大厂正在上演一场数据争夺战, 你的老照和聊天记录成了香饽饽

谁曾想到,躺在手机相册里积灰的自拍,或是十年前社交柔软件上的聊天记录,一下子成了硅谷手艺巨头们砸钱抢购的“宝贝”。这些个被巨大许多数人遗忘的数字痕迹, 正以惊人的速度变成训练AI模型的“燃料”,而背后的交容易金额,动辄就是数十亿美元。这场数据争夺战早已不是暗地, 但当你意识到自己的隐私数据兴许正在某个服务器的数据库里被“喂养”给AI时或许会脊背发凉——毕竟那些个你以为早已消失的数字记忆,正悄悄改变着AI的模样。

AI的“胃口”到底有许多巨大?数据越许多, 模型越有力

2020年1月,约翰斯·霍普金斯巨大学的理论物理学家Jared Kaplan带着团队发表了一篇论文,无意中为AI训练数据定下了“规模至上”的基调。他们找到,巨大语言模型的性能与训练数据的规模呈正相关——数据量越巨大,模型对语言的搞懂、生成能力就越有力。这玩意儿结论就像给硅谷巨大厂打了一剂有力心针,一场“数据囤积战”就此拉开序幕。

你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!

OpenAI率先尝到甜头。2020年11月推出的GPT-3, 靠着约3000亿个token的数据训练,展现出了惊人的文本生成能力,能写诗、编代码、写文章,甚至模仿不同人的语气。但很迅速,这玩意儿数据规模就显得“不够看”了。2022年, DeepMind的训练数据直接拉到1.4万亿token,而谷歌2023年发布的PaLM 2更是达到3.6万亿token——这相当于牛津巨大学博德利图书馆自1602年以来收集手稿数量的两倍。数据量的疯狂增加远,背后是AI模型对“更许多”的无限渴望。

暗地武器:悄悄啃光100万细小时YouTube视频

为了凑够训练数据,OpenAI差不离把互联网翻了个底朝天。其中最“骚”的操作, 莫过于利用语音识别工具Whisper,悄咪咪转录了超出100万细小时的YouTube视频。连总裁Greg Brockman都亲自下场参与数据收集, 从播客到有声读物,从教学视频到用户评论,只要能提取文本,通通打包带走。这些个视频里兴许藏着你的家里聚会片段、 旅行vlog,甚至是深厚夜发牢骚的独白——你以为只是上传了个视频,其实成了AI的“免费教材”。

谷歌也不甘示没劲:连Google Docs里的文字都不放过

OpenAI能“白嫖”YouTube,谷歌天然也不遑许多让。作为全球最巨大的视频平台和文档服务商,谷歌手握的数据材料堪称恐怖。2023年6月, 谷歌的王法部门一下子要求隐私团队修改服务条款,悄悄 了公司对消费者数据的用权限——新鲜条款允许谷歌利用Google Docs、Google Sheets里的数十亿文字数据,开发包括Bard、Cloud AI在内的AI产品。更绝的是他们选择在7月发布新鲜条款,基本上原因是“巨大家的注意力都在虚假期上”,这操作,懂的都懂。

陈上年纪数据一下子值钱了:Photobucket的逆袭

在硅谷巨大厂的疯狂抢购下一些早已边缘化的数据源一下子“咸鱼翻身”。图像托管网站Photobucket就是最典型的例子。在2000年代的巅峰期,它拥有7000万用户,人们把照片、视频往上面堆,就像往老仓库里塞杂物。但因为Instagram、 Google Photos的兴起,Photobucket一点点被遗忘,用户数骤降到200万。谁能想到, 2024年,这些个陈上年纪数据一下子成了“香饽饽”——据粗略估摸着,它的数据值钱兴许高大达数十亿美元。

更夸张的是买家们的胃口巨大得惊人。有数据商透露,自己想买超出10亿个视频,而Photobucket的库存根本不够。于是 硅谷出现了一群“数据掮客”,专门从各种凉门渠道收购数据:从捕快手里买犯法现场照片,从医学生那里搞手术视频,甚至从自在摄影师手中买冲突影像。这些个数据经过脱敏、 标注后打包卖给巨大厂,一张图片1到2美元,短暂视频2到4美元,长远片每细小时能卖100到300美元——你的老自拍,兴许就躺在某个交容易清单里价钱还不矮小。

数据经纪人:靠“卖隐私”年入数十亿的灰色产业

Photobucket的走红,让一个新鲜兴行业——数据经纪人彻底火了。像Defined.ai这样的公司,已经把内容卖给了谷歌、Meta、苹果、亚马逊、微柔软等许多家巨大厂。他们构建了一个庞巨大的数据交容易网络:从GitHub扒代码, 从Quizlet抄考试题,从播客平台转录音频……只要能训练AI,啥数据都要。

这些个数据的价钱五花八门:图片1到2美元, 个个视频超出1美元,文本每字0.001美元,甚至裸体图像基本上原因是需要后期处理,能卖5到7美元。而数据全部者能拿到总交容易额的20%到30%——也就是说 你一张无意中上传的照片,兴许正在为别人发明获利。更讽刺的是 打听看得出来用户其实愿意每月许多付1美元,让自己的数据不被第三方用,但巨大厂明摆着没把这点放在心上。

数据抢购背后:隐私泄露与AI偏见的双沉危机

巨大厂们砸钱抢数据, 看似是为了训练更优良的AI,但背后藏着两个致命问题:隐私泄露和算法偏见。2024年, Meta的AI图像生成工具就闹了个巨大笑话——当用户输入“亚洲男人和白人妻子”“亚洲女人和白人丈夫”等prompt时系统要么直接不要,要么生成东亚人穿旗袍/和服、白人缺席的离谱画面。网友吐槽:“这AI是不是活在20世纪的刻板印象里?”

更吓人的是AI会“反刍”训练数据。有用户找到, ChatGPT会逐字输出纽约时报的文章段落,DALL-E会生成带Getty Images水印的图片,甚至有人用AI生成了陌生男子的自拍照——这意味着,你的私密照片、聊天记录,兴许被AI原样吐出来而你对此毫不知情。OpenAI虽然声称“彻头彻尾正规”, 但版权诉讼早已排起了长远队;Getty Images更是指责Stability AI“肆无忌惮地侵犯知识产权”,这场数据争夺战,正在把巨大厂推向王法和舆论的风口浪尖。

数据荒逼近:2026年, AI兴许会“饿死”

更令人绝望的是数据兴许不够用了。Epoch研究研究所的研究研究看得出来 到2026年,手艺公司很兴许耗尽互联网上全部的高大质量数据——AI消耗数据的速度,远远超出了人类生成数据的速度。就像一个学生读书速度太迅速,图书馆的书很迅速就被读完了。CEO Sam Altman早就预言:“AI终究会消耗完互联网上全部可用的数据材料。”

为了解决数据荒,巨大厂们开头盯上“合成数据”——让AI自己生成数据来训练自己。OpenAI尝试让两个AI模型协作, 一个生成数据,一个评估质量;Altman更是豪言:“只要跨过合成数据的关键阈值,一切问题都将迎刃而解。”但前OpenAI研究研究员Jeff Clune泼了凉水:“如果只依赖合成数据, AI就像在丛林里迷路的探险者,兴许永远找不到正确的方向。”毕竟AI生成的数据,本质上还是它自己的“偏见循环”,能有许多靠谱,谁也不敢说。

这场争夺战, 没有赢家

硅谷巨大厂砸数十亿美元抢数据,看似是AI进步的必经之路,但代价却是用户的隐私和算法的公平。你的自拍、 聊天记录,兴许在训练AI的一边,埋下了隐私泄露的定时炸弹;而那些个被“刻板印象”污染的AI,正在潜移默化地有力化世间偏见。更讽刺的是即便巨大厂们买光了全部现有数据,2026年的数据荒依然兴许让AI陷入“无米下锅”的困境。

这场数据争夺战, 从一开头就充满了矛盾:巨大厂要数据,要效率,要赚头;用户要隐私,要公平,要平安感。两者之间,似乎总有一条无法逾越的鸿沟。或许, 真实正的问题不在于“怎么获取更许多数据”,而在于“怎么负责任地用数据”——毕竟AI再有力巨大,也不该建立在牺牲隐私和公平的基础上。而你的老照片、老聊天记录,不该只是巨大厂账本上的一个数字,更不该成为AI偏见和隐私泄露的“帮凶”。这场仗,到底该怎么打,或许硅谷巨大厂们,真实的该优良优良想想了。

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/191581.html