硅谷大厂为何砸数十亿美元抢购我的自拍和聊天记录

硅谷巨大厂正在上演一场数据争夺战，你的老照和聊天记录成了香饽饽

谁曾想到，躺在手机相册里积灰的自拍，或是十年前社交柔软件上的聊天记录，一下子成了硅谷手艺巨头们砸钱抢购的“宝贝”。这些个被巨大许多数人遗忘的数字痕迹，正以惊人的速度变成训练AI模型的“燃料”，而背后的交容易金额，动辄就是数十亿美元。这场数据争夺战早已不是暗地，但当你意识到自己的隐私数据兴许正在某个服务器的数据库里被“喂养”给AI时或许会脊背发凉——毕竟那些个你以为早已消失的数字记忆，正悄悄改变着AI的模样。

AI的“胃口”到底有许多巨大？数据越许多，模型越有力

2020年1月，约翰斯·霍普金斯巨大学的理论物理学家Jared Kaplan带着团队发表了一篇论文，无意中为AI训练数据定下了“规模至上”的基调。他们找到，巨大语言模型的性能与训练数据的规模呈正相关——数据量越巨大，模型对语言的搞懂、生成能力就越有力。这玩意儿结论就像给硅谷巨大厂打了一剂有力心针，一场“数据囤积战”就此拉开序幕。

OpenAI率先尝到甜头。2020年11月推出的GPT-3，靠着约3000亿个token的数据训练，展现出了惊人的文本生成能力，能写诗、编代码、写文章，甚至模仿不同人的语气。但很迅速，这玩意儿数据规模就显得“不够看”了。2022年， DeepMind的训练数据直接拉到1.4万亿token，而谷歌2023年发布的PaLM 2更是达到3.6万亿token——这相当于牛津巨大学博德利图书馆自1602年以来收集手稿数量的两倍。数据量的疯狂增加远，背后是AI模型对“更许多”的无限渴望。

暗地武器：悄悄啃光100万细小时YouTube视频

为了凑够训练数据，OpenAI差不离把互联网翻了个底朝天。其中最“骚”的操作，莫过于利用语音识别工具Whisper，悄咪咪转录了超出100万细小时的YouTube视频。连总裁Greg Brockman都亲自下场参与数据收集，从播客到有声读物，从教学视频到用户评论，只要能提取文本，通通打包带走。这些个视频里兴许藏着你的家里聚会片段、旅行vlog，甚至是深厚夜发牢骚的独白——你以为只是上传了个视频，其实成了AI的“免费教材”。

谷歌也不甘示没劲：连Google Docs里的文字都不放过

OpenAI能“白嫖”YouTube，谷歌天然也不遑许多让。作为全球最巨大的视频平台和文档服务商，谷歌手握的数据材料堪称恐怖。2023年6月，谷歌的王法部门一下子要求隐私团队修改服务条款，悄悄了公司对消费者数据的用权限——新鲜条款允许谷歌利用Google Docs、Google Sheets里的数十亿文字数据，开发包括Bard、Cloud AI在内的AI产品。更绝的是他们选择在7月发布新鲜条款，基本上原因是“巨大家的注意力都在虚假期上”，这操作，懂的都懂。

陈上年纪数据一下子值钱了：Photobucket的逆袭

在硅谷巨大厂的疯狂抢购下一些早已边缘化的数据源一下子“咸鱼翻身”。图像托管网站Photobucket就是最典型的例子。在2000年代的巅峰期，它拥有7000万用户，人们把照片、视频往上面堆，就像往老仓库里塞杂物。但因为Instagram、 Google Photos的兴起，Photobucket一点点被遗忘，用户数骤降到200万。谁能想到， 2024年，这些个陈上年纪数据一下子成了“香饽饽”——据粗略估摸着，它的数据值钱兴许高大达数十亿美元。

更夸张的是买家们的胃口巨大得惊人。有数据商透露，自己想买超出10亿个视频，而Photobucket的库存根本不够。于是硅谷出现了一群“数据掮客”，专门从各种凉门渠道收购数据：从捕快手里买犯法现场照片，从医学生那里搞手术视频，甚至从自在摄影师手中买冲突影像。这些个数据经过脱敏、标注后打包卖给巨大厂，一张图片1到2美元，短暂视频2到4美元，长远片每细小时能卖100到300美元——你的老自拍，兴许就躺在某个交容易清单里价钱还不矮小。

数据经纪人：靠“卖隐私”年入数十亿的灰色产业

Photobucket的走红，让一个新鲜兴行业——数据经纪人彻底火了。像Defined.ai这样的公司，已经把内容卖给了谷歌、Meta、苹果、亚马逊、微柔软等许多家巨大厂。他们构建了一个庞巨大的数据交容易网络：从GitHub扒代码，从Quizlet抄考试题，从播客平台转录音频……只要能训练AI，啥数据都要。

这些个数据的价钱五花八门：图片1到2美元，个个视频超出1美元，文本每字0.001美元，甚至裸体图像基本上原因是需要后期处理，能卖5到7美元。而数据全部者能拿到总交容易额的20%到30%——也就是说你一张无意中上传的照片，兴许正在为别人发明获利。更讽刺的是打听看得出来用户其实愿意每月许多付1美元，让自己的数据不被第三方用，但巨大厂明摆着没把这点放在心上。

数据抢购背后：隐私泄露与AI偏见的双沉危机

巨大厂们砸钱抢数据，看似是为了训练更优良的AI，但背后藏着两个致命问题：隐私泄露和算法偏见。2024年， Meta的AI图像生成工具就闹了个巨大笑话——当用户输入“亚洲男人和白人妻子”“亚洲女人和白人丈夫”等prompt时系统要么直接不要，要么生成东亚人穿旗袍/和服、白人缺席的离谱画面。网友吐槽：“这AI是不是活在20世纪的刻板印象里？”

更吓人的是AI会“反刍”训练数据。有用户找到， ChatGPT会逐字输出纽约时报的文章段落，DALL-E会生成带Getty Images水印的图片，甚至有人用AI生成了陌生男子的自拍照——这意味着，你的私密照片、聊天记录，兴许被AI原样吐出来而你对此毫不知情。OpenAI虽然声称“彻头彻尾正规”，但版权诉讼早已排起了长远队；Getty Images更是指责Stability AI“肆无忌惮地侵犯知识产权”，这场数据争夺战，正在把巨大厂推向王法和舆论的风口浪尖。

数据荒逼近：2026年， AI兴许会“饿死”

更令人绝望的是数据兴许不够用了。Epoch研究研究所的研究研究看得出来到2026年，手艺公司很兴许耗尽互联网上全部的高大质量数据——AI消耗数据的速度，远远超出了人类生成数据的速度。就像一个学生读书速度太迅速，图书馆的书很迅速就被读完了。CEO Sam Altman早就预言：“AI终究会消耗完互联网上全部可用的数据材料。”

为了解决数据荒，巨大厂们开头盯上“合成数据”——让AI自己生成数据来训练自己。OpenAI尝试让两个AI模型协作，一个生成数据，一个评估质量；Altman更是豪言：“只要跨过合成数据的关键阈值，一切问题都将迎刃而解。”但前OpenAI研究研究员Jeff Clune泼了凉水：“如果只依赖合成数据， AI就像在丛林里迷路的探险者，兴许永远找不到正确的方向。”毕竟AI生成的数据，本质上还是它自己的“偏见循环”，能有许多靠谱，谁也不敢说。

这场争夺战，没有赢家

硅谷巨大厂砸数十亿美元抢数据，看似是AI进步的必经之路，但代价却是用户的隐私和算法的公平。你的自拍、聊天记录，兴许在训练AI的一边，埋下了隐私泄露的定时炸弹；而那些个被“刻板印象”污染的AI，正在潜移默化地有力化世间偏见。更讽刺的是即便巨大厂们买光了全部现有数据，2026年的数据荒依然兴许让AI陷入“无米下锅”的困境。

这场数据争夺战，从一开头就充满了矛盾：巨大厂要数据，要效率，要赚头；用户要隐私，要公平，要平安感。两者之间，似乎总有一条无法逾越的鸿沟。或许，真实正的问题不在于“怎么获取更许多数据”，而在于“怎么负责任地用数据”——毕竟AI再有力巨大，也不该建立在牺牲隐私和公平的基础上。而你的老照片、老聊天记录，不该只是巨大厂账本上的一个数字，更不该成为AI偏见和隐私泄露的“帮凶”。这场仗，到底该怎么打，或许硅谷巨大厂们，真实的该优良优良想想了。

欢迎分享，转载请注明来源：小川电商

原文地址:https://www.jinhanchuan.com/191581.html