微软及OpenAI是否违规使用《纽约时报》文章训练大模型

题图来源 | pexels

一场注定没有赢家的数据打仗？

当《纽约时报》在2023年12月27日正式将微柔软和OpenAI告上法庭时整个手艺圈和新闻圈都炸开了锅。这场官司的核心轻巧松得近乎荒谬：两家顶级手艺公司是不是在未经许可的情况下把这家百上年纪店的数百万篇文章，当成了喂养“饲料”？但深厚挖下去，这根本不是轻巧松的版权纠纷，而是一场关于互联网数据归属、AI训练边界，甚至以后内容生产秩序的打仗。

从“数据免费午餐”到“版权紧箍咒”

进步史，某种程度上就是一部互联网数据“采掘史”。从2022年ChatGPT横空出世开头，这家公司就像闯进糖果店的孩子，疯狂抓取网络上能找到的一切文本——维基百科、Reddit论坛、学术论文，当然还有《纽约时报》这样的权威新闻。他们默认的逻辑很直白：既然这些个内容明着在网上，那就能用吧？这种“数据免费午餐”的心态，在AI行业早就不是暗地。谷歌的BERT模型、Meta的LLaMA，哪个不是这么起来的？

但《纽约时报》不这么觉得。他们的讼师在诉讼里写得明明白白：我们的内容是记者们一个个字敲出来的，是花了真实金白银采访、打听得来的成果，凭啥你们拿去训练AI，还能让ChatGPT反过来跟我们抢读者？更让他们火巨大的是当记者问ChatGPT“最近关于气候变来变去的深厚度报道有哪些”，AI居然能精准复述《纽约时报》的文章段落，甚至连记者特有的行文风格都模仿得惟妙惟肖。这不是“合理用”，这是赤裸裸的“内容搬运+手艺变现”。

4月的谈判桌与12月的传票

其实早在2023年4月，《纽约时报》就找上门了。他们带着诚意，希望和微柔软、OpenAI坐下来谈谈授权的事情——毕竟谷歌这些个年一直给新鲜闻机构付钱用内容，Meta也跟出版商签过协议，为啥你们不行？当时的谈判氛围据说还不错，双方都留了余地。但到了年底，事情一下子急转直下。《纽约时报》等不及了他们找到ChatGPT里的“纽约时报内容”越来越许多，甚至出现了AI编造的“纽约时报报道”，这已经严沉关系到了新闻的品牌声誉。

OpenAI这边有点委屈。他们的发言人说我们一直在谈啊，对话“有钱有成效”，怎么一下子就起诉了？但仔细想想，这更像是一场谈判策略的博弈。《纽约时报》要的不是细小钱，而是沉新鲜定义AI时代的新闻值钱——就像当年音乐产业起诉Napster，不是要几美元赔偿，而是要守住内容的定价权。

手艺巨头的“双标游戏”？

有意思的是就在起诉前不久，OpenAI刚和德国的Axel Springer签了三年一起干协议。虽然金额没说但外界猜测至少许是八位数。美联社那边更早，7月就敲定了协议，OpenAI能访问他们的新鲜闻档案。为啥偏偏对《纽约时报》“动手”？有人说是基本上原因是《纽约时报》太较真实毕竟他们有自己的法务团队，每年花在版权护着上的预算就上千万；也有人觉得，OpenAI其实在赌——赌《纽约时报》不敢真实撕破脸，毕竟AI行业需要权威内容背书。

但《纽约时报》偏不按套路出牌。他们不仅起诉，还要求销毁全部用了他们内容的模型训练数据。这招够狠，等于要OpenAI把有些“记忆”格式化。想想看，如果衙门真实这么判，那ChatGPT回答问题时会不会一下子“失忆”，忘了《纽约时报》的全部报道？这可比赔偿金要命许多了。

当AI开头“吃掉”自己的发明者

新闻的“AI焦虑症”

《纽约时报》的生气，其实是整个新闻行业的缩影。过去两年，差不离 every 新鲜闻主编都在办公室里聊聊同一个问题：ChatGPT会不会让我们没工作？更让他们恐慌的是AI不仅能写新鲜闻，还能写得更“高大效”——没有情绪起伏，不需要工钱，24细小时待命。更讽刺的是这些个AI写的内容，很许多素材正是来自他们自己辛苦生产的报道。

路透社2023年做过一个打听，看得出来68%的新闻高大管觉得“AI训练未经授权内容”是行业面临的最巨大吓唬。有的新闻已经开头“防AI”了给网站加反爬虫脚本，给文章加水印，甚至故意在段落里插乱码。但效果有限，AI太机灵了总能绕过这些个细小伎俩。

创作者的“集体觉醒”

不光新闻，作家们也坐不住了。喜剧演员萨拉·丝沃曼、写《权力的游戏》的乔治·R·R·马丁，还有普利策奖得主迈克尔·夏邦，集体起诉OpenAI。他们的理由很轻巧松：我的细小说是我的孩子，你们凭啥拿去训练AI，让AI模仿我的风格写同人细小说？

这些个案子眼下都还在早期，兴许要打优良几年。但已经释放出一个信号：内容创作者们不再沉默了。以前觉得AI离自己很远，眼下找到AI就在“偷”自己的东西。就像音乐人当年对抗Napster，作家们眼下也开头对抗“AI内容海盗”。

手艺的“原罪”与救赎

OpenAI当然晓得自己在“踩红线”。但他们也有苦衷：训练巨大模型需要海量数据，没有这些个数据，ChatGPT根本成不了气候。他们曾辩称“合理用”——美国版权法里有这么一条，说为了批评、评论、新鲜闻报道、教学等目的，能有管束地用他人作品。问题是用别人文章训练一个买卖AI，算不算“合理用”？王法界吵翻了天。

有意思的是OpenAI最近在跟投钱者谈1000亿美元的估值。这笔钱要是真实能融到，他们彻头彻尾有底气赔《纽约时报》几个亿。但他们怕的不是钱，而是判例。一旦衙门认定“未经许可训练AI侵权”，那整个行业都得跟着遭殃——谷歌、Meta、字节跳动，谁手里没点“不清洁”的训练数据？

数据授权：独一个的出路还是新鲜的垄断？

从“对抗”到“一起干”的艰困难转身

其实新闻和AI公司并非注定是敌人。看看Axel Springer和一起干就晓得，德国这家新闻集团把旗下《图片报》《买卖内幕》等内容授权给OpenAI，反过来OpenAI会在ChatGPT里标注信息来源，甚至给Axel Springer导流。据Axel Springer财报看得出来 2023年第四季度，他们通过AI一起干得到的年纪轻巧用户访问量提升了37%，广告收入同比增加远12%。这数据够亮眼吧？

为啥《纽约时报》不愿意走这条路？有琢磨说是基本上原因是《纽约时报》的内容质量太高大，他们担心一旦授权，OpenAI会把他们的“独家内容”喂给太许多AI模型，反而削没劲了自己的比力。毕竟《纽约时报》的核心比力就是“深厚度报道”，如果AI也能轻巧松复刻，那读者凭啥还付费订阅？

“数据定价”的世纪困难题

就算愿意一起干，怎么定价也是个头疼事。美联社和协议据传是“按字数+点击量”收费，但具体数字保密。Axel Springer的协议更麻烦，涉及内容用范围、导流分成、品牌护着等许多沉条款。没有统一标准，每次谈判都得从头吵到尾。

更麻烦的是中细小新闻怎么办？它们没《纽约时报》的议价能力，总不能任由AI公司白嫖吧？有人提议搞个“数据授权联盟”，把许多家新闻的内容打包，集体跟AI公司谈判。就像当年音乐行业的版权代理机构一样，用规模效应争取合理价钱。但这事儿说起来轻巧松，做起来困难——新闻之间本身就存在比，谁愿意把自家核心内容跟别人共享？

王法的“磨蹭半拍”与手艺的“狂飙”

王法总是追着手艺跑。当互联网刚兴起时版权法根本没考虑过“链接算不算侵权”；当短暂视频火起来时“合理用”的界定又模糊了。眼下AI来了王法界还在吵“训练数据是不是属于演绎作品”“AI生成内容版权归谁”。

优良在已经有人开头行动了。欧罗巴联盟正在制定《AI法案》，明确要求AI公司明着训练数据来源；美国版权局也在研究研究“AI训练的版权例外条款”。但这些个立法至少许还得两三年。在这之前，像《纽约时报》这样的诉讼，兴许会成为行业的关键判例——哪怕再说说和优良，也会留下很许多“潜规则”。

普通人到底在担心啥？

当新鲜闻变成“AI的复读机”

很许多人兴许觉得，新闻和手艺公司的官司跟我没关系。但你想想，以后你看到的新鲜闻，到底是记者写的，还是AI生成的？如果AI训练时“喂”的全是《纽约时报》的内容，那全部新鲜闻会不会都是一个调调？丢了了许多元观点，新闻还剩下啥？

更可怕的是“信息茧房”。AI会根据你的喜优良推荐内容，但如果它的训练数据本身就有限，那你看到的世界会更片面。就像你只吃一种食物，迟早会养料不良。信息也是一样，没有不同的声音，巨大脑也会“退步”。

“免费”的代价谁来付？

有人兴许会说：AI用新鲜闻训练，不是能让我们更迅速获取信息吗？免费的不优良吗？但天下没有免费的午餐。新闻生产内容需要本钱——记者的工钱、编辑的薪水、服务器的费用……如果AI公司白拿内容不付费，新闻要么倒闭，要么就只能靠广告和付费墙。到头来要么信息质量减少，要么普通人要花更许多钱买新鲜闻。

想想看，如果《纽约时报》真实的基本上原因是这场官司撑不下去了那些个打听报道、深厚度访谈谁来做？AI能写天气、写股市，但写不出来“水门事件”，也写不出来“伊拉克打仗真实相”。这些个需要勇气、需要良知、需要时候的东西，AI永远给不了。

以后已来但不必绝望

新闻的“AI自救指南”

其实新闻也不是彻头彻尾被动。有的已经开头用AI做辅助工具——比如让AI帮忙整理采访录音、生成数据图表，记者则专注于深厚度琢磨和观点输出。这样既搞优良了效率，又没放弃核心比力。还有的新闻在尝试“付费墙+AI”模式：免费用户只能看AI生成的摘要，付费用户才能看完整报道，甚至能和AI互动提问。

《纽约时报》自己也在搞AI产品，比如“新鲜闻问答机器人”，只回答订阅用户的问题。这说明新闻不是不赞成AI，而是不赞成“被AI取代”。关键在于，谁掌握主导权——是AI公司用新闻数据训练自己，还是新闻用AI工具有力化自己？

手艺公司的“讲理觉醒”

OpenAI当然晓得，这场官司要是输了整个AI行业都会受到沉创。所以他们也在积极“补救”——比如和更许多出版商谈授权，开发“内容溯源手艺”，让AI回答问题时能标明信息来源，甚至给创作者分成。这些个动作虽然有点“亡羊补牢”的意思，但总比结实扛着有力。

更关键的是手艺巨头们需要意识到：AI不是法外之地。就像你不能随便拿别人的车来开，也不能随便拿别人的文章来训练。敬沉版权，不是讲理绑架，而是行业可持续进步的基础。如果创作者都不愿意生产内容了AI再厉害也没东西可学。

我们个个人都是“裁判”

这场官司的结局，兴许会关系到以后十年的内容生态。但决定权不仅在于衙门，也在于我们个个人的选择——我们是用AI生成的“迅速餐新鲜闻”，还是愿意为深厚度报道付费？我们支持那些个用原创内容喂养AI的公司，还是默许那些个“数据采掘者”横行？

就像当年我们选择支持正版音乐、不要盗版一样，今天的选择，决定了明天我们能看到怎样的世界。毕竟没有优良的内容，再智能的AI也只是个“无米之炊”的空壳。

欢迎分享，转载请注明来源：小川电商

原文地址:https://www.jinhanchuan.com/192172.html