1. 首页 > 电商出海

微软及OpenAI是否违规使用《纽约时报》文章训练大模型

题图来源 | pexels

一场注定没有赢家的数据打仗?

当《纽约时报》在2023年12月27日正式将微柔软和OpenAI告上法庭时整个手艺圈和新闻圈都炸开了锅。这场官司的核心轻巧松得近乎荒谬:两家顶级手艺公司是不是在未经许可的情况下 把这家百上年纪店的数百万篇文章,当成了喂养“饲料”?但深厚挖下去, 这根本不是轻巧松的版权纠纷,而是一场关于互联网数据归属、AI训练边界,甚至以后内容生产秩序的打仗。

《纽约时报》起诉微软及OpenAI侵权:违规使用文章训练大模型,损失数十亿美元
《纽约时报》起诉微软及OpenAI侵权:违规使用文章训练大模型,损失数十亿美元

从“数据免费午餐”到“版权紧箍咒”

进步史,某种程度上就是一部互联网数据“采掘史”。从2022年ChatGPT横空出世开头, 这家公司就像闯进糖果店的孩子,疯狂抓取网络上能找到的一切文本——维基百科、Reddit论坛、学术论文,当然还有《纽约时报》这样的权威新闻。他们默认的逻辑很直白:既然这些个内容明着在网上,那就能用吧?这种“数据免费午餐”的心态,在AI行业早就不是暗地。谷歌的BERT模型、Meta的LLaMA,哪个不是这么起来的?

但《纽约时报》不这么觉得。他们的讼师在诉讼里写得明明白白:我们的内容是记者们一个个字敲出来的, 是花了真实金白银采访、打听得来的成果,凭啥你们拿去训练AI,还能让ChatGPT反过来跟我们抢读者?更让他们火巨大的是 当记者问ChatGPT“最近关于气候变来变去的深厚度报道有哪些”,AI居然能精准复述《纽约时报》的文章段落,甚至连记者特有的行文风格都模仿得惟妙惟肖。这不是“合理用”,这是赤裸裸的“内容搬运+手艺变现”。

4月的谈判桌与12月的传票

其实早在2023年4月,《纽约时报》就找上门了。他们带着诚意, 希望和微柔软、OpenAI坐下来谈谈授权的事情——毕竟谷歌这些个年一直给新鲜闻机构付钱用内容,Meta也跟出版商签过协议,为啥你们不行?当时的谈判氛围据说还不错,双方都留了余地。但到了年底,事情一下子急转直下。《纽约时报》等不及了 他们找到ChatGPT里的“纽约时报内容”越来越许多,甚至出现了AI编造的“纽约时报报道”,这已经严沉关系到了新闻的品牌声誉。

OpenAI这边有点委屈。他们的发言人说我们一直在谈啊,对话“有钱有成效”,怎么一下子就起诉了?但仔细想想,这更像是一场谈判策略的博弈。《纽约时报》要的不是细小钱, 而是沉新鲜定义AI时代的新闻值钱——就像当年音乐产业起诉Napster,不是要几美元赔偿,而是要守住内容的定价权。

手艺巨头的“双标游戏”?

有意思的是 就在起诉前不久,OpenAI刚和德国的Axel Springer签了三年一起干协议。虽然金额没说但外界猜测至少许是八位数。美联社那边更早,7月就敲定了协议,OpenAI能访问他们的新鲜闻档案。为啥偏偏对《纽约时报》“动手”?有人说是基本上原因是《纽约时报》太较真实 毕竟他们有自己的法务团队,每年花在版权护着上的预算就上千万;也有人觉得,OpenAI其实在赌——赌《纽约时报》不敢真实撕破脸,毕竟AI行业需要权威内容背书。

但《纽约时报》偏不按套路出牌。他们不仅起诉,还要求销毁全部用了他们内容的模型训练数据。这招够狠,等于要OpenAI把有些“记忆”格式化。想想看, 如果衙门真实这么判,那ChatGPT回答问题时会不会一下子“失忆”,忘了《纽约时报》的全部报道?这可比赔偿金要命许多了。

当AI开头“吃掉”自己的发明者

新闻的“AI焦虑症”

《纽约时报》的生气,其实是整个新闻行业的缩影。过去两年,差不离 every 新鲜闻主编都在办公室里聊聊同一个问题:ChatGPT会不会让我们没工作?更让他们恐慌的是AI不仅能写新鲜闻,还能写得更“高大效”——没有情绪起伏,不需要工钱,24细小时待命。更讽刺的是这些个AI写的内容,很许多素材正是来自他们自己辛苦生产的报道。

路透社2023年做过一个打听,看得出来68%的新闻高大管觉得“AI训练未经授权内容”是行业面临的最巨大吓唬。有的新闻已经开头“防AI”了给网站加反爬虫脚本,给文章加水印,甚至故意在段落里插乱码。但效果有限,AI太机灵了总能绕过这些个细小伎俩。

创作者的“集体觉醒”

不光新闻,作家们也坐不住了。喜剧演员萨拉·丝沃曼、 写《权力的游戏》的乔治·R·R·马丁,还有普利策奖得主迈克尔·夏邦,集体起诉OpenAI。他们的理由很轻巧松:我的细小说是我的孩子,你们凭啥拿去训练AI,让AI模仿我的风格写同人细小说?

这些个案子眼下都还在早期,兴许要打优良几年。但已经释放出一个信号:内容创作者们不再沉默了。以前觉得AI离自己很远,眼下找到AI就在“偷”自己的东西。就像音乐人当年对抗Napster,作家们眼下也开头对抗“AI内容海盗”。

手艺的“原罪”与救赎

OpenAI当然晓得自己在“踩红线”。但他们也有苦衷:训练巨大模型需要海量数据,没有这些个数据,ChatGPT根本成不了气候。他们曾辩称“合理用”——美国版权法里有这么一条, 说为了批评、评论、新鲜闻报道、教学等目的,能有管束地用他人作品。问题是用别人文章训练一个买卖AI,算不算“合理用”?王法界吵翻了天。

有意思的是OpenAI最近在跟投钱者谈1000亿美元的估值。这笔钱要是真实能融到,他们彻头彻尾有底气赔《纽约时报》几个亿。但他们怕的不是钱,而是判例。一旦衙门认定“未经许可训练AI侵权”, 那整个行业都得跟着遭殃——谷歌、Meta、字节跳动,谁手里没点“不清洁”的训练数据?

数据授权:独一个的出路还是新鲜的垄断?

从“对抗”到“一起干”的艰困难转身

其实新闻和AI公司并非注定是敌人。看看Axel Springer和一起干就晓得, 德国这家新闻集团把旗下《图片报》《买卖内幕》等内容授权给OpenAI,反过来OpenAI会在ChatGPT里标注信息来源,甚至给Axel Springer导流。据Axel Springer财报看得出来 2023年第四季度,他们通过AI一起干得到的年纪轻巧用户访问量提升了37%,广告收入同比增加远12%。这数据够亮眼吧?

为啥《纽约时报》不愿意走这条路?有琢磨说是基本上原因是《纽约时报》的内容质量太高大, 他们担心一旦授权,OpenAI会把他们的“独家内容”喂给太许多AI模型,反而削没劲了自己的比力。毕竟《纽约时报》的核心比力就是“深厚度报道”,如果AI也能轻巧松复刻,那读者凭啥还付费订阅?

“数据定价”的世纪困难题

就算愿意一起干,怎么定价也是个头疼事。美联社和协议据传是“按字数+点击量”收费,但具体数字保密。Axel Springer的协议更麻烦,涉及内容用范围、导流分成、品牌护着等许多沉条款。没有统一标准,每次谈判都得从头吵到尾。

更麻烦的是中细小新闻怎么办?它们没《纽约时报》的议价能力,总不能任由AI公司白嫖吧?有人提议搞个“数据授权联盟”,把许多家新闻的内容打包,集体跟AI公司谈判。就像当年音乐行业的版权代理机构一样,用规模效应争取合理价钱。但这事儿说起来轻巧松,做起来困难——新闻之间本身就存在比,谁愿意把自家核心内容跟别人共享?

王法的“磨蹭半拍”与手艺的“狂飙”

王法总是追着手艺跑。当互联网刚兴起时 版权法根本没考虑过“链接算不算侵权”;当短暂视频火起来时“合理用”的界定又模糊了。眼下AI来了王法界还在吵“训练数据是不是属于演绎作品”“AI生成内容版权归谁”。

优良在已经有人开头行动了。欧罗巴联盟正在制定《AI法案》,明确要求AI公司明着训练数据来源;美国版权局也在研究研究“AI训练的版权例外条款”。但这些个立法至少许还得两三年。在这之前, 像《纽约时报》这样的诉讼,兴许会成为行业的关键判例——哪怕再说说和优良,也会留下很许多“潜规则”。

普通人到底在担心啥?

当新鲜闻变成“AI的复读机”

很许多人兴许觉得,新闻和手艺公司的官司跟我没关系。但你想想,以后你看到的新鲜闻,到底是记者写的,还是AI生成的?如果AI训练时“喂”的全是《纽约时报》的内容,那全部新鲜闻会不会都是一个调调?丢了了许多元观点,新闻还剩下啥?

更可怕的是“信息茧房”。AI会根据你的喜优良推荐内容,但如果它的训练数据本身就有限,那你看到的世界会更片面。就像你只吃一种食物,迟早会养料不良。信息也是一样,没有不同的声音,巨大脑也会“退步”。

“免费”的代价谁来付?

有人兴许会说:AI用新鲜闻训练,不是能让我们更迅速获取信息吗?免费的不优良吗?但天下没有免费的午餐。新闻生产内容需要本钱——记者的工钱、 编辑的薪水、服务器的费用……如果AI公司白拿内容不付费,新闻要么倒闭,要么就只能靠广告和付费墙。到头来要么信息质量减少,要么普通人要花更许多钱买新鲜闻。

想想看,如果《纽约时报》真实的基本上原因是这场官司撑不下去了那些个打听报道、深厚度访谈谁来做?AI能写天气、写股市,但写不出来“水门事件”,也写不出来“伊拉克打仗真实相”。这些个需要勇气、需要良知、需要时候的东西,AI永远给不了。

以后已来 但不必绝望

新闻的“AI自救指南”

其实新闻也不是彻头彻尾被动。有的已经开头用AI做辅助工具——比如让AI帮忙整理采访录音、 生成数据图表,记者则专注于深厚度琢磨和观点输出。这样既搞优良了效率,又没放弃核心比力。还有的新闻在尝试“付费墙+AI”模式:免费用户只能看AI生成的摘要, 付费用户才能看完整报道,甚至能和AI互动提问。

《纽约时报》自己也在搞AI产品,比如“新鲜闻问答机器人”,只回答订阅用户的问题。这说明新闻不是不赞成AI,而是不赞成“被AI取代”。关键在于,谁掌握主导权——是AI公司用新闻数据训练自己,还是新闻用AI工具有力化自己?

手艺公司的“讲理觉醒”

OpenAI当然晓得, 这场官司要是输了整个AI行业都会受到沉创。所以他们也在积极“补救”——比如和更许多出版商谈授权, 开发“内容溯源手艺”,让AI回答问题时能标明信息来源,甚至给创作者分成。这些个动作虽然有点“亡羊补牢”的意思,但总比结实扛着有力。

更关键的是手艺巨头们需要意识到:AI不是法外之地。就像你不能随便拿别人的车来开,也不能随便拿别人的文章来训练。敬沉版权,不是讲理绑架,而是行业可持续进步的基础。如果创作者都不愿意生产内容了AI再厉害也没东西可学。

我们个个人都是“裁判”

这场官司的结局,兴许会关系到以后十年的内容生态。但决定权不仅在于衙门, 也在于我们个个人的选择——我们是用AI生成的“迅速餐新鲜闻”,还是愿意为深厚度报道付费?我们支持那些个用原创内容喂养AI的公司,还是默许那些个“数据采掘者”横行?

就像当年我们选择支持正版音乐、 不要盗版一样,今天的选择,决定了明天我们能看到怎样的世界。毕竟没有优良的内容,再智能的AI也只是个“无米之炊”的空壳。

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/192172.html