主要内容
一项新的许可标准旨在让网络发布者设定 AI 系统开发者使用其作品的条款。周三,Reddit、雅虎、Medium、Quora 和 People Inc 等主要品牌宣布支持真正简单许可(RSL),这是一种开放内容许可标准,使发布者能够概述机器人应如何付费抓取其网站用于 AI 训练数据。他们希望集体行动能让 AI 公司加入。
RSL 标准基于 robots.txt 协议,该协议长期以来允许发布者向网络爬虫提供关于其网站哪些部分可以访问和不可访问的指令。但现在,网站不仅可以对特定机器人说“是”或“否”,还可以在 robots.txt 文件中添加许可和版税条款。他们还可以将条款嵌入在线书籍、视频和训练数据集中,以获得补偿。
RSL 标准背后是一个新成立的权利组织,称为 RSL 集体,由真正简单联合(RSS)标准的联合创始人、前 CardSpring CEO Eckart Walther 和 IAC 出版和 Ask.com 的前 CEO Doug Leeds 领导。“目标是为网络创建一个新的可扩展商业模式,”Walther 告诉 The Verge。“RSL 采用了一些早期的 RSS 理念,并为整个互联网创建了一个新的层,在其中定义了许可权和补偿权。”
RSL 标准支持多种许可模式,包括免费模式。网站所有者可以要求 AI 公司通过 RSL 标准支付订阅费或分配每次爬取费用,公司每次 AI 机器人爬取网站时都必须支付。他们还可以实施每次推理费用,允许网站在 AI 模型引用其作品生成响应时获得补偿。用于其他目的(如存档或搜索引擎收录)的爬虫可以照常进行。
几家媒体公司,包括 The Verge 的母公司 Vox Media、《华尔街日报》的所有者新闻集团和《纽约时报》,已与 OpenAI 和亚马逊等个别 AI 公司达成许可协议。但 RSL 集体旨在简化这一过程,允许任何网站所有者或创作者为其工作获得报酬,而无需谈判单独的交易。
像许多标准一样,RSL 的成功取决于主要行业参与者——在这种情况下是 AI 公司——接受它。AI 模型构建者一再被指责忽视网站的 robots.txt 文件,而且如果没有他们的参与,就没有简单的方法来统计推理费用等。RSL 集体押注,将一些最大的网络发布者聚集在一起将使采用该标准更具吸引力。
“我们的工作是出去让一大群人说这符合你的利益,既高效,因为你可以一次性与所有人谈判,又合法,因为如果你不这样做,你就会同时侵犯所有人,”Leeds 说。
与 Cloudflare 已经提供的“按次爬取付费”系统不同,RSL 标准本身也不能阻止机器人访问网站。RSL 集体目前正在与内容交付网络 Fastly 合作,根据 AI 机器人是否同意许可内容来允许其进入网站。Leeds 说,Fastly 是“俱乐部门口的门卫,除非他们有正确的 ID,否则不会让人们进入。RSL 正在颁发 ID。所以我们说,‘嘿,你已同意许可此内容,’Fastly 会说,‘进来吧,你的 ID 检查通过。’”
不使用 Fastly 的发布者仍然可以要求 AI 公司许可其内容,但在更多提供商构建解决方案之前,他们将无法阻止 AI 爬虫。Leeds 认为,RSL 集体也可以合法执行许可,因为他说“集体权利组织的所有参与者都参与任何侵权行为的执行”,从而分散法律成本。他将该系统与现有的数字权利组织进行了比较,如音乐行业的组织。