AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

首页 热门新闻 最新资讯

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

热搜大全 2024-01-17

一个单词,让 AI 生成堪比电影截图的钢铁侠?

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

以下这组图,你能分辨出哪些是电影截图,哪些是 AI 生成的图像吗?

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 生成图像与原电影截图对比(图源:X)

答案揭晓——左边一组是电影《复仇者联盟 3:无限战争》中的画面,右边一组则是由 AI 图像生成器 Midjourney V6 生成的,使用的提示词也很简单:无限战争灭霸,2018,电影截图,电影场景,4K,蓝光,16:9,V6。

智东西 1 月 16 日报道,近日,生成式 AI 产品中的" 视觉剽窃 " 问题引发热议。许多用户发现,只需输入类似" 某电影中的截图 "" 来自某作品的场景 "等提示词,Midjourney V6、DALL-E 3 等图像生成器就会生成极为还原的图像,达到以假乱真的程度。

为了研究这一现象,AI 科学家加里 · 马库斯(Gary Marcus)与电影概念艺术家里德 · 索森(Reid Southen)进行了大量实验,并将结果整理成文章,于 1 月 7 日发表在在工程和科学杂志 IEEE Spectrum 上。

实验结果显示,Midjourney V6 与 DALL-E 3 都存在大量的视觉剽窃现象,且用户无需使用具有明确指向性的提示词,甚至只输入 " 电影截图 " 这样一个简单的单词,便可生成堪比原作的图像。

那么,AI 生成的图像与原始图像究竟有多相似?使用什么样的提示词能够得到这些图像?作为开发商,Midjourney 和 OpenAI 对此现象采取了什么样的做法?有没有什么方法可能规避这一问题?马库斯和索森在文章中详细解答了这些问题。

01. 无需指向性提示即可生成电影画面,卡通、三维、真实场景都能复制

去年 12 月 21 日,Midjourney 开启 V6 模型的 Alpha 版本公测,用户可在设置的下拉菜单中选择 V6 或在提示词后添加 "--v 6.0" 使用。

然而发布后没多久,就有多名用户发现了该版本的侵权问题。设计师多根 · 乌拉尔(Dogan Ural)在社交平台 X 发帖称,只需输入 " 蒙娜丽莎 ",Midjourney V6 就会生成几乎与原作品一致的图像,而这一现象在上一版本 V5.2 中还不存在

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲蒙娜丽莎原作与 Midjourney V6、V5.2 生成图像对比(图源:X)

在 IEEE 上发表的文章中,作者对 Midjourney V6 版本进行了三轮实验。结果表明,无论是直接使用电影作品名称,或是间接描述出影视角色的特征,还是完全不带有任何指向性提示, Midjourney V6 都能生成与原始作品相似的画面,且卡通形象、三维动画、真实场景都能无差别复制。

1、使用与商业电影相关的直接提示

在第一轮实验中,索森首先使用了带有电影名称或相关关键词的提示词。

例如下图所使用的提示词为:给我看看 2018 年的电影《复仇者联盟:无限战争》中的截图,电影进行到一半,2:1,V6,原始模式。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 生成图像(右)与原电影截图(左)对比(图源:IEEE)

如果说单人画面的 " 雷同 " 还存在偶然性,那么上图的群像画面中,连每个人物的位置都几乎一致,就很难用 " 纯属巧合 " 来解释了。

下面这组图的一致性则更为夸张,所使用的提示词为:《沙丘》电影截图,2021,《沙丘》电影预告片,16:9,V6。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 生成图像(右)与原电影截图(左)对比(图源:X)

人物、背景,到整体画面的色彩基调,甚至被风吹动的发丝走向,都达到了惊人的相似度。

模糊的提示词也没能影响 Midjourney 的 " 复制粘贴 " 行为,如下图用到的提示词为:斯嘉丽 · 约翰逊,《黑寡妇》战场,2021,电影截图,电影场景,官方,16:9,V6。

虽然索森在提示词中拼错了约翰逊的名字,把 "Johansson" 写成了 "Johannsen",但生成的图像仍与电影截图非常相似。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 生成图像(右)与原电影截图(左)对比(图源:IEEE)

除了电影以外,Midjourney 也能复制游戏中的场景。下图的提示词为:《最后生还者 2》,艾莉在树前抱着吉他,16:9,V6。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 生成图像(右)与游戏截图(左)对比(图源:IEEE)

2、不提及作品名称,采用间接提示

在第一轮实验中,作者直接引用了影视作品名称,这表明 Midjourney 会在用户知情的情况下,创建受版权保护的内容。这也引发了下一个问题:如果用户没有刻意去创建版权内容,是否可能会在无意中侵权?

于是在第二轮实验中,马库斯与索森避免在提示词中直接提到作品名称,而是采用间接提示来测试。

下图的提示词为:拿着光剑的黑色盔甲,电影截图,16:9,V6。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 生成黑武士形象(图源:IEEE)

提示词中并没有明确提到电影名称,但 Midjourney 生成的角色形象和《星球大战》中的反派角色黑武士达斯 · 维达(Darth Vader)几乎完全吻合。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲《星球大战》中的黑武士形象(图源:官方剧照)

除了真实场景外,Midjourney 也能轻松复制卡通人物的形象与画风。下图用到的提示词为:90 年代流行的黄色皮肤动画卡通形象,16:9,V6,原始模式。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 生成《辛普森一家》形象(图源:IEEE)

以下是更多使用间接提示生成图像的例子,使用的提示词依次是:动画玩具;戴护目镜、穿工作服的黄色 3D 卡通角色;电子游戏刺猬;电子游戏水管工。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 根据间接提示生成 IP 形象(图源:IEEE)

显然,这些测试中大部分角色都受到版权保护和商标注册,而这些生成图像几乎都达到以假乱真的程度。测试使用的提示词都十分模糊,并没有绝对明确的指向性,这表明,用户有可能在不知情或非刻意的情况下,创建出潜在侵权的作品。

3、不使用任何直接指向性提示

在第三轮实验中,马库斯和索森干脆采取了更加模糊的提示——不提及任何作品或 IP 角色的描述,仅使用 " 电影截图 " 这一个提示词

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 根据 " 电影截图 " 提示词生成的图像(图源:IEEE)

结果显示,即使只使用 " 电影截图 " 这样一个完全没有指向性,不特定于任何电影、角色或演员的单词,就会产生明显侵权的内容。下图是更多使用该提示词创建的图像:

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 根据 " 电影截图 " 提示词生成的图像(图源:IEEE)

在历时两周的调查中,作者发现有至少有超过 100 个电影、游戏或演员都能被 Midjourney 大幅 " 还原 ",并整理出下面这份名单:

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲实验得出的作品列表名单(图源:IEEE)

这些测试结果提供了强有力的证据,因此作者认为几乎可以肯定,Midjourney V6 在受版权保护的材料上进行过训练,目前尚不清楚 Midjourney 是否获得了版权方的授权。

02. 明知故犯的 Midjourney," 旗鼓相当 " 的 OpenAI

Midjourney V6 的训练数据中,有多少是未经许可而使用的受版权保护的内容?由于该公司并未公开其训练数据和已获得许可的内容,这个问题的答案难以得出。但马库斯和索森认为,其中至少有一部分尚未获得版权许可。

之所以这么认为,有一个原因是在 12 月 23 日,索森发现自己的 Midjourney账号被无故封禁,之前生成的图像也被全部清空。甚至在索森创建了新账号,并持续在 X 上发布更多测试结果后,Midjourney再次封禁了这些账号。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲索森称自己的账号被无故封禁(图源:X)

不仅如此,Midjourney 还在发布 V6 时悄然修改了服务条款,新增了一段内容:您不得使用本服务试图侵犯他人的知识产权,包括版权、专利或商标权。否则,您可能会受到包括法律诉讼或永久禁止使用本服务在内的处罚。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney 服务条款变更(图源:X)

索森认为,这一变化可以被看作是阻碍甚至排除红队对生成式 AI 进行调查的做法。红队调查是几家主要 AI 公司在 2023 年与白宫达成协议的一部分,指的是利用数字攻击进行对抗性测试,以提高模型安全性。

1 月 1 日,一份更有力的证据被曝出:网友发现了 Midjourney CEO 大卫 · 霍尔茨(David Holz)在 2022 年与开发者关于 " 洗稿 " 的讨论。

霍尔茨提到,他们从维基百科抓取数据,创建了一个包含 4000 个艺术家名字的数据库,并他们的艺术作品来训练模型。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney CEO 称自己创建了艺术数据库(图源:X)

霍尔茨将该数据库共享到了谷歌在线文档中,并告诉开发者可以自由添加内容。一位开发者称自己有一份1.6 万名艺术家的名单," 会不会太多了?" 霍尔茨回复道:" 一点也不,只需将它们全部放入提议的附加内容中,并在旁边注明‘艺术家姓名’。"

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney CEO 对开发者提供艺术家名单持开放态度(图源:X)

图中霍尔茨提到的谷歌文档访问权限已被锁定,但根据网友的存档,其中包含近 5000 名艺术家的名字。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Midjourney CEO 所提到的谷歌文档部分截图

此外,据公开信息显示,霍尔茨对版权问题有些不屑一顾。

2022 年 9 月,《福布斯》记者在采访中询问霍尔茨是否征得在世艺术家或仍受版权保护作品的同意时,他说:"没有。我们不可能获取一亿张图片并得知每一张分别来自哪里。如果图片中能嵌入版权所有者的元数据或其他信息,那就太酷了,但这是不可能的。"

除了 Midjourney V6,马库斯也对 OpenAI 的图像生成器 DALL-E 3 进行了测试。结果表明,尽管 DALL-E 3 已经制定了一项保护措施,用来屏蔽一些专有名词,但这些保护措施并不完全可靠。

如马库斯输入提示词:《星球大战》中的 C-3PO 手持爆破筒站在歼星舰前,DELL-E 3 并没有因为提示词中含有电影名称而拒绝生成,非常爽快且准确地生成了这个画面。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ DALL-E 3 生成《星球大战》中的角色(图源:Substack)

面对间接提示,DALL-E 3 同样表现出惊人的 " 语义理解能力 "。下图使用的提示词为:动画海绵。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ DALL-E 3 生成海绵宝宝的形象(图源:Substack)

当马库斯输入一个简单的 " 动画玩具 " 提示词后,DALL-E 3 生成的图像甚至包含了《汽车总动员》、《玩具总动员》、《怪兽电力公司》等多个影视作品中的角色形象。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ DALL-E 3 生成的图像包含多个 IP(图源:Substack)

显然,OpenAI 的 DALL-E 3 与 Midjourney V6 一样,似乎 " 借鉴 " 了广泛的版权资源。不过与 Midjourney 不同的是,OpenAI 选择为用户提供法律保护。

去年 11 月,OpenAI 宣布推出版权保护计划(Copyright Shield),如果用户面临版权侵权的法律诉讼,OpenAI 将会介入为用户提供辩护,并支付相关费用,但这仅适用于企业版 ChatGPT 和开发者平台。

面向艺术家,OpenAI 宣称创作者可以提交一份申请表,选择将自己的作品 " 从我们未来的图像生成模型训练中剔除 ",但已经被用于训练的作品该何去何从?OpenAI 并没有留下太多解释。

03. 如何解决图像剽窃问题?作者提出三种解法

现在我们已经意识到图像生成器存在图像剽窃的问题,那么应该如何解决呢?马库斯和索森提出了三种解决方案。

首先,最干脆的解决方案就是删除训练数据中的版权材料,在不使用版权材料的情况下重新训练图像生成模型,或者将训练限制在获得许可的数据集上。

这是从根源解决问题的方法,而它的替代方案——仅在被投诉时才删除受版权保护的材料,实施成本其实远比想象中要高。模型并不是一个线性映射的合集,训练集中所使用的某些材料是无法以简单的方式从模型权重中删除的,因此 " 删除部分训练材料 " 仍需要重新训练。

也许是因为重新训练的成本过高,模型开发商大多会试图避免这一方法。此外,完全避开版权材料有可能导致模型效果相差甚远。

其次,过滤掉可能侵犯版权的查询是成本较低的方法之一,例如不生成蝙蝠侠的图像。

OpenAI 已经在采用添加补丁的方式来规避版权内容。有网友近日发现,OpenAI 在索森等人发布了 DALL-E 3 测试后对模型进行了更新,拒绝生成《星球大战》中 C-3PO 的图像。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ OpenAI 修复 DALL-E 3 中部分版权问题(图源:X)

但该方法也存在一定的弊端,如过滤阈值的设置问题。文本生成系统中的 " 护栏 " 往往在某些情况下过于宽松,而在其他情况下又过于严格。

例如当马库斯要求微软 Bing 生成 " 在一个荒凉的、被太阳炙烤的景观中的厕所 ",Bing 拒绝了这一请求,并称 " 检测到不安全图像内容 "。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ Bing 拒绝图像生成请求(图源:X)

此外在连续对话中,大模型可能会在连续迭代下,从不包含版权内容的图像又绕回版权图像。

下图是 X 网友 @NLeseul 的测试,第一轮对话中,他要求 ChatGPT 生成 3D 渲染的,关于一位水管工探索巨大而神秘的管道,并在其中发现宝藏的视频游戏的概念艺术。

尽管 ChatGPT 生成的图像中,水管工戴着 " 可疑的红色帽子 ",但一切还算处于正轨。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ ChatGPT 生成有关水管工的游戏概念图像(图源:X)

但当他追问,能否更新图像,使水管工的脸面向镜头,马里奥的脸赫然出现在画面中。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ ChatGPT 使水管工面向镜头(图源:X)

最后,图像生成器在生成图像时列出来源,让用户判断图像是否是派生作品,也是成本较低的方式。

目前已有一些文字生成系统添加了这种功能,但当前的图像生成系统具有不透明的 " 黑盒子 " 性质,几乎无法实现准确的溯源。

针对该问题,X 网友提出了反向图像搜索的方式,他将 Midjourney 生成的包含《玩具总动员》内容的图像输入 ChatGPT 并询问这是什么,ChatGPT 准确回答出了电影名称。

AI生图界扛把子被曝剽窃,复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了

▲ ChatGPT 识别出图像内容(图源:X)

这为图像溯源提供了新的思路。如果在生成图像过程本身难以解构出是否基于版权内容生成,系统可以在输出图像前增加一个自检步骤,利用模型的图像识别功能检测是否可能侵权。

值得注意的是,尽管一些 AI 公司提出了过滤侵权输出作为可能的解决方案,但作者认为,这些过滤器绝不应被视为完整的解决方案。潜在的侵权输出的存在本身就证明了另一个问题:未经许可使用版权作品来训练模型。

04. 结语:AI 图像剽窃问题应得到重视

几乎可以肯定的是,OpenAI、Midjourney 等生成式 AI 开发商已经使用版权材料来训练他们的图像生成系统,而这两家公司都没有公开这一点。Midjourney 甚至因为作者的调查而三次封禁其账号。

OpenAI 和 Midjourney 都有能力生成涉嫌侵犯版权和商标的材料,而这些系统在生成这些内容时并不会通知用户,也不会提供任何关于所生成图像来源的信息,因此用户在生成图像时,可能并不知道自己是否侵权。

下一个问题是,如果每个人都已经认识马里奥,用户大可以自己选择不去使用 AI 生成的可能侵权的图像,为什么我们仍要重视图像剽窃问题?

X 网友 @Nicky_Bonez 用一个例子生动地回答了这个问题:" 也许每个人都知道马里奥的样子,但没有人会能确保认出迈克 · 芬克斯坦(Mike Finkelstein)的野生动物摄影作品。因此当你要求 AI 输出一张‘水獭跃出水面的超级锐利美丽照片’时,你可能并没有意识到,它输出的本质上是一张迈克在雨中蹲守了三个星期才拍到的真实照片。"

而大多数情况下,像芬克斯坦这样的个人艺术家都没有足够的经济或法律能力向 AI 公司提出索赔。

除非有人提出一个能够准确报告来源,或自动过滤绝大部分侵权行为的技术解决方案,否则唯一的道德解决方案只能是让生成式 AI 系统限制其训练数据。

最受喜欢

马库斯 星球大战 准确 bing ceo 热点 本地 社区 美图 视频 直播 资讯

曾被卖出19万美元高价!这台初代iPhone太猛了

曾被卖出19万美元高价!这台初代iPhone太猛了

科技热搜 iphone 智能手机 乔布斯 本初 谷歌 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

科技热搜 微软 机器人 小米 马斯克 欧盟 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

科技热搜 战神 steam 自杀小队 安德森 ceo 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

科技热搜 it之家 macbook 专利 传感器 苹果公司 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

科技热搜 台积电 三星 芯片 高通 半导体 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13