编者按
站在2024年,AI带来的版权问题日渐白热化,国内外已有不少案件涌入司法并落槌,争议、担忧、混沌……新产业与旧秩序缠斗在一起,左右互搏。训练数据版权侵权何解?生成物是否为作品,谁拥有著作权?生成物侵权责任如何划分?产业链愈发精细下,权责如何分配?避风港原则如何适用?......
当然这不仅仅是法律问题,也事关经济业态、商业模式、产业健康可持续发展。AI的幻影叠落进现实,传统行业寻求新出路,新的利益分配格局需要新的规则,我们处在哪里,要抵达到何处?依旧没有答案。4月26日是世界知识产权日,南财合规科技研究院基于此前长期对AI治理的研究,将推出“AI版权战事”系列,与各界共同寻求解法。
过去的一年被称为是“大模型元年”,随着大模型应用的逐渐普及化,文字处理、文生图像、视频、音乐等各类生成式AI应用不断涌现。
与此同时,2024年,生成式AI带来的版权问题也逐渐进入了行业的关注视野。无论是OpenAI、谷歌训练大模型的语料被控诉侵犯出版商及新闻机构版权,还是国内在广州互联网法院判决落槌的生成式AI服务侵犯奥特曼作品的复制权和改编权的第一案,都反映出生成式AI应用在版权合规方面的现实问题正逐渐浮出水面。
站在AI行业新技术与旧秩序缠斗互搏的当下,如何在现有的法律法规层面寻求训练语料合规之解?生成物的版权问题该如何归属?未来如何在保护版权和鼓励AI技术创新之间找到平衡点?
以此为线索和基础,21世纪经济报道对市面上14款生成式AI应用进行版权实测,并探究生成式AI在法律和技术层面如何从开发到产品应用全流程处理好版权合规问题,为形成更好的行业生态奠定制度基础。
大模型训练语料多源于新闻、社交媒体等
一个客观事实是,对于生成式AI应用及服务背后的版权保护问题,目前已有的行政文件中尚未过多着墨。
2023年7月,国家网信办等七部门印发《生成式人工智能服务管理暂行办法》(以下简称“《办法》”)中提到,提供和使用生成式人工智能服务,应尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为。
对于生成式AI应用的平台及服务提供商,在版权合规层面相关措施最集中的体现便是用户注册登录该平台时所应勾选和同意的服务条款和用户协议。
北京大成(上海)律师事务所合伙人彭凯律师也向21记者指出,企业应在用户服务协议中,应向用户充分告知知识产权相关的风险,并约定相应义务与责任。
作为平台和生成式AI服务提供商履行告知义务的主要途径,21世纪经济报道记者浏览了市面上14款热门生成式AI应用的相关用户协议、服务条款中对知识产权部分的内容表述。
其中,训练语料来源是此次21记者在测评过程中重点关注的部分之一。《办法》第七条提到,生成式AI服务提供者在进行训练数据处理活动时,应使用具有合法来源的数据,涉及知识产权的,不得侵害他人依法享有的知识产权。
(图说:14款生成式AI应用训练语料来源整理:王海晴)
在训练语料的来源说明方面,在21记者所测评的14款主流生成式AI应用中,在用户协议和服务条款中主动披露训练语料来源的企业并不多,仅有Gemini(1.5版)和Midjourney两款AI应用在用户协议及服务条款中提供了训练语料的来源,其中涵盖公共数据库、互联网公开内容及第三方数据。
(图说:Gemini和Midjourney公开的训练语料来源)
对于语言模型应用文心一言、通义千问及Kimi三款具有对话功能的生成式AI应用,21记者则通过向AI提问“训练的语料来源主要有哪些”获悉,在文心一言、通义千问和kimi三款AI应用中,均有公开网络资源如新闻、社交媒体发布内容、书籍出版物以及专业文本及数据库等。其中,通义千问的训练语料中还有可能会调用阿里云内部资源。
此外,Kimi、通义千问、文心一言、Pika、跃问等多款应用虽未直接提供语料训练来源,但在用户协议中,均指出了用户上传内容可能会被用于“优化模型服务及相关市场营销”。
不过,与其他强制性同意条款不同,在部分应用中,若用户不同意上传内容被平台“二次训练”,也可通过平台提供的退出路径,撤回上传内容的授权。
但与此同时,撤回授权也会给用户体验带来间接影响。例如ChatGPT在用户协议中指出,若用户选择不上传数据进行训练,相关功能会或将受到一定限制。“如果您不希望我们使用您的内容来训练我们的模型,可按照相关路径选择退出。在某些情况下,这可能会限制我们的服务更好地解决您的特定需求的能力。”ChatGPT指出。
在21记者所测评的应用中,也有些AI应用在使用条款中承诺不使用用户内容进行机器模型训练。在AI生成图片类应用中,妙鸭相机在用户协议中指出用户所上传照片仅被用于提供图像处理服务,不会用于提取信息和识别,并将在服务完成后系统自动删除。
笔记软件Notion也在NotionAI相关功能的使用说明中指出,“Notion 不会使用客户数据或允许他人使用客户数据来训练用于提供Notion AI写作套件或问答功能的机器学习模型。”并承诺用户在使用Notion AI Writing Suite或Notion AI Q&A功能时所输入内容不会被用于模型训练。
从现有市面上生成式AI应用的训练语料来源来看,一方面为公开数据、新闻机构报道、图书出版物等,另一方面为平台内部用户授权的上传内容。此前,谷歌曾因在训练大模型Gemini时未经授权使用法国新闻机构和出版商内容而被处以2.5亿欧元的罚款。
对于训练语料来源的版权规范问题,华东政法大学知识产权法博士李泳霖建议称:“开发者应致力于源头的合法性,例如在著作权合规方面,可以通过集体管理组织授权以及签约创作者等方式建立正版数据库,再如鼓励开发者之间建立著作权相互授权的商业模式,即不同开发者对其享有著作权的作品进行相互授权使用。”
生成内容版权归属平台还是用户?
除了训练语料的具体来源,在本次测评过程中,21记者发现,多数应用也在用户协议或隐私政策中,交代了通过生成式AI应用上传、成、发布或传播的内容,其版权归属、侵权责任认定,以及应用对用户生成内容的潜在使用情况。
(图说:部分生成式AI应用版权声明和保护措施摘录整理:王海晴)
版权归属方面,有部分应用认定生成内容的版权属于开发者所有。如文心一言,其用户协议便提到,在App及服务中提供的内容的知识产权属于开发者百度所有,相关权利人依照法律规定应享有权利的除外。另一方面,若用户在使用服务过程中产生了侵权风险,相关责任以及对平台造成的损失则需要用户侧承担。
而在Kimi、Suno、妙鸭相机等应用的用户协议中,对版权归属的划分则更加偏向用户一侧。
如Kimi在其协议中指出,用户在应用中输入的任何内容的版权均仅归原作者所有,而用户基于应用生成的内容的版权,由用户自行维护并对其独立判断后使用。
近期大热的音频生成应用Suno,则依照用户付费与否,对两类用户的版权归属进行区分。Suno在平台常见问题FAQ界面中提到,在遵守服务条款的前提下,订阅专业版或高级版的用户,享有付费身份下生成的歌曲的所有权;而用户使用平台提供的免费服务生成的歌曲,其所有权将保留在平台手中,但用户可将这些歌曲用于非商业目的。
(图说:Suno依照付费/免费用户对歌曲所有权进行划分)
与此同时,由于Suno也支持用户上传歌词,创作含人声的歌曲,其在FAQ中也强调,无论是付费或非付费用户,都拥有原创内容的所有权。同时,除歌词版权人外,用户也被明确要求不可上传已公开发布的歌曲歌词,否则将被视为侵权。
AI视频应用Pika在其使用条款中的表述则相对保守。条款中指出,Pika开发商Mellis不主张保管用户在平台内生成内容的所有权,前提是要求用户内容不侵犯、违反或挪用第三方知识产权等各项专有权利。
此外,作为AI写真小程序的妙鸭相机,则直接明确除了归属于第三方知识产权的内容,用户在使用服务时生成内容、在平台发布的内容的所有权利,均归用户方所有。同时,用户需要在使用服务前保证,对于上传内容拥有相应的合法权利,或已取得他人合法授权并有权用于该服务,否则造成的一切后果及损失由用户自行承担。
值得关注的是,一些AI应用还为用户提供了作品侵权的申诉渠道及相关保护措施。Suno、ChatGPT、Pika、Midjourney都提供了用户如遇作品侵权可向平台内进行申诉的渠道,平台将于一定限期内对侵权内容进行处理。其中,Pika和ChatGPT还指出,将对屡次侵权的用户采取终止账户使用权限的措施。
业务创新与版权保护如何平衡?
目前,多数生成式AI应用仍处于起步阶段,开发者仍在不断摸索产品的商业模式和应用场景。而结合本次测评的结果来看,生成式AI在日常生活以及应用中的渗透,给传统版权法带来了新的挑战。
彭凯告诉21记者,在数据合规领域,有一个关键概念,即“privacy by design”,是指在技术系统设计中从一开始就嵌入隐私保护的方法,主动预见并预防风险。“我理解在生成式AI领域,要实现内容生成、创作的合规,也可以参考贯彻类似的理念。”他表示。
李泳霖向21记者指出,当前知识产权法律框架下,生成式AI应用面对的最主要的挑战仍然是围绕其版权展开。存在争议的场景包括:生成式AI训练过程中对在先产品的使用,生成过程中对在先产品的使用,以及生成作品后,对被生成作品的使用。
“这其中暗含了一个前提,即生成式AI生成的内容属于人的智力成果。就当前生成式AI的技术现状而言,这些应用仍然属于人类的工具,因此其生成的相关内容毫无疑问属于人的智力成果。”他表示。
天使投资人、人工智能专家郭涛认为,如何界定AI生成物是否具有独创性,即是否符合著作权法对作品的要求,如何确定AI生成物的作者身份,界定责任主体,以及如何评估AI生成物与现有作品之间的相似度,以判断是否存在侵权行为,都是目前技术层面上对于AI生成物版权认定的难点。
值得关注的是,目前的司法实践中,已有案例试图厘清并解答以上问题。今年2月,广州互联网法院生效了一起生成式AI服务侵犯他人著作权判决。该案认为,被告(某人工智能公司)在提供生成式人工智能服务过程中侵犯了原告对案涉奥特曼作品所享有的复制权和改编权,并应承担相关民事责任。这也是全球范围内首例生成式AI服务侵犯他人著作权的生效判决。
“从现有的案例中,我们可以观察到相关部门在尝试平衡创新与版权保护,并且在我国的判决中,我们可以看到司法裁判者对于AI技术与创作的大力拥抱与鼓励。”彭凯向21记者指出。
他认为,对于AIGC创作者而言,这无疑是一大利好,既有判决不仅肯定了利用人工智能生成图片的“作品”属性和使用者的“创作者”身份,鼓励他们进一步学习AI工具、提升自身的审美素养,从而促使生成物能够得到认可、具备保护价值。
另一方面,对于企业而言,创作者的热情也能推动其进一步完善优化自身的服务与产品。“当然,各类法规标准的出台以及司法判决的涌现也意味着他们需要积极履行更多的版权保护合规义务。”他指出。
对于目前生成式AI应用中存在的潜在版权风险,一名上海法院工作者在与21记者交谈时分享了他的看法。他认为,目前生成式AI应用兴起的情景,与二十年前互联网应用开始快速发展时的情景颇为相似。“站在鼓励产业发展的角度,我认为在目前这个环节中配资平台是干什么的,给予市面上的生成式AI应用更多的发展空间,对他们的业务细节不过多苛求,或许是更好的方案。”他表示。