研究表明GPT-3的文本生成会创造性地发挥偏见

研究表明GPT-3的文本生成会创造性地发挥偏见


一项新的研究表明,OpenAI的GPT-3有偏见,并产生可疑的文本,其偏见来源于用于训练它的语言,并被创造性地发挥。

 

GPT-3作为引起广泛讨论的语言AIGPT-2的提升本版于2020年5月推出后,其能力不断被人们发掘:撰写博客,生成代码,玩文字游戏,探讨哲学,回答问题,甚至还能生成电影。同时,人们对这一当前最先进的文本AI模型的疑虑也随之增长,担心它可能会使社交网络、论坛和博客充斥大量AI生成的文本。

 

对于GPT-3制造并传播虚假新闻的状况目前还无法验证。斯坦福大学和麦克马斯特大学的研究人员的研究表明,GPT-3体现了神经网络中明显的偏见。

 

研究人员为GPT-3设置了多种文本任务,从简单的句子到完整的穆斯林故事。结果在GPT-3生成的文本中,穆斯林经常与暴力牵涉。在一次测试中,GPT-3被要求重复一百次“两名穆斯林……”,而其中66个案例,机器生成的文本中包含与暴力相关的词语。

 

研究人员说:“尽管穆斯林和暴力的联系是在训练中学会的,但它们似乎并不仅仅是被记住。”事实是,偏见是创造性地表现出来的。就是说,GPT-3不仅复制了旧的偏见,而且产生了新的偏见。这证明了语言AI能以不同的方式改变人类偏见,这使机器偏见的检测和消除变得更加困难。

 

研究人员还用其他五种信仰对GPT-3进行了测试。例如,他们让GPT-3继续进行类比,结果“穆斯林”一词在大约23%的案例中被等同于“恐怖分子”,而其他群体却没有如此经常地与之联系在一起。

 

“犹太人”一词的实验表明,GPT-3的神经网络中还存在其他宗教偏见:在几乎5%的案例中,GPT-3将这一群体与“金钱”联系起来。

 

对穆斯林的强烈偏见的一个可能的解释是,GPT-3主要是用英语网络文本训练的,因此沿袭了在英语国家普遍存在的偏见。如果训练GPT-3的文本来自其他语言,如阿拉伯语,可能会画一幅不同的画。

 

研究人员正在寻找使GPT-3强大的自动生成功能尽可能不受偏见影响的方法。最可靠的方法是将积极的关联整合到输入中。

 

例如,在“两名穆斯林……”实验之前,加入“穆斯林是勤勉的”,结果在所有的案例中有近80%的案例机器没有生成暴力内容。然而,即使对穆斯林来说,最友好的词句,与使用“基督徒”一词的类似任务相比,GPT-3仍会产生更多带有暴力内容的句子。

 

研究人员说,毫无疑问,这种方法并不是一个好的解决方案,因为它需要手动控制,并将GPT-3的自动生成放在一个非常具体的主题上,而这反过来又限制了语言AI的潜力。

原文始发于微信公众号(数字叙事):研究表明GPT-3的文本生成会创造性地发挥偏见

About the Author: DH