丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

丑闻!大佬署名论文,被曝抄袭,第一单位致歉:追责到人

生物学霸

467

近日,有网友在某乎提问:「如何看待智源、清华等单位论文 A Roadmap for Big Model 中大量段落被指涉嫌抄袭」。

图片

图片来源:知乎

根据该网友描述,Google Brain 研究员 Nicholas Carlini 近日在一篇博客中指出智源、清华等单位的论文 A Roadmap for Big Model 中部分段落抄袭了他们的论文。同时 Nicholas Carlini还指出,该篇论文可能同时抄袭了十余篇其他论文。

这篇篇幅巨大的论文,作者署名甚至多达百人,足足用了第一页的篇幅罗列参与的作者。其中不乏清北等知名高校和学界的头部大佬,供职机构更是把中国知名高校和互联网巨头几乎一网打尽。在如此瞩目的阵容下却出现恶劣的论文抄袭事件,如此反差下一时将话题推上热搜,引发大量关注。

百人署名论文,竟被爆出多处抄袭

在曝光者 Nicholas Carlini 的博客中,菌菌发现问题论文是北京智源人工智能研究院 3 月份发布在预印本平台 arXiv 上的题为「A Roadmap for Big Model」综述论文。

图片

图片来源:博客截图

图片

图片来源:论文截图

「A Roadmap for Big Model」是一篇长达 200 页、包含 16 篇文章的大模型领域的综述报告,智源研究院牵头负责框架设计和稿件汇总,邀请了清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学等国内外 100 位科研人员分别撰写了其 16 篇文章,每篇文章分别邀请了一组作者撰写并单独署名。被称为是神经网络大模型技术的发展蓝图

具体而言,这篇大型综述介绍了16个相关的大模型,分别是:数据、知识、计算系统、平行训练系统、语言模型、视觉模型、多模块模型、理论&可解释性、常识推理、可靠性&安全、治理、评估、机器翻译、文本生成,以及对话和蛋白质研究。

按理来说,这样的大型综述报告应该是业内的经典和标杆论文,但根据Nicholas Carlini 的描述,上述论文不仅抄袭了自己团队的另外一篇题为「Deduplicating Training Data Makes Language Models Better」的论文,还指出该论文涉嫌抄袭十余篇其他作者的论文,这样的抄袭部分一共有10处。除此之外,Carlini 称他们的软件工具还检测出不少该文作者们自我抄袭的部分。

图片

图片来源:论文截图

图片

图片来源:Nicholas Carlini 博客截图|涉嫌抄袭的文本高亮显示,这样的抄袭部分一共有10处

值得一提的是,为了避免误伤,Carlini 还制定了一个十分严格的查重标准,基本可以确保不会把一些比较通用的表述标定为重复。即便如此,该论文还是检测出大量重复表述。Carlini 及其团队对这种现象感到遗憾,当前存在的抄袭行为其实并不应该在这样的论文中发生。

官方火速致歉,启动第三方专家审查并追责

确实,这样的行为不论在这样的大型综述中,还是在任何一篇学术论文中都不应该发生。抄袭事件在网上迅速发酵之后,智源研究院作为这一综述文章的组织者在其主页发布了致歉信,承认涉事论文有抄袭的部分,并向学界与公众表示歉意。

图片

图片来源:网页截图

在致歉信中,智源研究院公布了内部调查的初步结果,为了避免大家太长不看,菌菌给大家大概总结一下:

  • 涉事论文是是一篇大模型领域的综述,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外100位科研人员分别撰写,报告发布后,根据反馈持续进行修改完善,到4月2日在arXiv网站上已经更新到第三版;

  • 对于 Nicholas Carlini 反馈的抄袭情况,进行了核查,确认第2篇文章的第3.1节179个词,第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复,应属抄袭;

  • 智源即日将启动邀请第三方专家对报告进行独立审查,根据正式调查结果对相关责任人作出问责处理。

从智源发布的致歉信,我们不难看出,智源对于上述论文存在文字重复的情况已经定性为抄袭,并积极展开调查,体现了学术机构应有的担当。

4 月 13 日,Nicholas Carlini 也在其博客中更新:

「本文受到了我预期外的太多关注。本文的每小时新增浏览量都多过我博客上周的一周全站浏览量。
所以在此恳求,不要让此事发酵成一场猎巫迫害。我看到已有人称应该马上把涉事论文相关人等全部开除、预印本网站应对他们完全禁入等等。
我并不了解肇事论文何以如此广泛抄袭的幕后原因,因此我不多做论断。
可能是一些初级作者并无恶意,以为有引用来源就可以复制粘贴。也可能是学生们受到来自导师的压力,觉得要按时交稿就只好走捷径。高级作者们可能只读了遍文本,认为无大碍就小修小补后放行,不清楚文本的来源为何。
关键在于,此事幕后因由现在仍未公开。此论文有过百名作者,任何事都有可能发生。
我发布此文的愿望,是想给学界常见的积弊招来更多关注。学界有近1% 的已发表和被接受的论文,其数据复制粘贴比率比「大模型」一文还要高。
我该在写此贴的一开始就说清这个背景。所以再次请大家不用对肇事论文过苛。抄袭是学界常见之弊,我对此事更警醒,是因为被抄袭的是我的论文。希望大家可以将此作为提高学界整体质量的严肃学习经验。」

任何学术不端都不应姑息

智源的初步调查结果总体来说令人信服,文章抄袭了就是抄袭了,没拿什么过度引用来应付公众。但比起对学术不端事件的定性,网友们更关心的可能还是后续对于相关责任人的调查和处理。

一个学术团体的学术诚信的建立需要很久,但想推倒,只需要这样一件恶劣的学术不端事件。学术机构对于这类事件的处理无疑对其公信力有着很大的影响。

虽然这样一篇大型综述涉及的作者多大百人,大佬比比皆是,但在学术不端面前,人人平等,既然选择了在这样一篇论文里挂名,首先要对得起挂名位置对应的学术贡献,其次也应当对这篇论文涉及的学术诚信等底线问题负责。

我们期待智源后续的调查结果,但事件有了结果,就告一段落了吗?

在如此大型的翻车事件背后,带来的社会影响同样不可忽视—— 在如此量级的学者中仍然有人缺乏学术规范方面的训练,这更值得我们重视。

对于抄袭,学术界一早就有十分明确的标准,抄了多少,怎么抄的,都有明确的划分。

图片

图片来源:IEEE分级标准

「还有很多文章比这个抄袭的还严重」,「现在抄袭的文章太多了」并不能成为我们姑息论文抄袭的理由。千里的学术诚信之堤,就溃于这一个个学术不端的蚁穴。学术环境变得清朗或许道阻且长,但这同样不是我们摆烂甚至浑水摸鱼的借口。

除了抄袭这件板上钉钉的事,Nicholas Carlini 博客中提出另一个问题同样值得我们深思:

「一篇总括性综述文章(尤其是汇集了这么多业内优秀资源)的价值在于如何重新定义,构建该研究领域。直接复制粘贴之前其他综述内容并不能为该领域贡献任何新内容。」这才是写综述的意义不是吗?

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序