丑闻！大佬署名论文，被曝抄袭，第一单位致歉：追责到人

生物学霸2022-04-15

562

近日，有网友在某乎提问：「如何看待智源、清华等单位论文 A Roadmap for Big Model 中大量段落被指涉嫌抄袭」。

图片来源：知乎

根据该网友描述，Google Brain 研究员 Nicholas Carlini 近日在一篇博客中指出智源、清华等单位的论文 A Roadmap for Big Model 中部分段落抄袭了他们的论文。同时 Nicholas Carlini还指出，该篇论文可能同时抄袭了十余篇其他论文。

这篇篇幅巨大的论文，作者署名甚至多达百人，足足用了第一页的篇幅罗列参与的作者。其中不乏清北等知名高校和学界的头部大佬，供职机构更是把中国知名高校和互联网巨头几乎一网打尽。在如此瞩目的阵容下却出现恶劣的论文抄袭事件，如此反差下一时将话题推上热搜，引发大量关注。

百人署名论文，竟被爆出多处抄袭

在曝光者 Nicholas Carlini 的博客中，菌菌发现问题论文是北京智源人工智能研究院 3 月份发布在预印本平台 arXiv 上的题为「A Roadmap for Big Model」综述论文。

图片来源：博客截图

图片来源：论文截图

「A Roadmap for Big Model」是一篇长达 200 页、包含 16 篇文章的大模型领域的综述报告，智源研究院牵头负责框架设计和稿件汇总，邀请了清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学等国内外 100 位科研人员分别撰写了其 16 篇文章，每篇文章分别邀请了一组作者撰写并单独署名。被称为是神经网络大模型技术的发展蓝图。

具体而言，这篇大型综述介绍了16个相关的大模型，分别是：数据、知识、计算系统、平行训练系统、语言模型、视觉模型、多模块模型、理论&可解释性、常识推理、可靠性&安全、治理、评估、机器翻译、文本生成，以及对话和蛋白质研究。

按理来说，这样的大型综述报告应该是业内的经典和标杆论文，但根据Nicholas Carlini 的描述，上述论文不仅抄袭了自己团队的另外一篇题为「Deduplicating Training Data Makes Language Models Better」的论文，还指出该论文涉嫌抄袭十余篇其他作者的论文，这样的抄袭部分一共有10处。除此之外，Carlini 称他们的软件工具还检测出不少该文作者们自我抄袭的部分。

图片来源：论文截图

图片来源：Nicholas Carlini 博客截图｜涉嫌抄袭的文本高亮显示，这样的抄袭部分一共有10处

值得一提的是，为了避免误伤，Carlini 还制定了一个十分严格的查重标准，基本可以确保不会把一些比较通用的表述标定为重复。即便如此，该论文还是检测出大量重复表述。Carlini 及其团队对这种现象感到遗憾，当前存在的抄袭行为其实并不应该在这样的论文中发生。

官方火速致歉，启动第三方专家审查并追责

确实，这样的行为不论在这样的大型综述中，还是在任何一篇学术论文中都不应该发生。抄袭事件在网上迅速发酵之后，智源研究院作为这一综述文章的组织者在其主页发布了致歉信，承认涉事论文有抄袭的部分，并向学界与公众表示歉意。

图片来源：网页截图

在致歉信中，智源研究院公布了内部调查的初步结果，为了避免大家太长不看，菌菌给大家大概总结一下：

涉事论文是是一篇大模型领域的综述，由智源研究院牵头，负责框架设计和稿件汇总，并邀请国内外100位科研人员分别撰写，报告发布后，根据反馈持续进行修改完善，到4月2日在arXiv网站上已经更新到第三版；
对于 Nicholas Carlini 反馈的抄袭情况，进行了核查，确认第2篇文章的第3.1节179个词，第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复，应属抄袭；
智源即日将启动邀请第三方专家对报告进行独立审查，根据正式调查结果对相关责任人作出问责处理。

从智源发布的致歉信，我们不难看出，智源对于上述论文存在文字重复的情况已经定性为抄袭，并积极展开调查，体现了学术机构应有的担当。

4 月 13 日，Nicholas Carlini 也在其博客中更新：

「本文受到了我预期外的太多关注。本文的每小时新增浏览量都多过我博客上周的一周全站浏览量。

所以在此恳求，不要让此事发酵成一场猎巫迫害。我看到已有人称应该马上把涉事论文相关人等全部开除、预印本网站应对他们完全禁入等等。

我并不了解肇事论文何以如此广泛抄袭的幕后原因，因此我不多做论断。

可能是一些初级作者并无恶意，以为有引用来源就可以复制粘贴。也可能是学生们受到来自导师的压力，觉得要按时交稿就只好走捷径。高级作者们可能只读了遍文本，认为无大碍就小修小补后放行，不清楚文本的来源为何。

关键在于，此事幕后因由现在仍未公开。此论文有过百名作者，任何事都有可能发生。

我发布此文的愿望，是想给学界常见的积弊招来更多关注。学界有近1% 的已发表和被接受的论文，其数据复制粘贴比率比「大模型」一文还要高。

我该在写此贴的一开始就说清这个背景。所以再次请大家不用对肇事论文过苛。抄袭是学界常见之弊，我对此事更警醒，是因为被抄袭的是我的论文。希望大家可以将此作为提高学界整体质量的严肃学习经验。」

任何学术不端都不应姑息

智源的初步调查结果总体来说令人信服，文章抄袭了就是抄袭了，没拿什么过度引用来应付公众。但比起对学术不端事件的定性，网友们更关心的可能还是后续对于相关责任人的调查和处理。

一个学术团体的学术诚信的建立需要很久，但想推倒，只需要这样一件恶劣的学术不端事件。学术机构对于这类事件的处理无疑对其公信力有着很大的影响。