本科生毕业论文查重系统:不准 确的“测谎仪”

30%:不可逾越的 警戒线

4 月 1 日, 大学教务处发布开展 2015 届本科生毕业论文(设计)检测工作通知,要求应届毕业生登陆大学生论文抄袭检测系统 (PMLC), 对论文进行查重,每个同学有两次检测机会。通知中明确规定,复制比高于30%,即将论文视为不及格,优秀论文要求总复制 低于 15%。

对于大多数民大毕业生而言,30% 无疑成为一条不能跨越的警戒线。截止于4月20日,第一次 检测已经结束。法学院大四学生朱宝通已经知道了 检测结果,8% 的复制比对他而言,尚可接受。但在他周围,仍有 3 个同学 越过这条“红线”。

哲学与宗教学学院的大四生高娃,得知自己的 论文复制比约为 11%,她 觉得有点高,接下来她可能会根据报告进行修改, 她觉得自己需要有意识控制一下复制比。

而关乎他们论文生死的“判官”——大学生论文抄袭检测系统,是中国知网论文检测系统的一个组成部分,里面收录了大量优秀毕业论文,可以针对性地对论文进行查重。这个系统于 2010 年8 月正式发布,在高校之间得到越来越广泛的应用。

文学与新闻传播学院的王伟老师在接受采访时提到,学校从去年开始应 用大学生论文抄袭检测系统,从去年来看,文传学院的情况还是蛮不错的, 申请优秀的毕业论文,很 多控制在 10% 以下。

“漏洞百出”的 测谎仪

打开一份知网系统生成的“文本复制检测报告单”,会发现其有几部分组成,报告会先给出论文 复制比的相关数据,接着会对这些复制做出判定, 如“剽窃观点”、“自我剽窃”、“过度引用”、“剽窃文字表述”等,之后,则会分别列出论文的每个 部分与其他论文的相似对比,之后,则是详细的“标 红”了。

报告虽然详尽,也不乏让人啼笑皆非的地方。 历史文化学院的大四学生杨园章在进行查重后,发现自己的论文存在 1.75% 的复制比,这部分被系统定性为“剽窃文字表述”。 1.75% 的复制比虽低,却 依旧让坚持纯原创的他有些疑惑。在他看来,这完 全是“无中生有”。他的研究课题是福建卫所的变化问题,。他有些疑惑“我明明写的是福建,怎么跑出黄河上游农牧地带?”

而哲学与宗教学院的王洁(化名)也认为系统的准确性有待商榷。她说“有些文章,我看都没看过,就说我重了”。

而他们遇到的问题可能与知网的查重标准有关。系统以“连续 13 个字 与别的文章重复”作为检 索条件,但与此同时,服务器都也会对“疑似抄袭段落“的前后内容进行模糊搜索,而在模糊检索中, 无法真正识别语义的系统,极有可能将两篇毫不相关的文章联系在一起。

杨园章“引用”的部分,作者和书名加起来就有十几个字,除此之外, 系统也无法正确认定“正 文”的范围,让他觉得“搞笑”的是,史学研究会将有些讨论写在注释里以简约正文,他在讨论后接着 写了些参考文献,系统不但将他的注释判定为“正文”,还将其与别人文章末尾的参考文献进行“标 红”。

对系统的灵敏度提出 挑战的,还有系统自身设定的“阈值”,以段落计, 低于 5% 的抄袭或引用是无法被检测出来的,该阀值为 5%,这就意味着, 一段约为 1000 字的段落, 如果复制字数在 50 以下, 就有可能在系统面前蒙混 过关。

如果说系统的“不通 人性”是其作为机器所固有的,但其在对待原文上的不宽容也让一些学生大惑不解。朱宝通作为法学院的学生,写论文时会引 用法律条文,但这也会被系统算在 30% 以内,这让同学们有些无法理解。目前,朱宝通的论文复制比 为 8%,他虽然觉得影响不大,但不会放任不管。 他会“根据情况进行修改, 比例过大时会用自己的话翻译”。

而处在后台工作的王伟老师直言“这个系统有 用,但局限性也很明显”。 他提到,文传学院从 06 年开始对毕业生答辩进行改革,采用了全新的评定 模式。就时间安排来看, 截至4月20日,文传学院的毕业答辩基本结束, 显然第二次的查重有些多余,这与系统自身的开发有关。另一方面,他也觉得,系统在权限上也有问题,两次查重数据可能会重叠,无法直观体现两次查重后,学生复制比的变化。很多学生在进行第一 次查重时是不了解规定, 可能会导致复制比偏高。

“只是一种参考”

如果 30% 是一道门, 划分出适度借鉴和恶意抄袭的界限,但一项数值显 然无法草率判断一篇论文是否抄袭。教务处的翟慧老师则对 30% 复制比的落实做出了说明,虽然教务处设立了 30% 的复制比上限,但在具体操作上,是否判定为抄袭,则由学院各自认定。

教授社会学的刘瑾鸿老师也提到,查重作为其中的一个参考数据,她也会综合学生本身素质、自己对于论文的印象等,判定论文是否属于抄袭。显然,就目前来看,学校虽 然已经明文规定复制比超过 30% 就判定论文不合格,但复制比在判定抄袭 过程中,更多地被视为一种参考。

比起看似火眼金睛的系统,文传学院的王晖霏觉得指导老师更有发言权。“抄抄补补,老师绝 对能看出来。”小到作业, 大到学年论文,她写的论文不在少数,却也觉得随着年级升高,老师的要也也越来越高,“大家都不傻,只是老师比较宽容而已。”

除了系统本身的缺陷 让其“难当大任”外, 30% 这个数值上的标准 也引起了同学们的讨论。王洁觉得,30% 复制比显得过高,应该调整为 20%”。在她眼中,一篇好的论文不应该有过高的重复率,重复率的上升可 能就意味着借鉴越多,提出新观点的空间越小。

另一方面,对待不同的学科,是否该实行不同 的标准,也是一个讨论已 久的话题。统一的数值可能无法灵敏地反应学科差异,文理科方面或许更是 天差地别。高娃认为这个数值“不人性”,她认为针对不同学科,查重率不能定为一样。“工科的重复率可能低,文科提出新思想很难,用工科的 30% 去卡文科的,有些不合理, 文科应该放宽一些。”

王伟老师也部分认同 这个看法,“有些专业, 本身引用率较高,超过 30% 完全是有可能的情况。”而这部分学生可以根据指导老师意见进行一定的修改。复制比只能提供一个参考,并不是判定论文是否原创的唯一标准。从另外的立场出发, 他也觉得“学校定这个 30% 的标准,肯定也是 多方考虑过的。”

修改: 更应遵守学术规范


系统自身的缺点无法 规避,修改则成为学生们的难题。而记者在上网搜索后,发现了大量所谓的 “修改秘籍”,这些秘籍从不同方面给面临“超标”的学生提出建议。有的利用系统收录外文文献少,建议学生对外文进行直译。也有人提出改变修辞,将相似的句子,控制在十三字以下的。而记者发现,一段原文为“培养大学生具有共同的价值观念是社会存在与发展的前提”的段落,改写为“大学生在社会存在与发展中的重要性,决定了必须对他们培养共同的价值观念”,就逃过了系统的检测,显然,这种修改只是词义上的改写。

相比之下,与自己的指导老师进行沟通交流, 可能是大多数同学采取的 方式。对此,赵丽芳老师则表示,她担任指导老师时,会根据不同的原因, 给学生提供不同的解决方法。如果在原文综述里面, 文献摘录的比例比较高, 她认为可能是文献综述的 写法存在问题。“文献综述本身就是很难写的部分。学生去做研究,后面 的部分反而会比前面的部分难,需要在综述别人研究的基础上,看自己的研究空间在哪里,创新在哪里。”

她也认为,这可能更是一个研究能力的问题。 “你是在综述,是在总结, 而不是在原文引用,那就会不一样。”她提到,在学年论文的训练中,有些老师就建议先做学年论文 的综述,这是一个必要的训练环节。

无论是查重,还是与老师进行更多沟通,鼓励本科生进行更为规范的学术研究,尽己所能进行原创,才是本科生毕业论文查重的意义所在。老师宽 容的背后,可能更包含着一种期待。王伟老师提到,在对毕业论文的要求上,本科生和研究生是不同的,研究生必须控制在 20% 以下,而本科生的学术能力有限,适当的借鉴也是被允许的。

无法正确判别语义, 准确分割信息,无法对语 境进行有效识别,30% 这 个数字的没有弹性,可能是造成查重报告参考性下降的重要原因。如果说防 范论文抄袭必定需要强有力的工具,但“缺乏人性” 的系统,显然还无法灵活 识别真正的抄袭与一定范围内合理的借鉴。抛去这个测谎仪的准确度不谈, 如何在借鉴各家的基础上,提升自己的学术探究能力,平衡借鉴与原创的 关系,或许才是大多数本科生在与检测系统“斗智斗勇”的过程中,该真正思考的问题。