你的位置：论文发表 >> 论文下载 >> 文史类论文 >> 新闻传播学 >> 详细内容在线投稿

略谈学术不端检测系统的盲区

浏览142次时间：2013年12月03日 10:00

□ 秋黎凤白雪

摘要：实验证明，学术不端检测系统在技术、时间、判别方面还存在一些盲区，因此，编辑在检测、审理稿件时，要认真负责，仔细比对，区别对待，尽量减少漏网之鱼，也不能一眚掩德，埋没佳作。

关键词：学术不端；检测；盲区；技术

随着网络技术的发展，“抄袭”已经变得十分简单，只需要百度一下，轻击鼠标，复制、粘贴就好，为编辑的审稿工作带来很大不便，稍有不慎，就会有漏网之鱼。有人戏称，这对编辑的身心都是巨大的考验。毫无疑问，学术不端检测系统的出现，这给编辑工作节省了大量的时间，转变了在浩瀚“网海”以关键词搜索的盲目性，大大提高了工作效率，使稿件能尽快进入下一个流程。自中国知网学术不端文献检测系统正式发布以来，已迅速在6000多家教育、科研、出版及相关管理机构中广泛使用，在防治学术不端行为的工作中发挥了重要作用。

继而，万方数据知识服务平台也推出了论文相似性检测服务，为编辑提供了更多的便利。为了叙述方便，本文统称此类系统为学术不端检测系统。笔者使用该系统3年多来，深切感到该系统简洁方便、操作性强的优势，但也发现其使用中存在一定的盲区，下面举例简述。

一、技术盲区

笔者将因技术手段的局限而产生的盲区称为技术盲区，通过下面几个实验说明。

（一）实验一

将3篇已在期刊上发表过的文章A、B、C，分别在甲检测系统检测相似度，结果为79.1%、86.2%，97.8%。若将此3篇文章分别转为图片格式，内容不变，系统则显示：“内容过短，无法检测”。

同样，将此3篇文章在乙检测系统检测，结果分别为81.5%、93.48%、84.38%。转成图片格式后，无法粘贴至检测界面，故而无法检测。若将图片后面粘贴同样数量的文字，则可以检测，打开详情报告，可以看出，在检测区域，只显示出文字，而不见图片——甲、乙两个检测系统情况相同。

（二）实验二

将A、B、C 3篇文章中的表格提取出来，单另做一Word文件，分别在甲乙两个系统检测，检测结果均为0。

（三）实验三

找3篇已经优先数字出版但是还未在期刊上刊发的文章D、E、F，在甲系统检测结果分别为0、6.7%、0；在乙系统检测结果分别为4%、4.55%、0。

（四）实验四

（1）将如下一段话G粘贴在Word文件中，为了防止因文章过短而无法检测，将此段话复制3遍，进行检测。检测结果：甲系统为89.7%，乙系统为87.5%。隔距块的作用原理是：上销中上罗拉和下罗拉、长短胶圈和弹性上销组成了弹性钳口，在这个作用过程中罗拉组成的固定钳口和胶圈组成的弹性钳口，前者主要是握持纤维，弹性钳口主要是为输出纤维。固定钳口至钳口前缘中心距33mm，距下罗拉中心距31mm，控制区要求强控制，输出区要求稳定保证快速纤维的变速运动，隔距块在其中调节隔距达到稳定和顺利抽出的作用。

（2）将此段话的前后顺序调整如下（忽略句子的逻辑顺序及句意），内容不变，同样复制3次，甲乙系统的检测结果分别为40%、87.5%。控制区要求强控制，输出区要求稳定保证快速纤维的变速运动，隔距块在其中调节隔距达到稳定和顺利抽出的作用。固定钳口至钳口前缘中心距33mm，距下罗拉中心距31mm。隔距块的作用原理是：在这个作用过程中罗拉组成的固定钳口和胶圈组成的弹性钳口，上销中上罗拉和下罗拉、长短胶圈和弹性上销组成了弹性钳口，前者主要是握持纤维，弹性钳口主要是为输出纤维。

（3）将此段话的顺序不变，分别将每句话的结构略微调整，长句变短句，短句变长句，加连接词、标点符号等等，如下所示，检测结果变化极大，甲乙两系统均为0。上销中上罗拉分别与下罗拉、长短胶圈及弹性上销一起，组成了弹性钳口，在此作用过程中，罗拉组成的固定钳口主要是握持纤维，胶圈组成的弹性钳口主要是为输出纤维。固定钳口距离钳口前缘中心为33㎜，与下罗拉中心距为31㎜，控制区要求强控制，相反，输出区要求稳定，并需保证快速纤维的变速运动，隔距块的作用，就是调节隔距、稳定并顺利地抽出——这就是隔距块的作用原理。

（五）实验结论

实验结果可以看出：（1）检测系统对图片无法检测。在实验一中，文字的相似度很高，但是一旦转换为图片，就检测不出；粘贴部分文字后，仅能检测文字部分的相似度。

（2）检测系统对表格无法检测。在实验二中，两个系统对表格的检测虽然不至于像图片一样无法识别，但是检测结果却为0。事实上，检测表格是从已发表的文章中提取出来的，相似度应该很高才对。

（3）检测系统对已经优先数字出版但未在纸质期刊发表的文章检测结果不可信。犹记知网推出优先数字出版时曾说过，在此优先数字出版系统上发表的文章，为“正式发表”，最有说服力的是，“评职称时也是认可的”（优先数字出版培训时，培训老师语）。但是很显然，检测系统未将此类文章纳入检测范围。

（4）调整句序、改变句子结构对检测结果均有影响，尤以后者为甚。实验四中，调整句序，检测结果改变；改变句子结构，虽然句意完全没有改变，但是检测结果却一下由接近90%变为0。

（5）不同检测系统的检测结果并不完全相同。如上所述，笔者在甲乙两系统检测的文章为同篇文章，然而检测结果却不完全相同，时高时低，相别最大的，是调整句序后的检测结果，一为40%，一为87.5%，相差一倍多。

二、时间盲区

时间盲区，即因为时间前后差异产生的“盲区”。目前，各大数据库收集期刊文章，基本的方法有两种：一是等样书出来，邮寄至数据库办公地点，由数据库的工作人员用扫描等技术手段将期刊内容放在库中，显示在互联网上；二是杂志社的当期刊物定版后，由杂志社的工作人员将本期期刊的电子版发给数据库工作人员，再由他们经过处理上传。无论哪一种方法，在实际操作中总会有一段时间差，即滞后期，一般为2周到4周，甚至更长。试想，一篇文章先发给甲杂志社，决定录用后，再发给乙杂志社，而在乙社检测该文时，由于此文还未正式刊发，未能进入检测系统，所以检测相似度必然很低。而实际上，如果推迟1～2个月再进行检测，那么就会发现问题，只是，这时再撤稿，已经付出的劳动，又该由谁来买单呢？

三、判别盲区

这通指那些检测出来相似度很高，但实际上并未“抄袭”的情况，比如：（1）学位论文、会议论文集收录文章的再次发表；（2）刊登在低级别刊物上的论文在高级别刊物上的再次发表；（3）基本原理、基本理论的直接引用；（4）由旧方法、旧理论得出的新结论、新观点；等等。此中，前2种情况，笔者认为，都不算真正意义上的公开发表，只能算作“内部交流”，但数据库在查重时，也将其纳入检索范围，所以相似度很高。后2种情况，直接引用基本原理和理论，查重时相似度必然很高，而建立在旧方法、旧理论的基础上，得出的新观点、新结论，相似度也不会低，有可能大部分都是一样的，但恰是那一小部分是创新，并且是十分重要的，如果仅从系统得出的检测结果来判别其为“抄袭之作”，也许就此错过一篇佳作。

四、结语

学术不端检测系统毕竟不是“人脑”，在提供方便的同时也会存在一些盲区，所以，它只是提供一种数据参考，是一种辅助手段，并非“一锤定音”。真正给一篇文章下定论的还是编辑，这就要求编辑在检测、审理来稿时，一定要认真负责，仔细阅读检测报告，详细比对标红的“疑似”区域，区别对待，尽量减少漏网之鱼，更不能一眚掩德，埋没佳作。

【参考文献】

[1]李靖波，厉亚.学术不端：内涵、类别、根源与治理[J].科技与出版，2011（8）.

[2]赵国惠.学术不端文献检测系统的功能和作用[J].南宁职业技术学院学报报，2011（2）.

[3]宋雪飞，曲辰.充分利用稿件中的信息点把好学术论文初审关[J].沈阳航空学院学报，2006（6）.

[4]赵瑞.基于融合交叉技术的科技论文初审方法[J].编辑学报，2009（2）.

[5]谭华，崔洁.学术不端文献检测系统的使用建议[J].编辑学报，2010（2）.

[6]李新根，徐用吉.学术期刊编辑如何防范学术不端行为[J]. 科技与出版，2010（8）.

[7]张旻浩，高国龙，钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究，2011（4）.

[8]陈玉峰，陆振挺.细纱机隔距块应用工艺实践[J].纺织器材，2010（4）.

[9]张宏，程建霞，王小唯，等.学术不端现象分析及期刊编辑应对策略[J].编辑学报，2010（1）.

[10]张小强，赵大良.学位论文再次发表的版权与学术不端问题分析[J].编辑学报，2011（5）.

TAG: 检测