机器学习的技术不断进步,推动了出版界自动化进程,现如今有许多可靠的查重软件帮助作者或期刊对论文进行查重,消除学术不端嫌疑,然而,这类查重软件是否包含对图片的检查呢?答案是否定的,通过计算机算法实现对图片的查重想法是可行的,但实施起来却困难重重。
2月26日,《自然》新闻对此进行了一次探讨,有三名科学家利用计算机算法,尝试实现快速检查大量研究文献,发现其中的重复图片。早在2015年初,该团队就以PubMed生物医学文献数据库开放获取子库中的76万篇论文为对象,运用一种算法提取了其中的260多万张图片,包括细胞与组织及凝胶印迹显微照片。当时,该算法将重点放在特征最丰富的区域——颜色和灰度差异最大的区域——提取每一张图片最显著的数字“指纹”。
团队剔除箭头或流程图要素等图形后,最终得到了约200万张图片。他们只比对第一作者及通讯作者一样的论文里面的图片,避免每张图片都要和所有其它所有图片进行比对而导致计算负载过大。即使图片被翻转、调整大小,对比度或颜色被更改,该算法也能发现其中潜在的重复图片。
之后,三人手动检查了约3750张被算法标记出来的图片样本,以确定这些重复图片是否可疑或是伪造的。根据检查结果,他们估计数据库中约1.5%的论文包含可疑图片,0.6%的论文包含伪造图片。
该研究结果表明,利用技术手段进行图片查重是有可能的。这一技术如果成熟将节省大量人力和时间成本,因为许多期刊在对一些图片进行检查时,缺乏自动化的检查流程,需要投入大量人工和时间,且还需要作者提交未经编辑的凝胶图片用作参考。
然而,要实现机器检查图片,关键是要各大出版商团结起来建立一个共享数据库,里面收录所有已发表出来的图片,然后以之为基准比对将要发表的论文里的图片,此类的合作和尝试目前也一直存在。可以预想到不久的将来论文图片查重将会成为出版界通用手段。