我们可以自动化科学评论吗?

随着我们当前科学产业的发展和进步数量的增加,以及大量选择STEM科目作为职业选择的学生,生成的科学论文数量飙升。发表的每篇论文都有其独特的问题及其详细的研究和假设。这使得科学界对拟议论文进行验证和审查成为一项艰巨的任务。数据和统计数据显示,许多科学家每年都会因为“半心”或“不完整”的评论而拒绝论文而感到悲伤。

宾夕法尼亚州匹兹堡卡内基梅隆大学的Weizhe Yuan,Pengfei Liu和Graham Neubig组成的一组科学家提出了利用人工智能和机器学习自动化审查拟议科学论文过程的古怪想法。该模型将贯穿提交的每篇论文,并提出论文内容的要点并简要回顾其内容。该模型还将根据论文的可信度和全面性对论文进行分类。

卡内基梅隆的团队首先通过制定一些标准来应对这一非常艰巨的挑战。他们通过ICML,NeurIPS和ICLR等国际评审系统进行了大量评论,并挑选了一篇写得很好的科学论文的特色。他们提出了以下标准:

  1. 决定性:科学论文应台风小知识在研究过程中选择明确的立场,并应清楚地描绘其基础。
  2. 全面性:论文应详细,定向良好,并应从论文摘要及其对社区的贡献开始。
  3. 理由:本文应提供合理的证据和结论,从各个方面支持其研究。
  4. 准确性:论文中提出的任何科学陈述都必须是真实准确的,任何谬误都会给错误。
  5. 善良:论文必须用友好的语言写成,并且必须易于阅读。

制定这些标准后,该团队随后收集了一个名为ASAP评估(方面增强型同行评审)的数据集,他们在2016-2020年间通过了ICLR和NeurIPS的机器学习论文。建立该系统后,该团队提出科学论文摘要可以基于方面。

根据ACL(计算语言学协会)制定的审查指南,该小组确定了将要审查论文的八个方面,一个矩阵将被输入系统,以便更好和有效地进行审查。八个方面如下:

  1. 摘要
  2. 动机或影响
  3. 独创性
  4. 声音(准确性)
  5. 物质
  6. 可**性
  7. 有意义的比较
  8. 清晰度

在制定标准并确定判断方面后,团队使用了一种名为BART的预先训练的测序模型。为了确定审查中可能出现的偏差和差异,研究人员定义了一个基本方面评分,用于计算论文中所需积极方面的发生。

在系统设置之后,卡内基梅隆团队本身的论文通过该自动化过程提交审查,并由该模型生成以下摘录:

“本文提出了一种评估科学论文自动汇总系统生成的评论质量的方法。作者从机器学习领域构建了一个名为ASAP-Review1的评论数据集,并为每个评论制作了方面信息的细粒度注释,从而为生成的评论提供了更丰富的评估的可能性关于女性健康知识。他们训练一个总结模型,从科学论文中产生评论,并根据我们的评估m评估输出以上所述。”

结论表明,系统生成的评审相对全面,能够总结主要思想,尽管目前的生命科学状态还不能完全取代人工评审。生成的评论产生了一些不正确的假设,尽管存在这些假设,但它也引用了论文中的关键陈述,使审阅者更容易在论文中发现关键信息。

然而,这种型号的缺点非常严重。团队本身已经认识到分析科学贡献的优点和复杂性的复杂性,并且自动化的审查系统远远不能接近人类审稿人的信心。但是,这个系统可以在很大程度上帮助审稿人筛选已经提交的许多论文。因此,作者建议他们开发的系统已经可以用作机器辅助审核过程中的工具。该研究小组的成员相信,本文中介绍的工具,数量和统计数据以及科学模型将在自动化审查过程中发挥重要作用。

资料来源:袁伟哲,刘鹏飞,格雷厄姆·纽比格“我们能自动进行科学评审吗?”. arXiv.org预打印,2102.00176(2021)。

内容版权声明:除非注明,否则皆为网络转载文章。