在线考试系统主观题何时才能智能阅卷评分?
这个问题可太难回答了。众所周知,批阅主观题需要缜密的逻辑思维能力,这就需要用到AI技术,也就是人工智能。
人工智能带来了无限的憧憬。尽管在不少科幻电影中都是人机大战的题材,但不得不承认的是,如果电脑也能够独立进行思考,必然推动人类社会进入一个新的纪元。
人工智能 |
在理想状态下,AI能够代替人工来完成考试试卷的批阅工作,而考试组织者只需要坐等数据报表即可。甚至,一整套繁琐的考试流程,管理员只要对电脑下达指示就可以实现,都不用自己动手。
梦想总是要照进现实的,要实现这个终极目的,有两个解决方案。两种不同的方案造就了强人工智能和弱人工智能。
模拟法-强人工智能
模拟法不仅要求系统实现智能的结果,还要求实现过程完全模拟人脑神经细胞的活动方式,即真正的智能。
AI在具体应用的过程中可能会犯错,但也会随着不断犯错而自我改进,最终应对各种复杂状况。
遗憾的是这种方法目前只停留在想法层面,技术上尚未入门,根本无从下手。
工程法-弱人工智能
工程法是退而求其次的解决办法,也就是通过计算机编程技术诞生的AI。
这样处理的结果是系统虽然看上去呈现“智能”效果,但实际上是无数计算或大数据的分析处理过程。
比如电脑下棋,电脑的每一个落子都是通过计算得来的最优解,人脑很难将其战胜。
对于在线考试系统来说,要实现主观题的自动阅卷,也只能够被迫采用工程法创造的弱人工智能来解决。
轻速云在设计上一直都有对应的设置,尽管我们从来没有刻意强调或推荐用户使用,但这个功能还是被大家给发现了。
萌新三连 |
既然有用户专门提问,那小云在这里就简单来介绍一下主观题自动评分的设置以及具体使用上的限制。
在题库中简答题的编辑界面中可以找到极不起眼的答案设置区。点击“新增关键词”按钮,即可对主观题答案设置多个关键词。当考生作答结果中出现设置的关键词时,视为与参考答案有一定关联。
设置中的关键词级别越高,说明对应的关键词越重要,那么在得分上可以更加倾斜一些。
以下面这道题为例:
1842年签订的《南京条约》是中国近代史上第一个不平等条约,那么《南京条约》的主要内容是什么?
具体题目 |
我们知道,南京条约的主要内容是“割地赔款、五口通商以及关税协定”,因此可以有针对性的设置相关的关键词,如下图。
关键词设置 |
要想使得评分准确,则需要相对应设置更加复杂和完整的关键词。关键词最多可以设置5组。当正式组卷时,通过试卷管理,可以设置简答题自动评分标准。
评分标准 |
当考生填写的答案与设置的关键词吻合时,则根据设定的评分标准,将触发的各个关键词得分求和,作为简答题的具体得分。
比如在下面的答案中,触发了所有的关键词,则按照设置,考生最终得到10分的满分。
评分结果 |
在正常情况下,看上去通过关键词设置能够解决问题,但是在实际的应用中很难。
比如“割香港岛给英国”和“把香港岛割给英国”表达的是完全相同的意思,但后者描述中由于不包含设置的关键词而无法得分。即使考试组织者在设置关键词时再怎么深思熟虑,始终却无法面面俱到地兼容考生的所有表述方式。
再比如“开放广州、厦门、福州、宁波、上海作为通商口岸”是正确答案,但如果考生回答“开放北京、天津、重庆、成都、南京作为通商口岸”,由于作答中包含设定的关键词,也同样会被系统认为是正确答案。但很显然,这个答案是错误的。
正因如此,对于主观题来说,关键词评分法只能作为一个辅助的给分手段,并不能够绝对保证评分过程中不出现纰漏。
当在线考试主观题也能够被系统智能准确的评分时,说明前面提到过的强人工智能已经发展到了相当的高度。不过就实际情况来看,这个梦想仍然还任重而道远。