智能作文评价的效果研究

近年来,智能技术的教育应用方兴未艾。研究显示,人工智能技术具有促进学生知识理解和迁移的巨大潜力,对未来的人才结构变革带来全新的影响。智能作文评价的有效性是影响其推广的重要因素,包括智能作文评分的有效性和反馈精准度两方面。智能作文反馈的精准度对学生写作修改有重要意义,精确度和召回率是已有研究中较常用的衡量指标。调研发现,国外英语智能作文评价系统的实践和研究起步较早,研究成果丰富。相比而言,中文智能作文评价起步较晚,需要更多实证研究回应教育者和学习者的质疑。在此背景下,该研究选取“IN课堂语文作文人机批改系统”作为智能作文评价的平台,尝试通过人机作文评价的多维度比较检验智能作文评价的有效性,并为其推广和应用提供依据和建议。

研究目的与问题

本研究的目的是验证智能作文评分的有效性,并从反馈类型与层次和反馈精准度等方面展开人机作文评价的比较研究。研究问题有以下三项:

  • 智能作文评分的有效性如何?包括:智能作文评分与教师作文评分的一致性与相关性如何?作文长度对二者评分的预测程度是否有差异?
  • 智能作文评价和教师作文评价的反馈类型与层次各有什么特点?
  • 智能作文评价和教师作文评价的反馈精准度表现如何?

研究对象与评价规则

(一)研究对象

研究以智能作文评价结果作为研究对象,选取国内较成熟、使用范围较广的智能作文评价系统——IN课堂语文作文智能批改(简称IN课堂)作为智能作文评价工具。选取Z初中和W高中各两个班的学生作文作为评价样本,分别由语文老师各自布置作文题目,学生当堂完成,共得到149篇作文样本(初中81篇,高中68篇),初中和高中的写作文体分别为记叙文和议论文。研究者将全部作文样本用于智能作文评分有效性的研究,并选取其中101篇的人机批改信息作为作文反馈类型与层次的分析内容(另外48篇因完成时间较晚,错过集中批改期,故未纳入分析),最后,从全部样本中随机抽取20篇作文检验智能作文评价的反馈精准度。

(二)作文评价规则

IN课堂采用中高考作文评分标准对中学生作文评分。为了保证评分标准的一致性,教师依据评分者所在地区的中考作文评分标准和卷面分值,从内容、结构、表达、立意等方面评分,满分40分;高中作文评分遵循语文高考全国卷的评分标准和卷面分值,兼顾内容、表达、发展三个维度,满分60分。为了便于数据分析,研究者以满分60分为标准,对初中作文成绩按比例折算。

数据收集与分析过程

(一)评分有效性的数据收集与分析

研究从两方面验证智能作文评分的有效性:一方面分析智能作文评分和教师作文评分的一致性和相关性,另一方面比较文章长度对两种作文评分的预测程度。在统计智能作文评分和教师作文评分一致性时,研究援引前人文献常用的精确一致和相邻一致两个衡量指标。

智能作文评分与教师作文评分的相关性分析借助SPSS 23软件完成。研究还以作文长度为自变量,分别以智能作文评分和教师作文评分为因变量进行一元回归分析,验证作文长度对智能作文评分和教师作文评分的预测程度。

(二)反馈类型与层次的数据收集与分析

研究选取初中52篇、高中49篇用于反馈类型与层次的分析与比较。IN课堂的机器评阅信息构成智能作文反馈信息;研究者和B教师对初中和高中作文的精批细改形成教师的作文反馈信息。两类反馈信息都被录入Excel文档,接着被拆分为有独立意义的信息单位,即反馈单元。通过拆分,研究共得到2911个作文反馈单元,包括1955个智能作文反馈单元和956个教师作文反馈单元。

研究借鉴威尔逊等提出的作文反馈信息分类方法,并根据国内作文批阅习惯对其略作调整,比如,将“拼写、大小写”合并为“错别字”,将“语法、句子结构”合并为“句式语法”等。

(三)反馈精准度的数据收集与分析

本研究的精确度指系统正确识别项数除以全部识别项数(正确识别项+错误识别项),召回率指正确识别项数除以文本实际错误项数。人机作文评价反馈精准度的检验都使用这两个指标以便互相比较。作文高阶写作技能反馈往往指向主题立意、结构构思等,不宜进行是非判断,因此研究只关注低阶写作技能的直接反馈信息,它们客观性较强,可以判断正误,更适合精确度和召回率的计算和分析。

研究发现

智能作文评分与教师作文评分都在一定程度上受到作文长度的影响,回归方程的拟合度分别为0.35和0.30。这说明,文章长度对智能作文评分与教师作文评分的预测度分别为35%和30%,前者略高于后者,但两者相差不多,都处于合理范围内。智能作文评价的反馈精确度(94.44%)略低于教师作文反馈(95.24%),两种作文反馈识别的文本错误大多都是客观存在的,识别不准确的概率很低,两种作文评价的反馈召回率都有较大的提升空间。

综上所述,中文智能作文评价是认知心理学、计算机科学、教育测量、语言学等多个学科交叉融合的产物,为写作教学注入了新生力量。该研究通过智能作文评价的多维度比较,发现智能作文评分及其反馈信息对师生都有较高的参考价值,为教师与智能作文评价的人机协同教学提供依据。当然,智能作文评价系统也存在问题,面临诸多理念和技术层面的挑战。随着各学科的交叉融合和发展,智能作文评价的评分效度和反馈质量也一定会不断提升,为个性化写作教学与评价创造更多可能。在“智能+”时代,语文教育者应积极探索人机协同写作教学的最佳路径,寻求师生与智能作文评价系统共处与互动的合宜方式。

参考文献

刘淑君,李艳,杨普光,李小丽,高红芳.智能作文评价的效果研究[J].开放教育研究,2021,27(03):73-84.

Scroll to Top
Scroll to Top