AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有

作者: 茕茕 2020-04-08 13:20:49

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

我,一个科技小编,最近在跟国外大佬的邮件交流中,感到飘过六级后的自己英语写作水平那真是日渐捉急。

从句怎么用?时态对不对?看着对面主编犀利的目光,那一瞬间,真想问问自己为什么不good good study, day day up。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

于是,我决定了,我要好好学习英语写作!

想要提升水平,不自己动笔写总是差那么点意思。

那么,问题来了:写的好不好,谁来帮我批改呢?

其实,打从小学开始学英语,小学、中学、四六级、雅思托福……英语作文怎么提高从来都是一个难题。

尤其是各类考试,有严格的评分标准,可身边哪能时时有经验丰富的阅卷老师帮忙有针对性地修改提高呢?

听闻我的烦恼,一位网易有道的胖友向我招了招手:你看我手机里这个红色的App,里面最新上线了一只AI,能帮你批改英文小作文哟。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

对啊,如果AI真的能准确评分,甚至给出修改意见,那像我一样的同学们不就能随时随地把英语作文练到飞起了吗?

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

略一调研,我发现,现在有AI批改英语作文功能的产品还真不少:网易有道词典、微软爱写作(小英)、批改网、Grammarly……

想到现在宅在家里的大朋友、小朋友可能也有同样的困扰,我决定亲自测试一下这些AI们到底靠谱不靠谱。

AI批作文,到底哪家强?

初筛一番,我挑选出了几个免费、容易上手使用的选手参与测评,分别是:网易有道词典AI作文批改,微软爱写作,以及Grammarly免费版。

那么,话不多说,让我们直接进入比赛。

Round 1:手写识别

像小学中学英语考试、四六级以及考研英语、雅思托福考试,实际应试时都需要在纸面上进行写作,因此在练习时,同学们也往往会选择手写。

写完一遍,再打一遍字,未免有些麻烦,如果拍张照,AI就能自己识别我到底写了什么,那就方便多了。

有道AI作文批改和微软爱写作均支持图片识别功能。而Grammarly……由于没有这一功能,这位选手选择暂时退场。

我使出洪荒之力,用非标准应试字体誊写了一篇作文,测试两位选手。

先来看有道AI作文批改的表现:

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

识别得相当准确,有涂改的地方也没有出现误识别的情况,为数不多的几个需要手动修改的地方,基本上都是手写时字母和字母之间空格太大,因此识别时成了两个单词。

再来看一下微软小英的结果:

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

由于我没写标题,小英强制把第一段都识别成了标题。忽略掉这一点的话,识别准确率也很高。但对于标点符号的识别不及有道AI作文批改敏感(上图红色标注处)。

还有个小问题:如果你把两个词写得比较开,小英会识别出多余的空格,检查得不仔细的话,会影响下一步评分的准确性。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

另外,相比于只有网页版的微软爱写作,手机端的有道词典可以直接拍照识别,无需再倒一手把照片传到电脑上,还是要方便一些。

Round 2:纠错能力

如果说OCR只是影响用户使用方便与否的细节,那AI批改作文的重点,当然在于能不能准确抓住作文中的bug。

有道AI作文批改、微软小英和Grammarly都有识别文中语法错误并给出修改意见的功能。

这一轮,我们用一些单句来测试一下谁的Debug能力更强。

例句一:When the girl will leave, she fount an old begger in the tree and looked at angry and cold.

有时态错误,也有拼写错误。

有道揪出了4处错误:

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

具体的判断是:①疑似用词不当,建议将「will leave」修正为「left」;②疑似动词时态错误,建议将「fount」修正为「found」;③疑似名词误用,建议将「begger」修正为「beggar」;④疑似介词「at」冗余,建议删除。

把问题抛给微软小英,它也同样找出了这4处错误,并给出了一个单词替换建议。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

具体判断是:①错误动词时态,将「will leave」改为「left」;②动词用法错误,将「fount」改为「found」;③单词拼写错误,将「begger」改为「beggar」;④冗余,删除「at」;⑤建议将「cold」换成「bitter」、「hard」、「mean」。

最后看一下Grammarly的判断。

Grammarly免费版指出了一处单词拼写错误,并建议我升级付费版。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

同样,在「But this stress didn’t stop me from thinking to attend the biggist activity in our school」这个句子中,有道和小英都指出了3处错误:

介词「to」改「about」;动词「attend」改「attending」;「biggist」拼写错误,改为「biggest」。

而Grammarly免费版还是仅仅指出了「biggist」这个拼写错误。

看来,就免费体验来说,Grammarly的语法修改偏于简单了

最后,给有道AI作文批改和微软小英出一个加试题。

例句二:On a cold morning, while I was watching a girl buy bread and milk in the fiont for me.

对于AI而言,这个句子的识别难点在于,同一个对象涉及了多个错误,「fiont」这个拼写错误后面,紧跟着「for」这个介词使用错误。

面对这一题,有道成功把「in the front of」这个整体识别了出来,既指出了拼写错误,也发现词组中介词的错误。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

而微软小英的改法令人有些看不懂,难道是感应到了句子里主人公的内心戏?

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

这轮比拼结束,小小总结一下。

同样是免费,Grammarly免费版相比于两位中文世界的选手,差距有点大

不过,Grammarly有插件版本,直接写邮件的时候,能够边写边纠错。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

但如果是想要在AI的帮助下提升英语写作能力,Grammarly免费版恐怕不是上佳选择。

而有道AI作文批改和微软小英,都更符合国内的英语学习路径,总体表现都还不错。不过,在错误复杂度提高的时候,有道的表现略胜一筹

Round 3:评分准确度

另一个重点,是评分的准确度。

毕竟,考试都有严格的评分标准,能否依据标准给出准确的打分,对于广大有应试需求的同学们而言还是非常重要的参考指标。

有道AI作文批改和微软爱写作,都支持多学段英语作文批改,涵盖小学、初中、高中、四六级、雅思托福和考研英语

至于Grammarly,作为一款“舶来”应用,并不是很适合我考试大国的风格,没有推出打分功能,亦无法区分学段和考试类型。

不过,使用Grammarly,也可以针对自己的情况进行一些个性化设置,包括Audience(受众)、Formality(正式程度)、Domain(领域)。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

问题还是,免费版选择有限。

我在网上找了一篇 7.5 分的雅思范文,人类老师对这篇作文的评价是:词汇丰富、语法点丰富,并且论证全面。

那么AI会如何评价这篇作文呢?

还是先来看看有道AI作文批改的答卷。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

有道给这篇作文打了8分,并且就词汇、结构、语法和内容都给出了评级。

点击查看点评,还能看到AI阅卷官从词、句、篇章着手,对作文的总体评价,一些更高级词汇的推荐,以及好词的巩固。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

……词汇量较为丰富……文章较为流畅……词汇基础扎实。

这样的评语,与人类老师的判断基本一致。

同样一篇文章,我们来看看微软小英怎么说。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

同样给出了8分,比较特别的是,小英会统计作文中所使用的考纲词汇、逻辑连词和从句数量。

与有道给出的总体评价报告不同,小英给出的是文章结构、句间关系、切题程度、展开程度4个评价指标。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评
AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

需要注意的是,如果想参考文章内容中切题程度这个指标,必须填写文章标题。而展开程度这个指标,我反复试了多篇作文,从高考范文到雅思范文,都是稳定一星……

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评
AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

这轮比拼结束,同样做个小结。

总体而言,有道和小英的评分结果都根据考试类型的不同,与考试评分标准对齐,具有参考价值

在细节上,有道会根据字数、词汇使用情况、语句逻辑及衔接等方面给出综合评价,微软小英则是分点给出建议,主要集中在文章结构句间关系两个方面。

不过,在测试中微软小英出现了一些小bug。

比如六级作文的满分是15分,但在得分界面其最高分却是25分。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

背后技术

看来有道词典批改作文的AI,确实有两把刷子。

出于科技小编的好奇心,我向文章开头给我推荐软件的胖友打听了一下,在这背后究竟是怎样的技术。

以有道为例,其英语作文批改分为三个核心模块:评分模块 + 评语模块 + 纠错模块。

评分模块负责提供总分,及词汇、语法、结构得分,采用的是传统方法 + 深度学习方法。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

评语模块提供全文评语、词汇推荐、范文推荐。

纠错模块提供14个类别的语法错误识别及修正,包括浅层的拼写错误、深层的语法错误等。

其中,拼写纠错运用的是基于BERT的NER实体识别技术。

语法纠错,则被定义为序列到序列的生成问题。核心基于Transformer架构。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

核心模型所做的事,其实类似于翻译:将语法错误的句子翻译成语法正确的句子

此外,在语法纠错中,还采用了迁移学习和对抗学习。用真实语料和基于真实用户错误分布生成的海量伪语料,不断提升模型能力。

AI批改英语作文行不行?雅思考研四六级,打分评语纠错都得有|测评

以上是网易有道词典的质量评估结果。P值为精确率(Precision),R值为召回率(Recall),F0.5为P值与R值的调和平均,其值越高,通常表示算法性能越好。

可以看到,有道AI作文批改的测试结果已达行业领先水平。

好啦,看罢这一篇试用报告,不知道正备考四六级、雅思托福、考研英语的你愿意pick AI为你免费批改作文吗?

AI 英文作业 人工智能
上一篇:中国用时40年将美国拉下王座,专利申请20年增长200倍 下一篇:我让达芬奇给我画了一张像!Google黑科技一键复活绝世经典
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI安全对抗中,只用一招轻松骗过五种神经网络

图像识别作为人工智能最成熟的应用领域,已经大规模落地并服务于人们的日常生活。但在大规模商业化的同时,也面临更多方面的威胁。

张鑫 ·  1天前
盘点人工智能十大经典应用领域、图解技术原理

本文通过案例分门别类地深入探讨人工智能的实际应用。案例甚多,此处所列举的仅是九牛一毛。本该按行业或业务对这些案例进行分类,但相反我选择按在行业或业务中最可能应用的顺序来分类。

Alex Castrounis ·  1天前
详解人工智能十大经典应用领域及其技术原理

本文通过案例分门别类地深入探讨人工智能的实际应用。案例甚多,此处所列举的仅是九牛一毛。本该按行业或业务对这些案例进行分类,但相反我选择按在行业或业务中最可能应用的顺序来分类。

华章科技 ·  1天前
目标驱动系统模式,能否成为实现人工通用智能(AGI)的关键?

组织开发AI方案时采取的一大核心模式,正是目标驱动型系统模式。与其他AI模式一样,这种形式的AI能够解决一系列原本需要人类认知能力才能处理的常见问题。

佚名 ·  1天前
后疫情时代的八大关键技术发展趋势

建立必要的基础架构以支持数字化世界并保持比较新的技术,这对于任何企业或国家在后疫情时代的世界中保持竞争力都至关重要。

Ahmed Banafa ·  2天前
从AI测温到安防机器人 智能安防会是新的“守门神”吗?

说起安防系统,很多人的脑海中会先冒出“监控摄像头”,“电子门禁”等字眼,而随着人工智能的加速发展,传统的安防系统短板也在逐渐暴露,越来越多的新功能开始被需要:人脸识别、车辆检测、夜间识别等等,而我们小时候幻想过的机器人站岗的场景,也正在逐渐变成现实……

王嘉陆 ·  2天前
疫情期间,如何借AI之力持续提升客户忠诚度?

无论是保险公司Farmers Insurance,保险公司Tryg,还是通用汽车金融公司GM Financial,现在纷纷转向聊天机器人与AI技术,借此在疫情时期稳定客户群体。

佚名 ·  2天前
了解有关符号人工智能,象征性AI的好处和局限性

如今,人工智能主要是关于人工神经网络和深度学习。但这并非总是如此。实际上,在过去的十年中,该领域大部分都由象征性人工智能主导,也被称为“经典AI”,“基于规则的AI”和“老式的AI”。

AI国际站 ·  2天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载