我们实验室正在做一个与英语口语考试相关的项目。现在使用的语料是实验室自己采集和标注的。有300个音频,每个1分钟多,总时长5个多小时。任务是朗读文本,受试是初中三年级学生。
因为研究的需要,要总结错误类型和易犯错误的单词。(通常,我们都在音素级来考虑这个问题,比如/ae/容易发错,或者/n/,/l/混淆。但是,现在需要从单词级别来考虑这个问题。)
我听了朗读音频,有的读得很一般,有的甚至很难听出是英文。我根据speech error analysis常用的一些定义,总结了8个错误类型,如substituition (比如有的孩子所有以p开头的单词,像protect...