已报名北外语料库语言学。

是考研。名字变了,参考书也变了。在淘宝上买了往年的真题,不知道还有没有参考价值?原来那本Jurafsky还需要看吗?
 
Last edited:
回复: 已报名北外语料库语言学。

我先写点自己的认识。手上只有11-14年四年的真题,所以只能拿它们来分析。两门专业课——「计算语言基础」(11年叫做「基础英语(计算语言学)」)和「自然语言处理基础」,分开来说。

1「计算语言基础」

如同11年考卷的标题暗示的,这一科大致上还逃不出基础英语的范围。四年里,有一道分值100分的大题从未缺席,其形式是阅读一篇文章,然后翻译(50分)、转述(20分)以及总结大意(30分)。其中,文章的主题都与语言学相关;翻译的题量较大;转述从11年的用汉语转述变成了后三年的用简单的英语转述;总结大意则一律规定为500汉字。可以看出,这些题目需要一定的语言学知识,但关键还是考察英语基础。

再来看另外50分。11年和12年都考了30分的填空题,13、14年则用这30分考了考名词解释。填空题的形式是在一篇文章中填一些常见搭配的词组,较为基础。要解释的名词则都紧紧关系语料库。我认为填空题并不考察「计算语言」相关的内容,又较为容易,所以不会再出。

最后20分最为特殊。11年和13年都是给出一个concordance的截图,让答题者从中归纳总结,区别在于11年的单词是「caused」,13年的是「cause」(包括了词形变化)。12年的这20分给在了一道十分特殊的题目上,一共三十句话和三十个空,每三句要求用同样的词填入,使句子通顺。14年呢,则是给出了「account」一词的collocational analysis,要求你描述这个词的用法,并要记住「你是在给一本学习者词典撰写内容」。

我认为12年的这道题虽然不容易做,但也与「计算语言」关系不大。另三年的题目则直接用到了语料库,与考试主题关系密切。

2 「自然语言处理基础」

这一科就要难分析得多。除了每年都有的一道「描述你感兴趣的课题并给出解决方法」、「介绍你想做的语言处理项目」这样开放性的、价值50分的大题以外,其他题目并无什么总的规律,只能罗列一下都考过些什么:

a 开放性题目。「描述你设想的语料库加工处理过程」、「介绍一种你熟悉的语言资源」。
b 有限状态转移图。11年给出图写实例,13年给出正则表达式,要求画出状态转移图并且写出实例。
c 正则表达式。除了上面提到的13年那道,14年给出要求和测试文本,写四个正则表达式。
d 句法分析树。11年给出树写出各种符号,列出语法规则。14年给出一些概率数据,判断一句话应该理解成哪一棵树。12年给出一句话,要求用「某种语法体系」进行解释,也属于这一类。
e 分词。给出一些概率,判断一串字符应该如何分词。
f 比较一句话与另两句话的相似程度。
g 给出了不合法的构词形式,说明原因。
h 根据索引行总结词义。(与「计算语言基础」中的题目类似)
i 罗列并解释一句话的几种歧义。
j 像是名词解释的题。「指出「stemming」和「lemmatization」的区别及分别如何实现。」「试述你对「将互联网与语料库研究结合起来」的看法。」
k 「汉语和英语各有哪些表示某人何时出生的表述模式?」
l 给出一双语(平行?)语料库中的句对,总结规律。(英语和用罗马字写的日语……)

因为这一科叫做「自然语言处理基础」,因此考察的内容不仅有语料库,更有nlp。但是改革以后,nlp消失了,不仅从名字里,也从参考书里。接下来再说说改名字和改参考书的事儿。

3 二零一五(四?)

我所知道的是,今年,本方向的名称从「计算语言学」改名「语料库语言学」,考试科目由「计算语言基础」「自然语言处理基础」改为「语言学基础」「语料库语言学」,而参考书目则去掉了Jurafsky的「Speech and Language Processing」(一本自然语言处理的综合性著作),加上了McEnery的「Corpus Linguistics: Method, Theory and Practice」(一本有关语料库各方面的总论)和Yule的「The Study of Language」(一本经典而常见的语言学导论),另外外研中心几位老师自己编写的《语料库应用教程》则没有变化;我所不知道的是,这一切意味着什么。因此我只能作一些猜测,而事实究竟如何只有等我12月底坐在考场拿到试卷才能知道。

我坦白承认自己对无论计算语言学、自然语言处理还是语料库语言学都所知甚少,故不敢妄谈它们之间究竟有什么分别和联系。因为「语言学基础」这一科继承之前的「计算语言基础」,因此有一些确定无疑的结论总是可以得出的。但疑问就在于语料库的内容是否也会夹杂其中,对此我有两种看法:

a 根据两门考试的名称,「语言学」、「语料库语言学」各自分工,则这一科应当考察普通语言学,与语料库无涉。
b 根据考试的语言要求,这份英文试题对应两本英文的参考书,故试卷中也会包含语料库的内容。

因此对这一科,结论就是:相比「计算语言基础」,变化不会太大。有100分的题目甚至不会改变题型;除此之外的题目会以何种方式出现,其中会考多少普通语言学或者语料库语言学的知识,无法确定。

对于「语料库语言学」,我不知道有限状态机、句法分析树这些更偏nlp,并且指定教材中并不涉及的内容会不会再考。至于题型如何会怎么出题更不能确定。

这个帖子的目的,其实就是表达上面这么一个疑惑,没想到也帮自己梳理了一遍真题。最后说一下自己的情况:跨专业应届考生。专业跨得非常之大,只希望考上的概率不会非常之小就好。算是求援,也算是求愿。

以上。
 
Last edited:
计算语言学可能更多从理论角度来说,NLP主要是从工程角度来说的。其实没啥差别,就是名字不一样。Corpus linguistics估计只能算是语言学下的一个分支?因为NLP的研究面宽很多,光是语言(指written language)的就还包括机器翻译,信息提取,sentiment analysis等等,语音方面的还有语音识别,语音合成等等。而corpus并不涉及这么多的东西。
 
回复: 已报名北外语料库语言学。

考完一个月了,感觉已经什么都不记得了。

感觉考得很差。「语料库语言学」那一科几乎是乱答的。果然没有考任何正则表达式、句法树这些简单的东西……
 
回复: Re: 已报名北外语料库语言学。

计算语言学可能更多从理论角度来说,NLP主要是从工程角度来说的。其实没啥差别,就是名字不一样。Corpus linguistics估计只能算是语言学下的一个分支?因为NLP的研究面宽很多,光是语言(指written language)的就还包括机器翻译,信息提取,sentiment analysis等等,语音方面的还有语音识别,语音合成等等。而corpus并不涉及这么多的东西。

确实。在 NLP 语境里,corpus 仅仅是个工具而已。

但在 corpus 自己的语境里,NLP 也给我们提供了许多发展 corpus 的工具……
 
Back
顶部