今天,用“私生子”这个词来形容一朵花似乎很奇怪——为什么要用一个人身虐待的词来形容一朵花呢?但在莎士比亚时代,“杂种”是描述某些植物的技术术语。

语言学家如何使用数字解开莎士比亚话语的含义

同样,将“坏”这个词与成功联系起来并谈论“坏的成功”在今天显然是奇怪的。但这在当时并不罕见,成功意味着结果,可能是好是坏。

语料库语言学是语言学的一个分支,它使用计算机来探索大量语言集合中单词的使用。它可以发现手动工作的语言学家可能会忽略的细微差别,或者一生研究可能无法揭示的大模式。数字、单词数以及跟踪单词出现的位置是关键。

根据我在会议等方面的经验,在文学研究领域,关于数字的讨论并没有得到一致的好评。数字有时被认为是简化的,或者在讨论创意作品时不合适,或者只有专家才能使用。

然而,描述任何模式都涉及数字。在上面的第一段中,我使用“正常”、“奇怪”和“不寻常”等词作为描述频率(出现次数)的软方式(也可以考虑,例如“独特”、“罕见”、“常见”)”)。

甚至谈论“关联”也涉及到数字。关联通常是由两个或多个事物之间异常大量的相遇而演变而来的。数字帮助我们看清事物。

改变意义

我和兰卡斯特大学的团队一起使用计算机检查了从莎士比亚戏剧的百万字语料库(书面文本的集合)中收集到的约20,000个单词,从而产生了一种新型词典。

人们以前已经创建过莎士比亚词典,但这是第一个使用全套语料库技术的词典,也是第一个进行比较的词典。它不仅考察莎士比亚戏剧中的单词,还将它们与当代早期现代戏剧的百万字语料库以及该时期各种著作的3.2亿字的庞大语料库进行比较。

当然,近代早期英国的语言在莎士比亚之外也有其存在。“Bastard”通常是指杂交植物的术语,出现在园艺技术文本中。

它可能并且偶尔被用于个人虐待,例如在《李尔王》中,埃德蒙被称为“私生子”。但这不是一般性的辱骂术语,更不是你今天可能看到的玩笑。这是对他非婚生、基因混血、内心可疑的尖锐攻击。

“坏”这个词现在不再与“成功”这个词联系在一起,但在400年前,它与其他负面词一样,包括“灾难性的”、“不幸的”、“生病的”、“不快乐的”和“不幸的”。

我们可以通过检查一个单词的搭配来挖掘它的联想,即它经常出现的单词(就像我们部分地根据人们所结交的人来对他们做出判断一样)。通过这种方式,我们可以看到“成功”的含义是“结果”,而这个结果,考虑到它的搭配,可能是好的,也可能是坏的。

高频词

我们可以利用直觉来猜测一些单词模式。毫不奇怪,在早期现代英语中,“邪恶”一词在当时的宗教文本中频繁出现。但不太直观的是,“我们自己”也是如此,这个词与布道和戏剧有关,两者都有一个共同的习惯,就是对地球上的人做出陈述。

经常被历史词典和参考书排除的高频词通常是看似无关紧要的短词。他们面临着以木换树的问题。

然而语料库技术突出了有趣的模式。事实证明,谦逊的介词“by”的常见含义是宗教性的:通过援引神性(例如“byGod”)来强化陈述的诚意。

数字还可以揭示莎士比亚作品中发生的事情。莎士比亚笔下的女性角色经常使用诸如“唉”或“啊”之类的常用词,这表明她们在戏剧中,尤其是在他的历史中,发挥着哀悼的情感作用。

不常用词

不常见的又怎样呢?在莎士比亚作品中只出现过一次的单词——所谓的“hapaxLegomena”——是非常有趣的。《特洛伊罗斯与克瑞西达》中的一例“骨痛”让人想起梅毒,它所适用的,会带来可怕的折磨。相比之下,《李尔王》中的“亲耳”是莎士比亚对耳语的更令人愉快和创造性的隐喻(有趣的是,其他作家用它来表示奉承的概念)。

另一组有趣的不常见单词涉及似乎最早出现在莎士比亚作品中的单词。语料库技术使我们能够在拼写变异的困境中航行。例如,在拼写标准化之前,搜索“sweet”一词会错过拼写为“sweete”、“swete”或“svveet”的情况。

通过这种方式,我们可以更好地确定作者所写的单词是否确实是最早的实例。莎士比亚的首创包括相当无聊的“无分支”(安东尼和克利奥帕特拉),这个词可能不是莎士比亚创造的,而只是首先记录在他的文本中。但也有更具创意的“刺耳”(《奥赛罗》)和听起来明显现代的“自残”(《错误喜剧》和《理查二世》)。

为什么历史语料库语言学现在会取得这些进展?产生这些发现的大部分技术直到最近才到位。

处理拼写变化的程序(例如Vard)或以复杂的方式分析大量电子文本的程序(例如CQPweb),更不用说大量计算机可读的早期现代语言数据(例如EEBO-TCP),直到近10年左右才被广泛使用。因此,我们对莎士比亚等主要作家的理解和欣赏即将大幅增加。