片刻的犹豫……是的,这里是句号——但那里不应该有一个逗号吗?或者连字符会更好吗?标点符号可能很麻烦;它常常被简单地忽略。错误的!最近的统计分析描绘了一幅不同的图景:标点符号似乎是从所有(被检查的)语言共有的基础中“长出来”的,而且它的特征远非微不足道。

主要语言文学中的标点符号是有趣的数学

对许多人来说,标点符号似乎是一种必要的邪恶,只要有可能就可以愉快地忽略。最近对世界上当前主要语言的文学作品的分析要求我们改变这种观点。事实上,在以七种语言(主要是西方语言)编写的数百部作品中,已经观察到标点符号使用模式的相同统计特征。

标点符号,所有十个代表都可以在本文的介绍中找到,结果证明是对所研究的每一种语言的数学完美的普遍和不可或缺的补充。关于逗号、感叹号或句号的作用的如此非凡的结论来自位于克拉科夫的波兰科学院核物理研究所(IFJPAN)的科学家发表在《混沌、孤子与分形》杂志上的一篇文章.

“目前的分析是我们早期关于世界文学作品中句子长度变化的多重分形特征的结果的扩展。毕竟,什么是句子长度?无非就是到下一个特定标点符号的距离-句号.因此,现在我们在统计放大镜下获取了所有标点符号,我们还研究了翻译过程中标点符号会发生什么情况,”StanislawDrozdz教授(克拉科夫科技大学IFJPAN)说。

研究了两组文本。对每种语言中标点符号的主要分析是对240部极受欢迎的文学作品进行的,这些文学作品以七种主要西方语言编写:英语(44)、德语(34)、法语(32)、意大利语(32)、西班牙语(32)、波兰语(34)和俄语(32)。这种特定的语言选择是基于一个标准:研究人员假设至少有5000万人会使用该语言,并且用该语言撰写的作品应该获得不少于五项诺贝尔文学奖。

此外,为了研究结果的统计有效性,每本书必须包含至少1,500个由标点符号分隔的单词序列。准备了一个单独的集合来观察标点符号在翻译中的稳定性。它包含14部作品,每部作品都有所研究的每种语言版本(但是,98种语言版本中有两个由于无法获得而被省略)。

总的来说,这两个系列的作者包括康拉德、狄更斯、道尔、海明威、吉卜林、奥威尔、塞林格、伍尔夫、格拉斯、卡夫卡、曼、尼采、歌德、拉斐特、大仲马、雨果、普鲁斯特、凡尔纳、埃科、塞万提斯、显克微支或雷蒙。

克拉科夫研究人员的注意力主要集中在连续标点符号之间距离的统计分布上。很快就很明显,在所有研究的语言中,最好的描述是威布尔分布的一种精确定义的变体。

这种类型的曲线具有特征形状:它首先快速增长,然后在达到最大值后稍微缓慢地下降到某个临界值,低于该临界值它以较小且不断下降的动态达到零。Weibull分布通常用于描述生存现象(例如人口作为年龄的函数),但也用于描述各种物理过程,例如材料的疲劳增加。

“我们在分析中包含的标点符号类型越多,标点符号之间的单词序列长度分布与Weibull分布的函数形式的一致性越好;对于所有标记,一致性几乎是完整的。同时时间,不同语言之间的分布存在一些明显差异,但这些仅相当于为特定于所讨论语言的分布参数选择略有不同的值。因此,标点符号似乎是所研究的所有语言的组成部分”,Drozdz教授指出。

片刻之后,他又带着几分兴致补充道:“……既然威布尔分布与诸如生存之类的现象有关,那么可以毫不开玩笑地说,标点符号在其本质上确实是一种内在的斗争生存。”

下一阶段的分析包括确定危险函数。在标点符号的情况下,它描述了成功的条件概率——即下一个标点符号的概率——如果在分析的序列中还没有出现这样的标记,它是如何变化的。

这里的结果很清楚:使用标点符号的倾向最低的语言是英语,紧随其后的是西班牙语;斯拉夫语言被证明是最依赖标点符号的。所研究的六种语言中标点符号的风险函数曲线似乎遵循相似的模式,它们的不同之处主要在于垂直偏移。

德国人被证明是个例外。它的风险函数是唯一与为其他语言构建的大部分曲线相交的函数。因此,德语标点符号似乎结合了许多语言的标点符号特征,使其成为一种世界语标点符号。

以上观察与接下来的分析相吻合,即看是否能在译文中看到原著的标点符号特征。不出所料,最忠实地将标点符号从原始语言转换为目标语言的语言竟然是德语。

在口头交流中,人类生理学可以证明停顿是合理的,例如需要喘口气或花点时间在脑海中构建接下来要说的话。在书面交流中?

“通过一个接一个地添加单词来造句,同时确保信息清晰明确,这有点像拉紧弓弦:一开始很容易,但随着时间的推移变得越来越苛刻。如果没有顺序文中的元素(这就是标点符号的作用),随着字串的拉长,解读的难度也随之增加。弓太紧容易折断,句子太长容易看不懂。因此,作者面临着‘释放箭头’的必要性,即用某种标点符号关闭一段文本。这一观察适用于所有分析的语言,因此我们正在处理可以称为语言法则的问题,”博士说.TomaszStanisz(IFJPAN),相关文章的第一作者。

最后,值得注意的是,标点符号的发明时间相对较晚——旧文本中根本没有出现标点符号。因此,现代书面语言中最佳标点符号模式的出现可以解释为它们进化进步的结果。然而,对标点符号的过度需求并不一定是这种老练的标志。

根据上述研究,英语和西班牙语这两种当代最通用的语言似乎对标点符号的使用频率没有那么严格。很可能这些语言在句子结构方面非常正式,以至于需要用标点符号解决的歧义空间较小。