1.6 形式语言和自然语言
自然语言 (natural language) 是人们交流所使用的语言,例如英语、西班牙语和法语。它们不是人为设计出来的(尽管有人试图这样做);而是自然演变而来。
形式语言(formal languages) 是人类为了特殊用途而设计出来的。例如,数学家使用的记号(notation) 就是形式语言,特别擅长表示数字和符号之间的关系。化学家使用形式语言表示分子的化学结构。最重要的是:
编程语言是被设计用于表达计算的形式语言。
形式语言通常拥有严格的语法规则,规定了详细的语句结构。例如,3 + 3 = 6 是语法正确的数学表达式,而 3+ = 3$6 则不是;H2O 是语法正确的化学式,而 2Zz 则不是。
语法规则有两种类型,分别涉及记号 (tokens) 和结构。记号是语言的基本元素,例如单词、数字和化学元素。3+ = 3$6 这个式子的问题之一,就是 $ 在数学中不是一个合法的记号(至少据我所知)。类似的,2Zz 也不合法,因为没有一个元素的简写是 Zz 。
6 第一章 程序之道
第二种语法规则与标记的组合方式有关。3+ = 3 这个方程是非法的,因为即使 + 和= 都是合法的记号,但是你却不能把它们俩紧挨在一起。类似的,在化学式中,下标位于 元素之后,而不是之前。
This is @ well-structured Engli$h sentence with invalid t*kens in it. This sentence all valid tokens has, but invalid structure with. 3
当你读一个用英语写的句子或者用形式语言写的语句时,你都必须要理清各自的结构
(尽管在阅读自然语言时,你是下意识地进行的)。这个过程被称为解析 (parsing)。虽然形式语言和自然语言有很多共同点— 标记、结构和语法,它们也有一些不同:
歧义性 (ambiguity): 自然语言充满歧义,人们使用上下文线索以及其它信息处理这些歧义。形式语言被设计成几乎或者完全没有歧义,这意味着不管上下文是什么, 任何语句都只有一个意义。
冗余性 (redundancy): 为了弥补歧义性并减少误解,自然语言使用很多冗余。结果, 自然语言经常很冗长。形式语言则冗余较少,更简洁。
字面性 (literalness): 自然语言充满成语和隐喻。如果我说 “The penny dropped’’,可能根本没有便士、也没什么东西掉下来(这个成语的意思是,经过一段时间的困 惑后终于理解某事)。形式语言的含义,与它们字面的意思完全一致。
由于我们都是说着自然语言长大的,我们有时候很难适应形式语言。形式语言与自然语 言之间的不同,类似诗歌与散文之间的差异,而且更加明显:
诗歌 (Poetry): 单词的含义和声音都有作用,整首诗作为一个整理,会对人产生影响, 或是引发情感上的共鸣。歧义不但常见,而且经常是故意为之。
散文 (Prose): 单词表面的含义更重要,句子结构背后的寓意更深。散文比诗歌更适合分析,但仍然经常有歧义。
程序 (Programs): 计算机程序的含义是无歧义、无引申义的,通过分析程序的标记和结构,即可完全理解。
形式语言要比自然语言更加稠密,因此阅读起来花的时间会更长。另外,形式语言的结 构也很重要,所以从上往下、从左往右阅读,并不总是最好的策略。相反,你得学会在 脑海里分析一个程序,识别不同的标记并理解其结构。最后,注重细节。拼写和标点方 面的小错误在自然语言中无伤大雅,但是在形式语言中却会产生很大的影响。
3译注:上面两句英文都是不符合语法的,一个包含非法标记,另一个结构不符合语法。