您当前的位置: 首页 >  Python

科大云炬

暂无认证

  • 4浏览

    0关注

    507博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

[云炬ThinkPython阅读笔记]1.6 形式语言和自然语言

科大云炬 发布时间:2022-01-28 23:45:12 ,浏览量:4

1.6 形式语言和自然语言

自然语言 (natural language) 是人们交流所使用的语言,例如英语、西班牙语和法语。它们不是人为设计出来的(尽管有人试图这样做);而是自然演变而来。

形式语言(formal languages) 是人类为了特殊用途而设计出来的。例如,数学家使用的记号(notation) 就是形式语言,特别擅长表示数字和符号之间的关系。化学家使用形式语言表示分子的化学结构。最重要的是:

编程语言是被设计用于表达计算的形式语言。

形式语言通常拥有严格的语法规则,规定了详细的语句结构。例如,3 + 3 = 6 是语法正确的数学表达式,而 3+ = 3$6 则不是;H2O 是语法正确的化学式,而 2Zz 则不是。

语法规则有两种类型,分别涉及记号 (tokens) 和结构。记号是语言的基本元素,例如单词、数字和化学元素。3+ = 3$6 这个式子的问题之一,就是 $ 在数学中不是一个合法的记号(至少据我所知)。类似的,2Zz 也不合法,因为没有一个元素的简写是 Zz 。

6 第一章 程序之道

第二种语法规则与标记的组合方式有关。3+ = 3 这个方程是非法的,因为即使 + 和= 都是合法的记号,但是你却不能把它们俩紧挨在一起。类似的,在化学式中,下标位于 元素之后,而不是之前。

This is @ well-structured Engli$h sentence with invalid t*kens in it. This sentence all valid tokens has, but invalid structure with. 3

当你读一个用英语写的句子或者用形式语言写的语句时,你都必须要理清各自的结构

(尽管在阅读自然语言时,你是下意识地进行的)。这个过程被称为解析 (parsing)。虽然形式语言和自然语言有很多共同点— 标记、结构和语法,它们也有一些不同:

歧义性 (ambiguity): 自然语言充满歧义,人们使用上下文线索以及其它信息处理这些歧义。形式语言被设计成几乎或者完全没有歧义,这意味着不管上下文是什么, 任何语句都只有一个意义。

冗余性 (redundancy): 为了弥补歧义性并减少误解,自然语言使用很多冗余。结果, 自然语言经常很冗长。形式语言则冗余较少,更简洁。

字面性 (literalness): 自然语言充满成语和隐喻。如果我说 “The penny dropped’’,可能根本没有便士、也没什么东西掉下来(这个成语的意思是,经过一段时间的困 惑后终于理解某事)。形式语言的含义,与它们字面的意思完全一致。

由于我们都是说着自然语言长大的,我们有时候很难适应形式语言。形式语言与自然语 言之间的不同,类似诗歌与散文之间的差异,而且更加明显:

诗歌 (Poetry): 单词的含义和声音都有作用,整首诗作为一个整理,会对人产生影响, 或是引发情感上的共鸣。歧义不但常见,而且经常是故意为之。

散文 (Prose): 单词表面的含义更重要,句子结构背后的寓意更深。散文比诗歌更适合分析,但仍然经常有歧义。

程序 (Programs): 计算机程序的含义是无歧义、无引申义的,通过分析程序的标记和结构,即可完全理解。

形式语言要比自然语言更加稠密,因此阅读起来花的时间会更长。另外,形式语言的结 构也很重要,所以从上往下、从左往右阅读,并不总是最好的策略。相反,你得学会在 脑海里分析一个程序,识别不同的标记并理解其结构。最后,注重细节。拼写和标点方 面的小错误在自然语言中无伤大雅,但是在形式语言中却会产生很大的影响。

3译注:上面两句英文都是不符合语法的,一个包含非法标记,另一个结构不符合语法。

关注
打赏
1656131973
查看更多评论
立即登录/注册

微信扫码登录

0.1614s