读《数学之美》
  • 读《数学之美》
  • 第 0 章 序言 前言
  • 第 1 章 文字和语言 vs 数字和信息
  • 第 2 章 自然语言规则——从规则到统计
  • 第 3 章 统计语言模型
  • 第 4 章 谈谈中文分词
  • 第 5 章 隐含马尔可夫模型
  • 第 6 章 信息的度量和作用
  • 第 7 章 贾里尼克和现代语言处理
  • 第8章 简单之美——布尔代数和搜索引擎的应用
  • 第 9 章 图论和网络爬虫
  • 第 10 章 PageRank——Google民主表决式网页排名技术
  • 第 11 章 如何确定网页和查询的相关性
  • 第 12 章 地图和本地搜索的最基本技术
  • 第 13 章 Google ak-47 的设计者
  • 第 14 章 余弦定理和新闻分类
  • 第 15 章 矩阵运算和文本处理中的两个分类问题
  • 第 16 章 信息指纹及其应用
  • 第 17 章 谈谈密码学的数学原理
  • 第 18 章 闪光的不一定是金子——谈谈搜索引擎
  • 第 19 章 谈谈数学模型的重要性
  • 第 20 章 谈谈最大熵模型
  • 第 21 章 拼音输入法的数学原理
  • 第 22 章 自然语言处理的教父马库斯和他的优秀弟子们
  • 第 23 章 布隆过滤器
  • 第 24 章 马尔科夫链的扩展——贝叶斯网络
  • 第 25 章 条件随机场和句法分析
  • 第 26 章 维特比和他的维特比算法
  • 第 27 章 再谈文本自动分类问题——期望最大化EM
  • 第 28 章 逻辑回归和搜索广告
  • 第 29 章 各个击破算法和Google云计算的基础
Powered by GitBook
On this page
  • 文字和数字的历史
  • 关于翻译
  • 文字和语言背后的数学
  • 关于语言和语法
  • 小结

第 1 章 文字和语言 vs 数字和信息

Previous第 0 章 序言 前言Next第 2 章 自然语言规则——从规则到统计

Last updated 7 years ago

语言和数学的产生都是为了记录和传播信息。

任何事物的规律性是内在的,不随着载体的改变而改变。

文字和数字的历史

简单的声音不能满足沟通的需求,语言由此产生——随着对新鲜事物的学习,用来描述共同因素的语言被抽象成词汇——语言和词汇多到难以记忆,便产生了文字——文字多到难以记忆时,概念的概括和归纳就开始了——文字按照意思来聚类会产生歧义,可以利用上下文来消除——不同文明相互融合,于是产生翻译——记录物件数量,计数系统产生(10位以内掰指头,10位后使用10进制,后产生数量级)——阿拉伯数字的产生标志着数字和文字的分离,奠定了数学未来的发展。

事物发展到一定阶段时,会变得复杂起来,这时会有新的事物来代替它。新的事物看起来简单,但这种简单也是它的复杂性之所在,因为它又需要其它事物来进行解释。从这方面来说,事物之间并不存在好坏之分,放到合适的位置上便是好的。

关于翻译

翻译之所以能达成,是因为不同的文字在记录信息上的能力是等价的。即文字只是信息的载体,而非信息本身。信息冗余是信息安全的保障,只要有一份内容完好保存下来,原有信息就不会丢失。双语或者多语的对照语料对翻译至关重要,它是机器翻译的基础。

文字和语言背后的数学

楔形/象形文字诞生——为方便雕刻,简化成22个字母——为方便学习,拼写和读音结合(将物体外表编码为抽象概念,常用字短,生僻字长)——为节省信道,传播信息前需进行压缩,接收后再解压,并校验——语法使语言表达更准确、更丰富。

关于语言和语法

语言坚持从真实语句文本(即语料)出发,语法坚持从规则出发,前者在自然语言处理上获胜。

小结

讲述文字、数字和语言的历史,感受语言和数学的天然、内在的联系。

通信方式