第 4 章 谈谈中文分词
利用统计模型进行自然语言处理,这些语言模型是建立在词的基础上的,因为词是语义的最小单位。在此之前,需要对句子进行分词。
常见分词方法——查字典
把一个句子从左往右扫描一遍,遇到字典里有的词就标识出来,遇到复核词(如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词。该方法能解决七八成问题,然而对二义性的分割无能为力(如发展-中-国家、发展-中国-家)。
处理二义性
最好的分词方法应该保证分完词后,该句子出现的概率最大,但是如果穷举所有的分词方法并计算所有可能的概率,计算率太大。对此,不同的应用,分词的颗粒度应采用不同的大小,即不同的应用应该有不同的分词系统。
关于词的颗粒度和层次
不同的人对词的切分方法差异甚大,其主要原因是对词的颗粒度的认识不一致。在不同的应用中,词的颗粒度可能很不一样,如在机器翻译中,颗粒度大翻译效果好,在网页搜索中则相反。如果对不同的应用构造不同的分词系统,会很浪费,最好的方法是让一个分词器同时支持不同层次的词的切分,然后由不同的应用自行决定采用哪个颗粒的切分。
分词器的准确性
应避免越界型错误、覆盖型错误、颗粒不一致。越界型错误,如“北京大学生”分为“北京大学——生”。覆盖型错误,如"贾里尼克”拆成了四个字。错误要尽可能消除。关于颗粒不一致,需要多做些数据挖掘工作,完善不同应用的复合词词典。
小结
不同人做的分词器有好有坏,其差别主要在于数据的使用和工程实现的精度。
Last updated