NLP入门干货:手把手教你3种中文规则分词方法

作者: 杜振东 涂铭 2020-10-28 14:03:22

在自然语言理解中,词(token)是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界。因此,每个NLP工作者都应掌握分词技术。

1. 分词的概念和分类

“词”这个概念一直是汉语言学界纠缠不清而又挥之不去的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题迄今为止也未能有一个权威、明确的表述,当今更是没有一份令大家公认的词表。

问题的主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界很难进行界定。比如在英语中,单词本身就是“词”的表达,一篇英文文章的格式就是“单词”加分隔符(空格)。

而在汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分。因此,需要针对中文汉字,将其按照一定的方式进行组织,分成不同的词。

中文分词是让计算机自动识别出句子中的词,然后在词间加入边界标记符。这个过程看似简单,然而实践起来要复杂得多,主要困难在于分词歧义。

下面以NLP分词的经典场景为例进行说明,短语“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”呢?对于这个问题,机器很难处理。此外,像未登录词、分词粒度粗细等都是影响分词效果的重要因素。

自中文自动分词被提出以来,历经近30年的探索,先后出现了很多分词方法,可主要归纳为规则分词、统计分词和混合分词(规则+统计)这3个流派。最近这几年又兴起了以深度学习的方式进行分词,比如BILSTM+CRF。

规则分词是最早兴起的方法,主要通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对没有录入词库的新词很难进行处理。

随后统计机器学习技术兴起,应用于分词任务上就有了统计分词方法。该方法能够较好地应对新词发现等特殊场景。然而在实践中,单纯的统计分词也有其缺陷:太过依赖语料的质量。因此实践中多是采用规则分词和统计分词这两种方法的结合,即混合分词。

2. 规则分词

基于规则的分词是一种机械分词方法,需要不断维护和更新词典,在切分语句时,将语句的每个字符串与词表中的每个词进行逐一匹配,找到则切分,找不到则不予切分。

按照匹配划分,主要有正向最大匹配、逆向最大匹配以及双向最大匹配这3种切分方法。

1. 正向最大匹配

正向最大匹配(Maximum Match)通常简称为MM法,其执行过程如下所示。

  • 从左向右取待切分汉语句的m个字符作为匹配字段,m为机器词典中最长词条的字符数。
  • 查找机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。

比如我们现在有个词典,最长词的长度为5,词典中存在“南京市长”“长江大桥”和“大桥”3个词。

现采用正向最大匹配对句子“南京市长江大桥”进行分词,那么首先从句子中取出前5个字“南京市长江”,发现词典中没有该词,于是缩小长度,取前4个字“南京市长”,词典中存在该词,于是该词被确认切分。

再将剩下的“江大桥”按照同样方式切分,得到“江”“大桥”,最终分为“南京市长”“江”“大桥”3个词。显然,这种结果不是我们所希望的。正向最大匹配法示例代码如下。

  1. class MM(object): 
  2.     def __init__(self): 
  3.         self.window_size = 3 
  4.  
  5.     def cut(self,text): 
  6.         result=[] 
  7.         index=0 
  8.         text_length = len(text) 
  9.         dic = ['研究','研究生','生命','起源'] 
  10.         while text_length > index: 
  11.             for size in range(self.window_size+index,index,-1):#4,0,-1 
  12.                 piece = text[index:size] 
  13.                 if piece in dic: 
  14.                     index = size-1 
  15.                     break 
  16.             indexindex = index + 1 
  17.             result.append(piece) 
  18.         return result 

分词的结果如下所示,这个结果并不能让人满意。

  1. text = '研究生命的起源' 
  2. tokenizer = MM() 
  3. print(tokenizer.cut(text)) 

输出结果如下所示。

  1. ['研究生', '命', '的', '起源'] 

2. 逆向最大匹配

逆向最大匹配简称为RMM法。RMM法的基本原理与MM法大致相同,不同的是分词切分的方向与MM法相反。

逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的m个字符(m为词典中最长词数)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。

在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。

统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。比如之前的“南京市长江大桥”,按照逆向最大匹配,最终得到“南京市”“长江大桥”的分词结果。

当然,如此切分并不代表完全正确,可能有个叫“江大桥”的“南京市长”也说不定。逆向最大匹配法示例代码如下。

  1. class RMM(object): 
  2.     def __init__(self): 
  3.         self.window_size = 3 
  4.  
  5.     def cut(self, text): 
  6.         result = [] 
  7.         index = len(text) 
  8.         dic = ['研究', '研究生', '生命', '命', '的', '起源'] 
  9.         while index > 0: 
  10.             for size in range(index-self.window_size ,index): 
  11.                 piece = text[size:index] 
  12.                 if piece in dic: 
  13.                     index = size + 1 
  14.                     break 
  15.             indexindex = index - 1 
  16.             result.append(piece) 
  17.         result.reverse() 
  18.         return result 

分词的结果如下所示,这个结果就很准确了。

  1. text = '研究生命的起源' 
  2. tokenizer = RMM() 
  3. print(tokenizer.cut(text)) 

输出结果如下所示。

  1. ['研究', '生命', '的', '起源'] 

3. 双向最大匹配

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。

据Sun M.S.和Benjamin K.T.研究表明,对于中文中90.0%左右的句子,正向最大匹配和逆向最大匹配的切分结果完全重合且正确,只有大概9.0%的句子采用两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,或者正向最大匹配和逆向最大匹配的切分结果虽重合却都是错的,或者正向最大匹配和逆向最大匹配的切分结果不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。

前面列举的“南京市长江大桥”采用双向最大匹配法进行切分,中间产生“南京市/ 江/ 大桥”和“南京市/ 长江大桥”两种结果,最终选取词数较少的“南京市/ 长江大桥”这一结果。

双向最大匹配的规则如下所示。

(1) 如果正反向分词结果词数不同,则取分词数量较少的那个结果(上例:“南京市/江/大桥”的分词数量为3,而“南京市/长江大桥”的分词数量为2,所以返回分词数量为2的结果)。

(2) 如果分词结果词数相同,则:

  • 分词结果相同,就说明没有歧义,可返回任意一个结果。
  • 分词结果不同,返回其中单字较少的那个。比如前文示例代码中,正向最大匹配返回的结果为“['研究生', '命', '的', '起源']”,其中单字个数为2个;而逆向最大匹配返回的结果为“['研究', '生命', '的', '起源']”,其中单字个数为1。所以返回的是逆向最大匹配的结果。

参考代码如下所示。

  1. #统计单字成词的个数 
  2. def count_singlechar(word_list): 
  3.     return sum(1 for word in word_list if len(word) == 1) 
  4.  
  5. def bidirectional_segment(text): 
  6.     mm = MM() 
  7. rmm = RMM() 
  8.     f = mm.cut(text) 
  9.     b = rmm.cut(text) 
  10.     if (len(f) < len(b)): 
  11.         return f 
  12.     elif (len(f) > len(b)): 
  13.         return b 
  14.     else: 
  15.         if (count_singlechar(f) >= count_singlechar(b)): 
  16.             return b 
  17.         else: 
  18.             return f 

最后我们验证一下效果。

  1. print(bidirectional_segment('研究生命的起源')) 

输出结果为:

  1. ['研究', '生命', '的', '起源'] 

基于规则的分词一般都较为简单高效,但是词典的维护面临很庞大的工作量。在网络发达的今天,网络新词层出不穷,很难通过词典覆盖所有词。另外,词典分词也无法区分歧义以及无法召回新词。

在实际项目中,我们是否会考虑使用规则分词?

虽然使用规则分词的分词准确率看上去非常高,但是规则分词有几个特别大的问题:

  • 不断维护词典是非常烦琐的,新词总是层出不穷,人工维护费时费力;
  • 随着词典中条目数的增加,执行效率变得越来越低;
  • 无法解决歧义问题。
NLP 自然语言 分词
上一篇:机器学习如何助力计算化学研究发展? 下一篇:加快中风的诊断和治疗——AI来了
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

2020全球NLP行业报告:NLP技术预算增长高达30%

2020年对于公共卫生、职业生活、经济以及日常生活的几乎所有其他方面来说,都是独一无二的一年。虽然一些机会正在消失,另一些则正在转变其商业模式,罕见没有受到冲击的企业。尽管如此,还是有一些行业正在蓬勃发展,不仅仅是虚拟会议或医疗保健。

AI研习社-译站 ·  17h前
“中文版GPT-3”来了:会算术、可续写红楼梦,用64张V100训练了3周

今年,OpenAI推出的自然语言模型GPT-3引起了巨大的轰动。这是迄今为止最大的NLP模型,包含1750亿参数,光是训练就调用上万块GPU,花费了460万美元的成本。

佚名 ·  2020-11-18 19:08:30
在预训练NLP模型上测量性别相关性

在过去的几年中,自然语言处理(NLP)取得了长足的进步,诸如BERT,ALBERT,ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。预训练语言模型以Wikipedia这样的大型文本语料库为训练集,通过遮掩一些单词并对它们进行预测来学习嵌入表示,即遮掩语言建模。

雷锋字幕组 ·  2020-10-26 15:48:32
NLP:不要重新造轮子

自然语言处理(NLP)是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的,而且有无数的技术和算法,每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员,很难知道要使用哪些方法以及如何实现它们。

IT老周 ·  2020-10-26 14:35:18
人工智能的企业家来说,这四个新的方向可能值得重视

对于人工智能的企业家来说,这四个新的方向可能值得重视:一是人类的自然语言处理、密集学习、记忆网络和其他技术领域与其他物种不同。自然语言处理在行业中具有代表性的应用包括微软ice、苹果siri、智能客户服务系统、智能电子营销机器人等。

原创编辑者 ·  2020-09-25 09:51:51
人工智能的研究热点:自然语言处理

人工智能(Artificial Intelligence,简称AI)作为新一轮科技革命和产业变革的重要驱动力量,正在深刻地影响世界、改变世界。而自然语言处理(Natural Language Processing,简称NLP)已成为AI领域的研究热点,它推动着语言智能的持续发展和突破,并越来越多地应用于各个行业。

林峰、于利 ·  2020-09-23 10:45:45
如何让机器更懂你?是时候了解NLP了

NLP有着广泛的应用范围,翻译和语言生成、分类和聚合、情感分析,以及其他信息提取、Siri等虚拟助手都在NLP的应用范围之内。下面我们将介绍一下NLP的现状以及其适用范围。

计算机世界 ·  2020-09-03 07:27:16
百度CTO王海峰详解语言与知识完整布局

8月25日,以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会举行,百度CTO王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果,与产学研各界分享技术及产业发展趋势和展望,百度集团副总裁吴甜和百度技术委员会主席吴华分别发布百度语言与知识技术系列产品和数据集共建计划,重磅推出5款产品的新发布,全面加速AI技术大规模应用。这是一场凝聚了百度在语言与知识领域十年技术积累和产业实践的盛会,必将带来深远影响。

佚名 ·  2020-08-25 11:35:28
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载