python中文分词教程之前向最大正向匹配算法详解

脚本专栏 2024/11/16 佚名

3 1 2

前言

大家都知道，英文的分词由于单词间是以空格进行分隔的，所以分词要相对的容易些，而中文就不同了，中文中一个句子的分隔就是以字为单位的了，而所谓的正向最大匹配和逆向最大匹配便是一种分词匹配的方法，这里以词典匹配说明。

最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法，分为正向和逆向，原理都是一样的。

正向最大匹配算法，故名思意，从左向右扫描寻找词的最大匹配。

首先我们可以规定一个词的最大长度，每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配，如果没有找到，就缩短长度继续寻找，直到找到或者成为单字。

下面话不多说了，来一起看看详细的介绍吧。

实例：

S1="计算语言学课程是三个课时" ,设定最大词长MaxLen = 5 ,S2= " "

字典中含有三个词：[计算语言学]、[课程]、[课时]

（1）S2=""；S1不为空，从S1左边取出候选子串W="计算语言学"；

（2）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ ”，并将W从S1中去掉，此时S1="课程是三个课时"；

（3）S1不为空，于是从S1左边取出候选子串W="课程是三个"；

（4）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是三"；

（5）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是"；

（6）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程"

（7）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ ”，并将W从S1中去掉，此时S1="是三个课时"；

（8）S1不为空，于是从S1左边取出候选子串W="是三个课时"；

（9）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个课"；

（10）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个"；

（11）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三"

（12）查词表，W不在词表中，将W最右边一个字去掉，得到W=“是”，这时 W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ ”，并将 W从S1中去掉，此时S1="三个课时"；

（13）S1不为空，从S1左边取出候选子串W="三个课时"；

（14）查词表，W不在词表中，将W最右边一个字去掉，得到W="三个课"；

（15）查词表，W不在词表中，将W最右边一个字去掉，得到W="三个"；

（16）查词表，W不在词表中，将W最右边一个字去掉，得到W=“三”，这时 W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ 三/ ”，并将W从S1中去掉，此时S1="个课时"；

（17）S1不为空，从S1左边取出候选子串W="个课时"；

（18）查词表，W不在词表中，将W最右边一个字去掉，得到W="个课"；

（19）查词表，W不在词表中，将W最右边一个字去掉，得到W=“个”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ 三/ 个/ "，并将W从S1中去掉，此时S1="课时"；

（20）S1不为空，从S1左边取出候选子串W="课时"；

（21）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ "，并将W从S1中去掉，此时S1=""。

（22）S1为空，输出S2作为分词结果，分词过程结束。

而至于为什么选择python这个语言呢？大概是因为我周围人用得少吧，我就想尝试突破，不过我也不讳言，我的C/C++，java等等高级语言用的也不多，虽说编程语言这个东西，基本上只要熟悉一个，其他的都好学，不过我在python上尝到了甜头，索性就用这个语言了。

中文分词算法的Python实现：

脚本接受两个参数，一个是输入文件的路径，另一个是词典的路径。

它的运行方法如下：

python max-match.py <data> <dict>

#!/usr/bin/env python
import cPickle as pickle
import sys

# 词语最大长度为5
window_size=5

def max_match_segment(line, dic):
 # write your code here
 chars = line.decode("utf8")
 words = []
 idx = 0
 # 判断索引是否超过chars的长度
 while idx < len(chars):
  matched = False
  for i in xrange(window_size, 0, -1):
   cand=chars[idx:idx+i].encode("utf8")
   if cand in dic:
    words.append(cand)
    matched = True
    break
  # 判断for中是否匹配到数据
  if not matched:
   i = 1
   words.append(chars[idx].encode("utf8"))
  idx += i

 return words

if __name__=="__main__":

 try:
  fpi=open(sys.argv[1], "r")
 except:
  print  sys.stderr, "failed to open file"
  sys.exit(1)

 try:
  dic = pickle.load(open(sys.argv[2], "r"))
 except:
  print  sys.stderr, "failed to load dict %s" % sys.argv[2]
  sys.exit(1)
 try:
  fpo = open("out.txt","w")
 except:
  print  sys.stderr, "failed to load out.txt"
  sys.exit(1)
 for line in fpi:
  fpo.write("\t".join( max_match_segment(line.strip(), dic) ))

当然，这只是最基础的，还可以有很多高级的优化，比如说改成Trie树版本的，控制最大词长度的等等。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对的支持。

中文分词最大匹配算法,中文分词正向最大匹配,python,中文分词

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“python中文分词教程之前向最大正向匹配算法详解”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

python中文分词教程之前向最大正向匹配算法详解

Python编程django实现同一个ip十分钟内只能注册一次

简单了解Python中的几种函数

评论“python中文分词教程之前向最大正向匹配算法详解”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

python中文分词教程之前向最大正向匹配算法详解

Python编程django实现同一个ip十分钟内只能注册一次

简单了解Python中的几种函数

评论“python中文分词教程之前向最大正向匹配算法详解”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存