chrisfang的Excel大全

【中文语义分词工具】小程序

2012-02-09
作者: chrisfang | 分类: ExcelVBA程序 | 阅读: 11,010 次浏览 | Tags:
声明: 本站文章均属原创,转载时请标明出处

中文语义分词工具

效果图:

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。


中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。

现在这个Excel自定义函数工具是利用SCWS分词引擎所开发的一个Excel版的在线分词工具,可以用函数自动实现对中文字符串的分词,并且支持了多种选项参数。其中包括:

Target:指定目标字符串,可以是字符串对象或单元格引用。

Multi:分词选项,数字1~4。可省略。

1,最短词。按照语义划分最短的词组。例如“中国电信→中国+通信”

2,二元。尝试将文字两两组合。例如“中国电信→中国+国电+电信”

3,重要单字。将重要文字单独分隔。例如“我们来测试→我们+来+测试+测+试”

4,全部单字。全部分隔为单字。例如“我们来测试→我们+我+们+来+测试+测+试”

使用这个选项参数时,可以单选,如“1”或“3”;也可多选,如“12”或“124”。

Duality:散字二元选项,是否将零散文字尝试进行二元组合,TRUE或FALSE。可省略,默认为FALSE。

Ignore:是否忽略标点,TRUE或FALSE。可省略,默认为FALSE。

Separator:自定义分隔符号,字符格式。可省略,默认为“|”。

 

此工具需要联网,需要启用宏,有关启用宏的方法可参考:

Excel启用宏的详细说明

可以将此文件另存为加载宏保存后自动加载,有关加载宏的使用可参考:

加载宏(Addin)使用方法

此工具依托于http://www.xunsearch.com/scws 的网络服务,此工具所使用的网络资源版权均属原作者所有。

如果服务器功能改变或因访问量太大而停止响应,此工具的功能将受影响。欢迎有志者提供长期稳定的分词引擎资源。

 

在分词的基础上,如需进行词汇出现次数的统计分析,可以参考本站中的《【词频分析工具】使用说明》一文。

 

下载:(2013年1月23日更新版本到第三版,原有版本无法继续使用)

微盘下载:http://vdisk.weibo.com/s/omD8o/1358921911

本地下载:中文分词工具 (3284)

一条评论

  1. Excel User说道:

    很实用的工具,赞一个! 有些遗憾的是不能自定义词典。

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>