【中文语义分词工具】小程序
中文语义分词工具
效果图:
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。
现在这个Excel自定义函数工具是利用SCWS分词引擎所开发的一个Excel版的在线分词工具,可以用函数自动实现对中文字符串的分词,并且支持了多种选项参数。其中包括:
Target:指定目标字符串,可以是字符串对象或单元格引用。
Multi:分词选项,数字1~4。可省略。
1,最短词。按照语义划分最短的词组。例如“中国电信→中国+通信”
2,二元。尝试将文字两两组合。例如“中国电信→中国+国电+电信”
3,重要单字。将重要文字单独分隔。例如“我们来测试→我们+来+测试+测+试”
4,全部单字。全部分隔为单字。例如“我们来测试→我们+我+们+来+测试+测+试”
使用这个选项参数时,可以单选,如“1”或“3”;也可多选,如“12”或“124”。
Duality:散字二元选项,是否将零散文字尝试进行二元组合,TRUE或FALSE。可省略,默认为FALSE。
Ignore:是否忽略标点,TRUE或FALSE。可省略,默认为FALSE。
Separator:自定义分隔符号,字符格式。可省略,默认为“|”。
可以将此文件另存为加载宏保存后自动加载,有关加载宏的使用可参考:
此工具依托于http://www.xunsearch.com/scws 的网络服务,此工具所使用的网络资源版权均属原作者所有。
如果服务器功能改变或因访问量太大而停止响应,此工具的功能将受影响。欢迎有志者提供长期稳定的分词引擎资源。
在分词的基础上,如需进行词汇出现次数的统计分析,可以参考本站中的《【词频分析工具】使用说明》一文。
下载:(2013年1月23日更新版本到第三版,原有版本无法继续使用)
微盘下载:http://vdisk.weibo.com/s/omD8o/1358921911
本地下载:中文分词工具 (3373)
一条评论
很实用的工具,赞一个! 有些遗憾的是不能自定义词典。