什么是汉语分词?

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/12 20:26:50
什么是汉语分词?

什么是汉语分词?
什么是汉语分词?

什么是汉语分词?
分词的提出和定义
汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题
添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词
分词的意义
正确的机器自动分词是正确的中文信息处理的基础
文本检索
和服 | 务 | 于三日后裁制完毕,并呈送将军府中.
王府饭店的设施 | 和 | 服务 | 是一流的.\x0b如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果.
文语转换
他们是来 | 查 | 金泰 | 撞人那件事的.(“查”读音为cha)
行侠仗义的 | 查金泰 | 远近闻名.(“查”读音为zha)
分词面临的主要难题
如何面向大规模开放应用是汉语分词研究亟待解决的主要问题
如何识别未登录词
如何低廉地获取语言学知识
词语边界歧义处理
实时性应用中的效率问题
分词歧义
交集型切分歧义
组合型切分歧义
分词规范
词是自然语言的一种客观存在
汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异
汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理
《信息处理用现代汉语分词规范及自动分词方法》:结合紧密、使用频繁
具体的分词标准实例
二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素
四字成语一律为分词单位:胸有成竹 欣欣向荣
四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由此可见
五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分:
时间/就/是/生命/
失败/是/成功/之/母
结合紧密、使用稳定的词组则不予切分:不管三七二十一
惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位:
妇女能顶/半边天/
他真小气,象个/铁公鸡/
略语一律为分词单位:科技 奥运会 工农业
分词单位加形成儿化音的“儿” :花儿 悄悄儿 玩儿
阿拉伯数字等,仍保留原有形式:1234 7890
现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普
不同的语言环境中的同形异构现象,按照具体语言环境的语义进行切分:
把/手/抬起来
这个/把手/是木制的

汉语分词是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统的输入是连续的字符串(C1C2C3……Cn),输出是汉语的词串(W1W2W3……Wm), 这里,Wi 可以是单字词也可以是多字词。然而,汉语文本和英文文本却不同,词与词之间没有明确的分隔标记,而是连续的汉字串。这比寻找英文文本的词边界要困难得多.然而对机器翻译来说汉语分词是至关重要的一环....

全部展开

汉语分词是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统的输入是连续的字符串(C1C2C3……Cn),输出是汉语的词串(W1W2W3……Wm), 这里,Wi 可以是单字词也可以是多字词。然而,汉语文本和英文文本却不同,词与词之间没有明确的分隔标记,而是连续的汉字串。这比寻找英文文本的词边界要困难得多.然而对机器翻译来说汉语分词是至关重要的一环.

收起

谢谢。老徐的网站