中文分词研究难点-词语切分和语言规范
自然语言处理包括自然语言理解和自然语言生成两方面,这两项技术的实现均需要自然语言的解析作为前提。词语是汉语语言的最小组成单位,中文分词也成为中文语义分析的技术基础。鉴于中文的多样性组词和用词方法,相比英文分词,中文分词实现难度更高。NLPIR实验室总结了几项中文分词难点。中文分词概念分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。当然,我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。中文分词的研究方法现有的分词算法,大概可分为三类:1.基于字符串匹配的分词算法2.基于理解的分词算法3.基于统计的分词算法1. 基于字符串匹配的分词算法这种分词方法,又叫机械分词算法,它会提前维护一个大的字典,然后将句子和字典中的词进行匹配,若匹配成功,则可以进行分词处理。当然,它也会更复杂一些,因为当字典足够大的时候,就又涉及到不同的匹配算法,这里就不展开讲了。通常会基于 Trie 树结构,来实现高效的词图扫描。2. 基于理解的分词算法这种分词方法是通过让计算机,模拟人对句子的理解,达到识别词组的效果。基本思想是在分词的同事进行句法、语义的分析,利用句法和语义信息来处理歧义现象。通常包含三部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息,来对分词歧义进行判断,模拟人对句子的理解过程。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。3. 基于统计的分词算法给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法。中文分词的研究难点中文分词难点主要体现在三个方面:分词的规范、歧义词的切分和未登录词识别。1. 分词的规范。中文因其自身语言特性的局限,字(词)的界限往往很模糊,关于字(词)的抽象定义和词边界的划定尚没有一个公认的、权威的标准。这种不同的主观分词差异,给汉语分词造成了极大的困难。尽管在 1992 年国家颁布了《信息处理用现代词汉语分词规范》,但是这种规范很容易受主观因素影响,在处理现实问题时也不免相形见绌。2. 歧义词切分。中文中的歧义词是很普遍,即同一个词有多种切分方式,该如何处理这种问题呢?普遍认为中文歧义词有三种类型。交集型切分歧义,汉语词如AJB 类型,满足AJ 和JB 分别成词。如“大学生”一种切分方式“大学/生”,另一种切分方式“大/学生”。很难去判定哪种切分正确,即使是人工切分也只能依据上下文,类似的有“结合成”“美国会”等。组合型切分歧义,汉语词如AB,满足A、B、AB 分别成词。如“郭靖有武功高超的才能”中的“才能”,一种切分为“郭靖/有/武功/高超/的/才能”,另一种切分“中国/什么/时候/才/能/达到/发达/国家/水平”显示是不同的切分方式。混合型切分歧义,汉语词包含如上两种共存情况。如“郭靖说这把剑太重了”,其中“太重了”是交集型字段,“太重”是组合型字段。3.未登录词(新词)识别。未登录词又称新词。这类词通常指两个方面,一是词库中没有收录的词,二是训练语料没有出现过的词。未登录词主要体现在以下几种。新出现的网络用词。如“蓝牙”“蓝瘦香菇”“房姐”“奥特”“累觉不爱”等。研究领域名称:特定领域和新出现领域的专有名词。如“苏丹红”“禽流感”“埃博拉”“三聚氰胺”等。其他专有名词:诸如城市名、公司企业、职称名、电影、书籍、专业术语、缩写词等。如“成都”“阿里巴巴”“三少爷的剑”“NLP”“川大”等。中文分词在搭建自然语言形式模型,对语义的理解,和语法知识的应用均存在难题。而随着语言规范系统的不断完善,中文分词的效果也会实现进一步提升。
页:
[1]