NLPIR:自然语言理解与处理对语义挖掘的影响
自然语言处理(又叫自然语言理解,计算语言学)是当前IT领域的重要技术之一。随着互联网信息的急剧增长,搜索引擎成为人们获取信息不可缺少的工具。但是基于关键字索引的工具已经越来越无法满足用户的需求,相反用户更希望计算机能理解句子的意思以帮助我们更好的处理信息和组织信息,这就需要自然语言处理技术来解决,例如中文分词、词性标注、句法分析、依存关系分析、语义消岐等等。 自然语言具备两个属性:语言属性与自然属性。“语言”属性表现为公认的某些约定俗成的内在规律性,如“把车开回北京去”是一个符合这种内在规定性的构成形式,而“车回开北京把去”就是一种不符合这种内在规律性的构成形式;“自然”属性是说并不存在某个人为制造的、严格的语法规则体系来约定人们的语言表达方式,这是和程序设计语言大相径庭的。自然语言需要遵循一定的内在规律,但更大程度上是“存在即合理”。如“你先走”符合人们的正常使用习惯,后来随着网络的流行,“你走先”、“给个理由先”都逐渐成为了合理的语言新现象。按照相关文献中的描述,计算机对自然语言的研究和处理,大抵经过如下三个过程: (1). 把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示出来; (2). 把这种严密而规整的数学形式表示为算法,使之在计算上形式化; (3). 根据算法编写计算机程序,使之在计算机上加以实现。 一个自然语言处理系统必须考虑许多语言自身与结构方面的知识——如什么是词、词如何组成句子、词的意义是什么、词的意义对句子意义有什么贡献等,但这些却还是远远不够的。比如一个系统如果要回答提问或者直接参与对话,它不仅需要知道很多语言结构的知识,而且还要知道人类世界的一般性知识并具备人类的推理能力。因此许多语言学家通常把对语言的分析和理解分成如下几个主要层次:词法分析、句法分析、语义分析、篇章分析。 按照多数文献的观点,首先,词法分析——主要包括分词、词性标注、词义消歧、新词识别等——是通过分词、词频和位置统计等手段获得相关语言信息。其次,句法分析通过使句子成分特征化来分析句子结构特征,通过对句子和短语结构的分析找出词、短语等的相互关系以及各自在句中的作用,并以一定结构来表达诸如从属关系、成分关系等,目的是判定句子中各种结构性成分。第三,为了理解一个提问,一般还需要更多的语义和语用知识来帮助理解句子的意思,通过分析找出词义、结构意义及其结合意义,从而确定句子所表达的真正含义,而语义信息的标记需要包含概念完全集与关系图的支持,需要对句法成分做出细致的语义分类,它一般应包括语言层面(即反映语言表面现象的知识,如同义词关系、层次关系等)、本体论层面(描述概念之间复杂的语义关系)、常识层面等。虽然这项工作浩繁,但目前已经取得了一些初步成果。最后,篇章分析用于对多个语句、段落之间在结构或者语义上的相互关系进行分析。 按照多数文献中的分类方法,从技术路线上看,计算机自然语言处理可大致分为基于语言学规则分析的方法和基于统计的方法这两类主要方法(当然,也有不同的分类方法,限于篇幅在此不再赘述),前者通过对语言学知识的形式化规则处理将语言学知识转化为计算机可处理的形式,而后者则是从大规模真实语料库中获得统计信息,并将之用于自然语言的分析处理。基于规则分析的方法主张以建立形式化的知识系统来表述语言知识,其本质是一种确定性的演绎推理方法,如北京理工大学大数据实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等功能。 另一方面,自上个世纪80年代以来,由于大量语料库的出现以及计算机处理能力的提高,也由于基于规则的方法迟迟未能达到人们预期目标,基于统计的方法逐渐兴起。该方法主张通过搜集实际语言材料形成语料库,并在此基础上进行分析和处理。它通过构造统计模型来对语料库中描述的实际出现的语言现象进行统计,进而得到统计意义上的语言知识,其本质是非确定性的基于概率的推理方式。 由于知识是通过对语料库进行分析后抽取出的,因此它可为语言处理提供较为客观的依据。但基于统计的方法本质上是一种非确定性推理方法,可能会掩盖一些小概率事件。由于有些统计方法无法解决的问题利用规则方法却容易得到解决,因此以实用性为目标,将基于规则的方法与基于统计的方法有机结合起来,构建面向大规模真实文本的信息处理乃是未来发展之趋势。
页:
[1]