灵玖大数据在中文语义分析完成新突破
中文中有一词多义,相比英文分析,中文语义分析的语义分析面临更多技术难题。灵玖大数据在研发过程中,充分考虑到了中文特殊性,针对一词多义和文章中出现的新地点名均提出了解决方案,提高了中文语义分析的准确性。汉语智能分词中文分词是语义分析的基础阶段,是进行中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。 条件随机场运用CRF模型,采用了先将汉语语言进行定性的方式分析语言,根据自然语言的运用环境对多义词进行定义,极大地提高了中文语言解析的准确性,一级词性标注准确率接近99%,准确率高、速度快、可适应性强。 除了对多义词的高准确率区分,在对一些地点和机构名的识别问题上,即使这类词没有事先存入系统,CRF模型同样能够自动挖掘出这类词。条件随机场极大地提高了识别的准确率,能够满足多样场景需求。 文本关键字提取 提取文章关键词对于读取文章的意义在于,在掌握文章的主题思想的前提下,了解文章关键字能够达到精华阅读效果,完成文章的语义查询和快速匹配。采用基于语义分析的语言统计模型,文档使用的范围也更加广泛,对新词的识别率也很高。 关键词提取组件的主要特点包括:1、速度快:实现对海量网络文本处理,实现每小时50篇文档的高效处理模式。2、处理精准:Top N的结果反应了文章的主要枝干方向。3、精准排序:根据影响权重进行排序,关键词可以输出权重值;4、开放式接口:作为LJParser的一部分,文章关键词能够提取组件采用灵活的开发接口,能够方便地融入到用户的业务系统中,以及支持各种操作系统和调用语言。 自动文本摘要对文章进行摘要提取能够使用户快速掌握文章内容,提供工作效率。自动摘要的中间件能够处理的不只是单篇文章的摘要提取,还包括对同类型的文章进行处理,提取出一篇简明扼要的摘要。同时,用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。 灵玖软件专注于大数据语义智能分析,凭借其在自然语言处理、信息检索、信息过滤、知识图谱等方向的领先核心技术积累,形成了面向大型企业和政府军队的一系列语义智能化软件系统。
页:
[1]