已有 733 次阅读2019-7-23 11:53
随着物联网、云计算、移动互联网、手机、平板电脑、PC以及遍布各处的各式各样传感器的涌现,数据源呈现指数级增长,信息数量及复杂程度快速扩大,从海量数据中提取信息的能力正快速成为战略性发展方向和要求。大数据可以在大规模数据的基础上挖掘分析获得新的认知、创造新的价值,并以此改变市场、组织机构,以及政府与公民关系。大数据同过去海量数据的区别不仅仅在于数据量大,更在于数据类型繁多、价值密度低、处理速度要求快和时效性要求高,大数据与传统数据挖掘有着本质的不同。目前大数据技术 在经济、金融、农业、交通和科研等领域都有广泛应用。
大数据应用类型主要处理模式可以分为直接处理的流处理(Stream Processing)和先存储后处理的批处理(Batch Processing)。流处理即实时处理,数据流的理论及技术研究目前是研究领域热点,很多实际系统也已开发和得到广泛应用,如Storm、Yahoo和Kafka等。批处理模式较有代表性的是MapReduce编程模型。大数据的应用类型很多,特别是在医疗卫生领域实际的数据处理过程中,常常是将多种应用类型相互结合起来。
在经济和商业领域,互联网新闻中影响制造业的480项经济数据,被用于构建经济预测指标,分析经济发展趋势。一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。通过分析销售数据,能够了解到顾客购物习惯,细分顾客群体,提供个性化服务。
在社会安全管理领域,通过对手机数据的挖掘,可以分析实时动态的流动人口来源、出行,实时交通客流信息及拥堵情况。利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪信息的源头。另外,在科学研究领域,基于密集数据分析的科学发现成为继实验科学、理论科学和计算 科学之后的第四个范例,基于大数据分析的材料基因组学和合成生物学等正在兴起。在农业领域,有公司从美国气象局等数据库中获得几十年的天气数据,预测农场来年产量。交通方面也有大数据的经典应用,通过融合传感器、监控视频等设备产生的海量数据,与气象监测设备等数据相结合,提取出有效信息推送给用户。
虽然目前可以真正利用上大数据的企业并没有太多,但是随着时间的推移,技术的发展以及市场的需求,相信用不了多久,它便会慢慢的普及起来,通过大数据的分析来使企业的措施更加合理,高效。
NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。