基于大数据的烟叶质量评估平台的设计与应用

发布时间:2019-08-24 来源: 日记大全 点击:

http://img1.qikan.com.cn/qkimages/jsjg/jsjg201424/jsjg20142460-1-l.jpghttp://img1.qikan.com.cn/qkimages/jsjg/jsjg201424/jsjg20142460-2-l.jpg
  摘 要:烟叶质量受多种因素的影响,为实现烟叶质量分析、预测和预警的平台,设计并实现了基于大数据分析和云计算技术的Web大数据挖掘平台,通过采集抓取互联网上涵盖烟叶的整个种植周期的烟叶种植区气候、环境、土壤、病虫害等信息,辅以其他检测数据,利用大数据分析技术评估和预测烟叶的质量。应用效果表明,利用大数据算法对影响烟叶质量的互联网数据进行挖掘分析,不仅可以用较小的人力物力完成更大覆盖区域的全面的烟叶质量评估,还可实现质量预测预警,为卷烟生产提供保障。
  关键词:烟叶质量评估;大数据;Web数据挖掘
  中图分类号:TS46
  烟叶是卷烟工业企业生存和发展的基础,是对卷烟产品的发展具有制约作用的重要资源。烟叶的品质、产量水平受气温、大气环境条件、土壤以及病虫害等生态条件和生产措施因素的影响,而烟叶原料的采购又具有范围广、数量大、种类多、结构宽等特点。为保证烟叶的质量,需要对烟叶种植的整个周期进行监控。传统的方式需要依靠现场实地抽检、监测,有着耗费人力物力比较大、收集到的信息量比较少、覆盖的种植区域比较小、最终数据汇总和处理比较困难、企业之间数据互通比较困难等缺点。
  随着全球信息化和互联网技术的高速发展,互联网上出现了海量的数据信息。大量的非结构化的天气信息、温湿度信息、病虫害的预报、土壤情况等信息都可以直接从互联网上采集到,利用这些数据来进行分析和预测,就是大数据处理技术的应用。建立基于大数据的烟叶种植质量评估平台,可以避免传统监控方式的缺点,更快速、有效、准确的实现烟叶质量分析、预测、预警,从而为卷烟生产提供更好的保障和条件。
  1 系统架构
  1.1 大数据分析与云计算技术
  大数据分析是从种类繁多的海量数据中,快速获得有价值信息的一种技术,它是商业智能的演进,正在改变世界的各个领域,从商业到医疗卫生、政府机构、农业和经济领域、人文以及社会的各个领域。大数据分析的特点在于能够利用全部数据,而不是仅仅依靠随机采样的一小部分样本数据[1-2],因为可以收集、存储和分析所有的相关数据信息,就不会受到样本集小、样本有偏差或者随机性不够所带来的分析误差的影响,从而可以获得更准确合理的分析结果。目前已经出现了很多利用大数据进行分析和预测的例子。例如,谷歌利用聚合搜索数据对流感进行跟踪,可达到接近实时的效率和非常高的准确度[3]。后面探讨如何利用从互联网采集到的各种非结构化信息,结合企业自有的烟叶检测、采购数据,分析和预测收获时烟叶质量的方法。
  大数据分析通常基于云计算平台实现,因为实时的大型数据集的分析需要非常强有力而又弹性可扩展的计算能力,云计算平台正好适应了这种需求。云计算是一种成本低的分布式并行计算环境,可以适应规模不同的数据,开发方便,向用户屏蔽了底层的技术细节,节点加载、数据的划分和任务调度无需用户考虑。使用云计算可以在不增加现有设备的情况下大幅度提高数据处理的规模和效率,节点的扩充非常方便,系统可以自动处理失败的节点,容错性能比较好。
  1.2 平台框架
  设计并实现了一个统一的基于云计算的可以灵活扩展的大数据处理平台(BDAP,Big-Data Analysis Platform),能够实现数据采集、实时分析,批量处理和数据导出等功能。平台具有以下特性:
  (1)可从不同的数据源(Web数据、结构化数据、数据库等等)以很高的吞吐能力把数据存储在基于Hadoop的大数据中心中;
  (2)可对实时数据做流分析;
  (3)支持工作流管理,工作流支持与标准的企业信息系统或者是Hadoop操作进行交互;
  (4)支持高效率的数据导出,可以把数据导出到NoSQL数据库或者关系数据库;
  (5)支持不同数据源数据的协同分析。
  该平台框架如图1所示:
  整个平台由数据层、大数据处理层、管理层三部分组成,平台由数据流驱动,数据层负责将各种数据来源以流的方式提供给中间的大数据处理层;大数据处理层是建立在云计算平台之上的,负责对数据层传入的数据流进行分析处理,处理之后的数据由管理层展现给终端用户。
  在BDAP平台的基础上,结合烟叶种植质量评估的需求,设计了具体的实施方案和关键算法,形成了基于大数据的烟叶种植质量评估平台(BDAP-TQ,Big-Data Analysis Platform for Tobacco Quality),下面将介绍该平台的技术实现细节。
  2 技术实现
  2.1 数据层实现
  数据层实现数据采集和清理的功能,采用web界面的调度平台,实时监控云平台上的爬虫运行状况。获取的数据分类存入Hadoop分布式文件系统(HDFS)中或者数据库中,可以采集到浏览器能浏览的结构化和非结构化的内容,支持各种页面类型。数据层基于云计算平台,可以根据数据抓取的资源需求进行弹性扩展,具有高效的信息处理技术,可以准确获取系统所需求的内容。数据层的实现框架如图2所示:
  关于采集数据的选择过滤,主要是对气象、大气、土壤、病虫害等信息进行提取,这是因为:
  (1)烟叶的质量和产量受环境条件和生产措施的影响,从烟草品质来看,对气温条件的要求是前期较低,中期较高,气温过高和过低对烟叶质量影响都很大[4]。
  (2)大气环境条件也是影响烟叶质量的重要条件之一,重金属铅在环境中容易污染植物叶片,作物中铅的含量富集程度以叶最高。作物中铅含量的调查表明,靠近公路两侧的作物的铅含量远远高于远离公路的作物,大气中的铅含量决定了农作物中的铅含量水平[5]。
  (3)土壤是优质烟叶生产的基础,土壤因素与烟叶的品质和产量密切相关。随着吸烟与健康研究的深入开展,人们越来越关注烟叶含有重金属的问题,烟叶重金属的含量和其他作物有一定的相关性,因此可以通过互联网上大量的其他作物的重金属情况结合GIS进行关联性分析,可以得出种植区域烟叶重金属含量情况。

相关热词搜索:烟叶 评估 质量 数据 设计

版权所有 蒲公英文摘 www.zhaoqt.net