你的位置:论文发表 >> 论文下载 >> 计算机论文 >> 计算机理论 >> 详细内容 在线投稿

基于Hadoop 的通用流感预测研究

浏览173次 时间:2017年5月20日 08:41

【关键词】大数据 网络爬虫 分布式平台 非

结构型数据库 地图应用

随着互联网的深入应用,数据爆炸式增

长,我们需要从这些数据中挖掘有价值的信息,

帮助人们发现早期的疾病暴发。2013 年流行

病学调查显示,80% 左右的人感染H7N9 禽流

感病例有明确的活禽市场暴露史, 说明对大数

据的处理有利于医学研究。日前,Google

实现数据统计,百度大数据只有疾病预测框架。

我们要考虑:大数据的多元异构性,数

量过大,难以分析和存储。从数据来源直至最

后的直观显示,是一个缓慢繁杂的过程,很难

构成一套体系。

本文建立流感预测模型,通过爬虫使数

据同构化,使用HadoopCassandra 技术,以

Google API 为辅给用户带来直观方便的使用体

验。

1 研究框架

1.1 设计与流程

基于分布式,采用爬虫、非结构化数据

库和地图构建研究系统并进行相关实验。

通过爬取网络信息得到流感数据,对数

据进行整理运算,在伪分布平台下,利用相关

存储结构及计算框架得到所需结果;将结果存

储在非结构型数据库并在地图中显示,根据用

户地理信息查询信息;利用SIR 模型计算流感

比例,告知流感程度。

1.2 网络爬虫

利用爬虫,从指定URL 开始,发送请求,

用正则表达式匹配链接内容,得到有效链接,

将其存储到待抓取队列,解析该队列,下载对

应网页。将已解析的URL 放进已抓取队列,

避免重复抓取。

1.3 搭建分布式平台

研究基于Hadoop,流程由图一给出,其

中包含两个部分:

/杜舒舒 赖振意 马衡 钱昔勇

日前,公共卫生问题在国际

范围内成为热点,流感预测系统

的数据数量过大,来源繁多,其

数据的处理,存取速度偏低。为

改善此状况本研究利用计算机技

术预测流感的爆发时间及程度:

基于分布式平台,非结构化数据

库和爬虫技术,一定程度上解决

了数据来源,处理,存取速度的

问题。实验表明该研究可以较好

的预测流感的爆发趋势。

摘 要

1)实现对原始数据进行初步加工,找

出每个地区每星期的患病人数,并按照日期排

序,为每个国家及国家各个地区建立索引;

2)计算出每个国家每个地区每隔一星

期的人数差值,从而方便对疾病爆发趋势进行

分析,对记录进行分组,并找出同一组记录间

的差值。

1.4 非关系型数据库

使用非关系型数据库,采用客户端来进

行客户端和数据库的通信,同时编写接口供后

台系统查询,构建三个列族来存储流感数据:

1CityPopulation——存储每个城市各

个时期的人口;

2CityFluerNumber——存储每个城市

各个时期患流感的人数;

3CityFluLevel——存储每个城市各个

时期的流感等级。

2 预测流感模型的应用

本文基于Hadoop, 利用Python

Cassandra GoogleMap API 实现该研究,在

此基础上进行仿真实验:实验使用SIR 仓室模

型,使用2015 1 月到4 月巴西登革热流感

数据进行预测,表一给出对比,图二给出趋势

预测与实际对比图,结果表明:

1)预测趋势与实际流感趋势相似;

2)对于增幅或降低明显的数据预测结

果更加准确;

3)若人数变化不明显会影响预测结果,

相对于变化趋势偏高。

3 结束语

通过研究和实验表明,基于分布式平台

对流行病大数据进行处理分析可以相当可靠的

预测爆发程度和趋势。该研究克服了不能存储

分析过大数据的不足,利用非结构化数据库与

分布式平台快速有效的分析大数据,得到结论。

当前研究仅适用一种流行病预测,之后只需要

更改部分模型,可适用于各大方面大数据分析。

参考文献

[ 1 ] G a o R , C a o B , H u Y , e t a l . H u m a n

i n f e c t i o n w i t h a n o v e l a v i a n -

origin influenza A(H7N9) virus[J].

N e w E n g l a n d J o u r n a l o f M e d i c i

ne,2013,368(20):1888-1897.

[ 2 ] X J i a n g u o , L S h a n , W H a i y i n , C

C h e n . R e d u c i n g e x p o s u r e t o

a v i a n i n f l u e n z a H 7 N 9 [ J ] . L a n c

et,2013,381(9880):1815-1816.

[3] 卢珊, 陈晨, 于伟文, . 利用网络爬

虫技术分析我国活禽贸易与H7N9 禽流

感病毒传播的关系[J]. 中华流行病学杂

,2014,35(3).

[4] 李学龙, 龚海刚. 大数据系统综述[J].

中国科学: 信息科学,2015(1).

[5] 董新华, 李瑞轩, 周湾湾, .Hadoop

统性能优化与功能增强综述[J]. 计算机

研究与发展,2013,50(z2).

[ 6 ] K e r m a c k W O , M c k e n d r i c k A G .

Contributions to the Mathematical

Theory of Epidemics, Part I[J].

Bulletin of Mathematical Biology,

1991,53(1-2):33-55.

作者单位

新疆大学软件学院 新疆维吾尔自治区乌鲁木

齐市 830000

●项目来源:自治区级大学生创新实践计划项目“Hadoop 平台下的流行病大数据挖掘系统”(项目编号:xju-srt-15144)项目负责人:杜舒舒;

指导教师:钱育蓉。

1:分布式系统处理流程

2:实验预测趋势与实际趋势比对图

1:实验结果比对表

月份

预测实验数据准确率

趋势程度人数趋势(较上月)趋势

四月上升注意预防230 上升100%

五月上升警惕263 上升100%

六月上升爆发262 平缓60%

七月平缓爆发231 下降70%

八月下降警惕203 下降100%

合计86%

TAG: 关键词 通用 网络
上一篇 下一篇

论文发表与咨询

论文发表 写作指导 职称论文 毕业论文 客服联系方式:
投稿信箱:lunww@126.com
在线咨询客服QQ:站点合作85782530
在线咨询客服QQ:站点合作82534308
联系电话:18262951856
点击进入支付宝支付(支付宝认可网络诚信商家)
点击进入财付通支付(财付通认可网络诚信商家)
点击进入支付方式---->>>>

论文发表 诚信说明

论文发表 论文投稿 热点图片