【关键词】大数据 网络爬虫 分布式平台 非
结构型数据库 地图应用
随着互联网的深入应用,数据爆炸式增
长,我们需要从这些数据中挖掘有价值的信息,
帮助人们发现早期的疾病暴发。2013 年流行
病学调查显示,80% 左右的人感染H7N9 禽流
感病例有明确的活禽市场暴露史, 说明对大数
据的处理有利于医学研究。日前,Google 仅
实现数据统计,百度大数据只有疾病预测框架。
我们要考虑:大数据的多元异构性,数
量过大,难以分析和存储。从数据来源直至最
后的直观显示,是一个缓慢繁杂的过程,很难
构成一套体系。
本文建立流感预测模型,通过爬虫使数
据同构化,使用Hadoop、Cassandra 技术,以
Google API 为辅给用户带来直观方便的使用体
验。
1 研究框架
1.1 设计与流程
基于分布式,采用爬虫、非结构化数据
库和地图构建研究系统并进行相关实验。
通过爬取网络信息得到流感数据,对数
据进行整理运算,在伪分布平台下,利用相关
存储结构及计算框架得到所需结果;将结果存
储在非结构型数据库并在地图中显示,根据用
户地理信息查询信息;利用SIR 模型计算流感
比例,告知流感程度。
1.2 网络爬虫
利用爬虫,从指定URL 开始,发送请求,
用正则表达式匹配链接内容,得到有效链接,
将其存储到待抓取队列,解析该队列,下载对
应网页。将已解析的URL 放进已抓取队列,
避免重复抓取。
1.3 搭建分布式平台
研究基于Hadoop,流程由图一给出,其
中包含两个部分:
文/杜舒舒 赖振意 马衡 钱昔勇
日前,公共卫生问题在国际
范围内成为热点,流感预测系统
的数据数量过大,来源繁多,其
数据的处理,存取速度偏低。为
改善此状况本研究利用计算机技
术预测流感的爆发时间及程度:
基于分布式平台,非结构化数据
库和爬虫技术,一定程度上解决
了数据来源,处理,存取速度的
问题。实验表明该研究可以较好
的预测流感的爆发趋势。
摘 要
(1)实现对原始数据进行初步加工,找
出每个地区每星期的患病人数,并按照日期排
序,为每个国家及国家各个地区建立索引;
(2)计算出每个国家每个地区每隔一星
期的人数差值,从而方便对疾病爆发趋势进行
分析,对记录进行分组,并找出同一组记录间
的差值。
1.4 非关系型数据库
使用非关系型数据库,采用客户端来进
行客户端和数据库的通信,同时编写接口供后
台系统查询,构建三个列族来存储流感数据:
(1)CityPopulation——存储每个城市各
个时期的人口;
(2)CityFluerNumber——存储每个城市
各个时期患流感的人数;
(3)CityFluLevel——存储每个城市各个
时期的流感等级。
2 预测流感模型的应用
本文基于Hadoop, 利用Python,
Cassandra 和GoogleMap API 实现该研究,在
此基础上进行仿真实验:实验使用SIR 仓室模
型,使用2015 年1 月到4 月巴西登革热流感
数据进行预测,表一给出对比,图二给出趋势
预测与实际对比图,结果表明:
(1)预测趋势与实际流感趋势相似;
(2)对于增幅或降低明显的数据预测结
果更加准确;
(3)若人数变化不明显会影响预测结果,
相对于变化趋势偏高。
3 结束语
通过研究和实验表明,基于分布式平台
对流行病大数据进行处理分析可以相当可靠的
预测爆发程度和趋势。该研究克服了不能存储
分析过大数据的不足,利用非结构化数据库与
分布式平台快速有效的分析大数据,得到结论。
当前研究仅适用一种流行病预测,之后只需要
更改部分模型,可适用于各大方面大数据分析。
参考文献
[ 1 ] G a o R , C a o B , H u Y , e t a l . H u m a n
i n f e c t i o n w i t h a n o v e l a v i a n -
origin influenza A(H7N9) virus[J].
N e w E n g l a n d J o u r n a l o f M e d i c i
ne,2013,368(20):1888-1897.
[ 2 ] X J i a n g u o , L S h a n , W H a i y i n , C
C h e n . R e d u c i n g e x p o s u r e t o
a v i a n i n f l u e n z a H 7 N 9 [ J ] . L a n c
et,2013,381(9880):1815-1816.
[3] 卢珊, 陈晨, 于伟文, 等. 利用网络爬
虫技术分析我国活禽贸易与H7N9 禽流
感病毒传播的关系[J]. 中华流行病学杂
志,2014,35(3).
[4] 李学龙, 龚海刚. 大数据系统综述[J].
中国科学: 信息科学,2015(1).
[5] 董新华, 李瑞轩, 周湾湾, 等.Hadoop 系
统性能优化与功能增强综述[J]. 计算机
研究与发展,2013,50(z2).
[ 6 ] K e r m a c k W O , M c k e n d r i c k A G .
Contributions to the Mathematical
Theory of Epidemics, Part I[J].
Bulletin of Mathematical Biology,
1991,53(1-2):33-55.
作者单位
新疆大学软件学院 新疆维吾尔自治区乌鲁木
齐市 830000
●项目来源:自治区级大学生创新实践计划项目“Hadoop 平台下的流行病大数据挖掘系统”(项目编号:xju-srt-15144)项目负责人:杜舒舒;
指导教师:钱育蓉。
图1:分布式系统处理流程
图2:实验预测趋势与实际趋势比对图
表1:实验结果比对表
月份
预测实验数据准确率
趋势程度人数趋势(较上月)趋势
四月上升注意预防230 上升100%
五月上升警惕263 上升100%
六月上升爆发262 平缓60%
七月平缓爆发231 下降70%
八月下降警惕203 下降100%
合计86%