集合D 上的关系T 为:T={<di
k,dj
k>, 其中
di
k ∈D ∧ dj
k ∈D ,且di
k、dj
k 间存在关联链}
定义5:设T 是钻具集合D 上的一个关
系,对于任何di
k ∈ D,称集合[di
k]={dj
k,其
中dj
k ∈ D,<di
k,dj
k> ∈ T} 为钻具的关联钻
具集合。
定义6:核心钻具
给定数值ε>0 和δ>0,若钻具di
k 的ε 邻
域集合ε(di
k) 包含的钻具个数|ε(di
k)| ≥ δ,则称
di
k 为第K 次开钻钻具组合的核心钻具;所有
核心钻具所构成的集合记为Dkey。
根据上述定义,钻具间关联性分析的过
程为:
(1)从以往不同油井的钻具组合设计集
合W 中,选取在W 中出现的钻具集合D;
(2) 给定数值ε>0 和δ>0, 计算钻具
集合D 中第K 次开钻每个钻具dl
k 的ε 邻域
ε(dl
k);
(3) 对于每个钻具dl
k ∈ D, 如果
|ε(dl
k)| ≥ δ,则dl
k 为第K 次开钻钻具组合的核
心钻具;
(4)针对每个核心钻具,分析形成每个
核心钻具的关联链,并由此构建集合Dkey 上的
一个关系T;
(5)根据关系T,得到每个核心钻具di
k
的关联钻具集合。
3 基于MapReduce的钻具关联性分析算法
MapReduce 采用分布式编程模型,其核
心思想是将大的数据处理任务分解为多个计算
过程相互独立的子任务,将这些子任务分发到
云计算平台各节点执行,然后将各节点的结果
进行汇总,形成最终结果。按照前述钻具间关
联性分析的过程,根据MapReduce 的编程模
式,基于MapReduce 的钻具间关联性分析的
过程,首先是通过Map 函数,分别并行的在
各钻井公司数据库管理和计算节点上,对该企
业以往不同油井钻具组合数据中所包含的钻具
及钻具间的关联度进行分析计算;其次是通过
Reduce 函数,将来源于不同钻井企业的相同
钻具及其与其它钻具间的关联度进行合并,根
据用户输入的ε 和δ 的值,分析找出核心钻具,
计算得到核心钻具关联链和关联钻具集合,并
输出给用户参考。这一过程的算法为:
输入:<UserID,<DrillingIDList>>
// UserID 是钻井公司标识,DrillingIDList
是油井钻具组合列表
输出: <KeyDrillingID,<KeyDrillingIDLink
List>>
//KeyDrillingID 是核心钻具,
KeyDrillingIDLinkList 是核心钻具关联钻具列
表
//Map 阶段,针对每一个钻井公司
(1)。循环钻具组合列表
DrillingIDList,确定钻具标识DrillingID,形
成相应的钻具列表DrillingList;
(2)。对钻具列表中每个钻具,对钻具
组合列表DrillingIDList 进行循环,计算该钻
具与其它钻具的关联度,形成该钻具关联列表
DrillingIDLinkList;
(3)。形成键/ 值<DrillingID,<DrillingI
DLinkList>> 对列表。
//Reduce 阶段
(1)对Map 函数形成的<DrillingID,<Dr
illingIDLinkList>> 中相同DrillingID 的钻具进
行归并,形成钻具集合DrillingSet;
(2)对钻具集合中每个钻具,对各Map
函数DrillingIDLinkList 进行循环,将该钻具
与其它钻具在不同Map 函数中的关联度进行
累计计算,形成该钻具关联度累计后的关联列
表DrillingIDLinkList2;
(3) 根据给定的数值ε, 对DrillingSet
循环,依据DrillingIDLinkList2 中的值,
计算得到每个钻具的ε 关联邻域集合,
DrillingIDNList;
(4)根据给定的数值δ,对DrillingSet
循环,依据DrillingIDNList 中的值,选择确定
核心钻具KeyDrillingID,计算得到该核心钻
具的关联钻具列表KeyDrillingIDLinkList。
4 结束语
钻具组合设计常常需参考和借鉴以往类
似设计的数据与结果,而传统方式是将数据集
成后统一进行分析统计,造成因数据分布广、
数据量大而难以集成和及时提供有效信息等问
题。本文提出的一种基于大数据的钻具组合辅
助设计方法,利用大数据的理论和方法,借鉴
MapReduce 的编程模式,有效实现了分布在不
同钻井企业各油井钻具组合中钻具间关联性的
并行分析,避免了以往数据集成和分析统计的
缺陷,提高了对以往钻具组合数据的利用率和
统计分析的效率,为面向设计人员的钻具组合
辅助设计系统的构建与研究提供了可供借鉴的
新思路。
参考文献
[1] 周开吉, 郝俊芳编. 钻井工程设计[M].
中国石油大学出版社,1996.
[2] 孟小峰, 慈祥. 大数据管理: 概念、
技术与挑战[J]. 计算机研究与发
展,2013,50(1):146-169.
[3] 王珊, 王会举, 覃雄派, 周烜. 架构大
数据: 挑战、现状与展望[J]. 计算机学