相关栏目
院系热点

弱关联冗余环境下的挖掘算法研究

发布时间:2018年05月03日发布部门:计算机科学与工程学院 字体大小:

(作者:蔡柳萍 计算机科学与工程学院,该文已发表在《软件工程》期刊。)

 

摘要:

弱关联冗余环境下所开展的挖掘算法应用需要考虑关联属性,本文主要从模糊神经元网络学习算法与弱关联规则模型建立两方面内容展开探讨,整理出算法应用所产生的数据信息,对大数据环境挖掘算法进行深入研究,通过创建数据挖掘模型来提升最终的系统运行效率,使信息传输达到更稳定效果,并为网络环境信息处理任务高效开展建立一个稳定基础环境。

 

Abstract

Application of mining algorithm to carry out the weak association redundant environment need to consider related attributes, this article mainly from the fuzzy neural network learning algorithm and weak association rules model two aspects to discuss, sorting out the algorithm using data generated by the data mining algorithm research environment, by creating a data mining model to improve the system the efficiency of the final, make the information transmission to achieve a stable effect, and establish a stable environment for the network environment of the information processing tasks carried out efficiently.

 

关键词:弱关联;冗余环境;挖掘算法;模糊记忆;同步运算

 

一、弱关联冗余环境下的挖掘算法综述

1、模糊神经学习算法

模糊神经学习算法是当前数据挖掘的主流技术,采用弱关联思想设计原则,系统之间关联会尽可能减少,模糊学习算法应用后系统运算速度会有明显提升。弱关联环境下对信息数据处理使用效率都有极高的要求,在建立系统管理控制环境期间,应用模糊数据运算分析学习方法,能够帮助节省大量数据运算所用时间,能够根据弱关联环境下的系统联系选择运输,基于云计算环境下不断学习数据更新,达到记忆效果。模糊学习算法是针对系统运行中控制能力提升进行的,弱关联冗余系统部分在控制运算中通过学习算法可以将不必要的部分选择删除,节省挖掘算法运行所用时间。

2、挖掘算法中的决策树算法

应用该种算法,需要选择属性用信息增益变化数据子集,建立符合运行模式的信息获取环境,从而实现对信息传输数据决策范围判断,也就是熵的变化值,而C4.5用的是信息增益率。在这里,其克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点不考虑,因为很容易导致overfitting。这种算法,对非离散数据都能处理,对连续型的值在哪里分裂好,也就是把连续性的数据转化为离散的值进行处理。另外,还能够对不完整数据进行处理,缺失数据采用一些方法补上去就好。

3、基于模糊神经网络的弱关联挖掘方法

3.1数据选择

基于云计算网络环境下自主选择数据,观察数据信息是否与弱关联挖掘算法保持一致。数据选择不仅考虑所处环境,更要从多个角度展开研究,观察是否存在可能影响信息结果使用效率的干扰因素。建立在安全环境下的数据选择与数据控制之间存在联系体系,明确这一联系体系也是开展后续挖掘任务中所必须要达到的,只有达到这一效果在信息传输中才不会受到影响。数据运行环境中所存在的各项控制问题中,数据选择也是一个良好筛选过程,通过建立相互联系来促进最终的数据结果稳定性程度与实际使用需求保持一致。数据选择能确保数据准确程度进入到下一阶段的挖掘计算,选取不同风险环境下的典型参数作为接下来的运算依据,弱关联挖掘得到的结果才能准确反映真实情况。

3.2数据预处理

将所选择的数据初步处理后建立数据库,将数据库参与到挖掘算法中,帮助节省时间,同时促进管理效率不断提升完善。数据处理与使用需求在功能方向上保持一致,功能确定后对信息的处理也能观察到其中是否存在影响功能进行的因素,风险信息参数在预处理模式下得到解决,接下来开展各项控制管理计划也能得到充分帮助。预处理属于模糊处理,数据库系统中可能还会存在一些多余信息,在接下来的处理中会继续筛选,直到信息全部为关联部分。预处理中信息干扰要排除,要提升系统的使用安全性,降噪、平滑处理后得到的信息存入到数据库系统中,为信息使用打下安全基础。

3.3塑造训练数据

训练数据塑造需要结合信息集合进行,将原信息特征与预处理后的信息特征进行比较,具有相同点的部分划分为特征集合中。集合塑造完成后对信息进行塑造训练,用具体的数值表现出特征属性值域范围。可以将不同需求环境下的数据进行划分,得出检测对照组与数据训练组,两组数据之间结合对比,所得到的结果能够准确反映出数据库运行环境,并为所开展的各项数据体系建立同等稳定运行环境。

 

二、弱关联挖掘算法环境下冗余数据的产生

基于云计算模拟下,信息获取渠道变得更加丰富。信息获取数量增多后,同时也产生了大量冗余信息。对于这部分信息如果不能合理计算,接下来的控制计划就会因此受到影响。由此可见,冗余数据产生与数据挖掘环境有直接关系,风险评估系统的筛选甄别能力也是造成这一隐患问题的具体原因。在当前模式下,如果不能合理控制隐患因素,云计算技术应用效率就会因此受到影响,冗余数据还会造成系统错误识别,导致弱关联挖掘不能正常进行。冗余数据的产生会对常规状态下的信息传输造成不良影响,导致最终的控制能力出现问题。建立一个解决控制方案,对冗余数据进行划分隔离来保障有用信息的正常传输,这是解决当前问题的有效措施。研究解决控制方案要从多个角度进行,观察开展期间的影响因素,以及可能造成最终数据安全使用的因素,通过这种方法建立起长期工作环境,从而达到最佳设计控制目标。目前解决方案的研究过程中,已经有技术人员提出在弱关联环境下建立一个弱小集合关联系统,将数据挖掘定位在有效信息中,从而有效避免冗余信息计算造成最终运算速度的降低,但这个在实现技术层面上仍然需要继续深入研究。

 

三、建立弱聚类算法的弱关联规则挖掘模型

1、数据关系匹配实现原理

实现数据之间的匹配关系,可以从云计算环境中建立数据集合矩阵。数据匹配是自动进行的,捕捉表达信息,深入挖掘其中与其他数据具有关联的部分。通过建立基层数据关系来探讨最终的数据匹配关系,对提升数据结果运行稳定性也有很大帮助。数据关系匹配需要在云计算环境下找到相同的数据参与运算,实现数据之间相互联系,并在联系基础上筛选出冗余部分参数,根据产生频率来计算出具体矩阵,观察矩阵判断不同风险隐患发生的几率,并在接下来的各项控制计划中建立起具有实际意义的工作环境。本文所研究方法与传统方法在数据挖掘数量上的比较见图1。

 

图1 弱聚类算法和传统方法挖掘数量比较

采用的弱聚类算法,在信息挖掘数量上有明显提升,各个节点处的信息采集数量均已经超过传统算法。通过算法之间的相互比较可以发现,不同模式下开展信息分析,是帮助提升控制效果的有效方法,使用过程中所发现的各类信息比较问题,建立长期稳定运行环境对提升信息挖掘效率会有很大帮助。当前数据运算模式下所遇到的问题大部分是由于环境因素导致,因此必须协调好环境问题,否则数据运算模式下开展各类数据挖掘算法势必受到阻碍。

2、关联数据弱聚类处理

匹配任务完成后进入到数据处理阶段,通过建立基层工作联系体系来实现系统之间配合运行,对关联数据进行弱聚类处理同样基于云计算环境下开展。根据匹配所得到的数据结果信息来进行,观察到数据中存在问题时及时探讨解决方案,对于使用过程中可能会产生的问题,充分探讨解决规划方案,对提升最终任务完成效率会有很大帮助,关联模式下观察数据运行所处环境,弱聚类方法处理信息对提升关联数据也有很大的帮助。弱关联是针对少量关联模式来进行的,当前环境下所遇到的各类问题均由信息风险因素导致,采用弱聚类处理方法提升了最终结果准确程度,对于提升最终的计算效率也有很大帮助。不同类型弱聚类环境中,数据库运行所面对的风险因素有很大差异。模拟信息处理模式需要对使用情况作出模拟,尝试在不同运行环境中所遇到的风险隐患问题,确保所提取的信息结果与实际情况之间不存在出入。弱关联环境中数据之间联系本身较少,冗余信息环境带来的阻碍影响更严重,只有解决这部分问题,接下来进行的信息对接检测才更加高效。

3、小区域关联划分

划分小区域关联是实现接下来挖掘算法的基础部分。划分要从多个角度进行,首先建立一个整体性的挖掘体系,观察是否具有可行性,掌握故障隐患因素后从数据关联划分角度建立一个矩阵研究体系,并观察数据运行是否处于合理的状态范围内。小区域关联信息划分完成后进入到整合阶段,按照这一划分结果对比其他方向数据库,建立起长期工作环境。大数据处理是由多个小环境组成,因此数据划分与挖掘任务也是从各个小范围开展,冗余环境中信息有效筛选才能进入到更深层次的信息观察处理中,实现弱关联项目更深层次研究。云计算环境下信息处理速度虽然有明显提升,但在处理能力上却因此受到影响,建立这一联系体系是解决现存问题的有效方法,另外各个控制计划之间联系体系也需要通过方案完善不断提升运行使用效率。

4、弱关联环境下的挖掘过程

数据弱关联环境下,信息获取会建立独立的信道,在信道控制作用下进行其他层面数据传输,实现云计算环境下信息最稳定的获取形式。数据库中全部信息数量统计需要浪费大量时间,可以对其进行假象拟定,例如将其假设为1000,这样在运算分析中也能避免信息获取数量与实际需求不符合。信息挖掘获取需要在同步运算环境下开展,通过这种方法来帮助提升最终结果稳定程度。挖掘过程首先从信息获取层面开展,统计信息数量与传输方法,挖掘过程中观察数据信息之间的关联情况,建立起具有长期控制能力的风险评估体系。信息数据传输中彼此之间具有关联性,关联性情况了解后,进入到更深层次的数据保护阶段,采用数据挖掘试探方法检验数据库使用稳定性情况,帮助建立起长期工作体系,并观察在系统中是否存在需要更新完善的部分。弱关联环境下数据信息之间的联系线索非常少,要确保捕捉的精准程度,信息有效利用后进入到控制层面,协调好数据之间的交流模式并建立具有保护意义的数据检索环境,结束数据挖掘检索后可以进入到更深层次的控制内容中。

5、与其他算法的比较  

模糊神经学习算法利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。由于模糊性是客观的存在,而且系统的复杂性愈高,精确化能力便愈低,这就意味着模糊性愈强。决策树算法的优点是可以生成易理解的规则,健壮性好,能处理非线性关系,缺点是当类别太多时,错误可能增加的比较快,一般的算法分类时只根据一个字段来分类,泛化能力较差。基于模糊神经网络的弱关联挖掘方法将模糊系统和神经网络结合起来,构造一种模糊神经网络,实现模糊规则的自动生成,提高了模糊神经网络的自学习性能和鲁棒性,加快了网络的收敛速度,挖掘尽可能接近实际的完全规则,使得所挖掘的规则简单、可靠。而本文提出的基于弱聚类算法的云计算环境下海量数据中弱关联挖掘方法,针对弱关联冗余环境进行,通过数据的描述特征对数据特征进行分解,依据数据特征,对全部数据进行融合。基于关联决策概率将云计算环境下海量数据进行有效划分,完成所有数据特征关联概率的计算,通过弱聚类方法对属性元素进行分类,将数量型元素转换成类别型,通过弱化关联规则方法,对经聚类处理后的数据进行挖掘。此方法具有很高的高效性及有效性,能够帮助快速明确工作开展方法,掌握数据信息彼此之间的联系性,节省数据分类使用时间,控制效果明显,能够有效提升大数据环境中的分析速度。

 

四、弱关联冗余环境下的挖掘算法仿真实验

确定挖掘算法开展模式后进入到仿真实验解读,检验挖掘算法是否具有可行性,建立长期工作体系来促进最终工作稳定性提升,也是解决当前矛盾冲突问题的主要原因。实验进行是对算法有效性的一次检验,观察在系统结构中是否存在可能会造成风险隐患因素的问题,将风险隔离排除。仿真实验检测弱关联冗余环境下的挖掘计算时,首先针对数据库部分的控制能力进行检验,虽然弱关联环境下数据之间联系较小,但通过这种控制挖掘方法也能帮助捕捉数据信息传输动向,确定信息之间的联系关系,从而实现对数据库运行情况的模拟检验。该种方法在数据稳定性控制能力上较强,通过分析现场工作模式来建立一个长期工作环境,能够达到最佳控制效果。弱关联冗余环境是在云计算模式下展开数据挖掘的,需要在短时间内建立长期工作模式,云计算模式下数据信息的数量庞大,此方法能够帮助快速明确工作开展方法,掌握数据信息彼此之间的联系性,节省数据分类使用时间。仿真实验开展在大数据云计算环境下,实验结果显示弱关联环境中的弱聚类挖掘算法应用后效果明显,弱关联问题得到解决,并且在这一环境下所开展的各项数据运算计划也逐渐完善,最终进入到理想的控制环境。仿真实验分别模拟不同环境下系统运行所能遇到的问题,实验所针对的数据内容具有代表性,但并不完全表示真实运行过程,对运行情况进行分析时还需要综合考虑问题。经仿真实验测试,应用该种挖掘算法开展控制效果明显,能够帮助有效提升大数据环境中的分析速度。

 

五、结束语

对于弱关联冗余环境下的挖掘算法研究,当前技术方法已经十分先进,未来发展中还要达到综合控制效果。云计算环境下提升数据处理运行效率,对最终数据处理效果提升也有很大帮助。本文提出了一种基于弱聚类算法的云计算环境下海量数据中弱关联挖掘方法,针对弱关联冗余环境进行,通过数据的描述特征对数据特征进行分解,依据数据特征,对全部数据进行融合。基于关联决策概率将云计算环境下海量数据进行有效划分,完成所有数据特征关联概率的计算,通过弱聚类方法对属性元素进行分类,将数量型元素转换成类别型,通过弱化关联规则方法,对经聚类处理后的数据进行挖掘。实验结果表明,所提方法具有很高的高效性及有效性。

 

参考文献:

[1] 黄潮. 云计算环境下的海量光纤通信故障数据挖掘算法研究[J]. 激光杂志,2017(1):96-100.

[2]张忠林, 田苗凤, 刘宗成. 大数据环境下关联规则并行分层挖掘算法研究[J]. 计算机科学, 2016, 43(1):286-289.

[3]童钊, 肖正, 李肯立,等. 分布式系统中多用户网络应用的概率型调度算法研究[J]. 电子学报, 2016, 44(7):1679-1688.