数据分析方法精品(七篇)

时间：2022-02-01 16:20:05

序论：写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感，挖掘那些隐藏在内心深处的真相，好投稿为您带来了七篇数据分析方法范文，愿它们成为您写作过程中的灵感催化剂，助力您的创作。

数据分析方法

篇(1)

关键词：大数据；分析模型；房价

中图分类号：TP399 文献标识码：A 文章编号：1007-9416（2017）03-0137-02

1 引言

大数据分析首先要建立一个分析模型，分析模型是大数据分析的基石，只有先建立了模型才能对大数据进行分析。构建大数据分析模型传统的方法很难实现，大数据非结构化、属性很难预知，通过数学、统计学等方法构建大数据分析模型都比较困难，机器学习是构建大数据分析模型最有效的方法之一。机器学习通过不断地学习优化、不断地迭代逼近所要的模型。

2 训练数据准备

机器学习构建大数据分析模型的方法是通过训练数据将模型训练出来。从要研究的大数据对象中找出训练集。机器学习分为监督学习和非监督学习，监督学习需要教师，监督机器学习的结果，事先设定好学习目标，期望的结果。非监督学习的数据一般都无标签，学习结果事先也无法预知，通过数据可视化等方法观察学习结果。

房价大数据分析模型机器学习属于监督学习，期望预测值极大地逼近真实值。首先需要采集房价数据作为训练数据，然后设计房价大数据分析模型机器学习算法，计算机通过机器学习算法和学习路径学习训练数据，学习目标是预测的结果极大地逼近真实数据，通过反复迭代，不断地接近目标，训练出所希望的模型。

3 数据清洗

清洗后的训练数据如下：

间数（x1） x1 2 x1 2 x1 3 x1 3 x1 3 x1 3 x1 2 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 2 x1 1 x1 3 x1 3 x1 3 x1 3 x1 1 x1 2 x1 2 x1 2 x1 2 x1 2 x1 3 x1 2 x1 3 x1 2 x1 2 x1 3 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 3 x1 2 x1 1 x1 2 x1 2 x1 2 x1 2

面e（x2） x2 126 x2 99 x2 134 x2 137 x2 135 x2 138 x2 104 x2 99 x2 105 x2 126 x2 112 x2 116 x2 88 x2 90 x2 79 x2 120 x2 155 x2 158 x2 161 x2 66 x2 108 x2 88 x2 111 x2 103 x2 104 x2 131 x2 105 x2 130 x2 102 x2 105 x2 148 x2 98 x2 100 x2 128 x2 110 x2 101 x2 121 x2 127 x2 103 x2 67 x2 78 x2 71 x2 81 x2 77

价格（y1） y1 460 y1 425 y1 515 y1 580 y1 630 y1 600 y1 425 y1 439 y1 435 y1 608 y1 460 y1 460 y1 410 y1 380 y1 340 y1 520 y1 685 y1 680 y1 630 y1 328 y1 532 y1 405 y1 495 y1 470 y1 480 y1 690 y1 480 y1 690 y1 462 y1 495 y1 540 y1 440 y1 510 y1 599 y1 395 y1 450 y1 455 y1 595 y1 403 y1 295 y1 315 y1 345 y1 355 y1 335

4 房价大数据分析模型机器学习算法

机器学习首先要设计机器学习学习算法，设计机器学习学习路径，机器学习解决的问题通常可分为预测和分类两类问题。首先我们分析一下要解决的问题是属于预测问题还是分类问题，然后选择相应的学习算法，设计学习路径，通过训练数据训练和机器学习构建大数据分析模型。模型通过训练数据训练出来以后，对模型进行检验，然后不断进行优化，以达到我们所期望的精度。

以下是梯度下降机器学习算法和学习路径：

首先建立一个估值函数（模型）如下：

x为自变量（特征参数），h（x）为应变量（房价的估值），希望求出此函数的系数θ0、θ1，构成一个完整的函数，此函数就是我们要构建的大数据分析模型。

我们建立一个成本函数，希望预测值与真实值的差趋近于0，也就是成本函数值趋近于0。

J（0， 1）=

其中：

X（I）表示向量X中的第i个元素；

Y（I）表示向量Y中的第i个元素；

表示已知的假设函数；

m为训练集的数量；

Gradient Descent梯度下降方法机器学习步骤：

（1）先随机选定一个初始点；

（2）确定梯度下降方向；

（3）通过实验确定下降步伐，学习率Learning rate；

（4）通过不断地递归，收敛到极小值；

通过梯度下降法使成本函数趋于0，在此条件下求得自变量的系数θ0和θ1，将此θ0和θ1带入到函数中得到我们要的模型。

下面是介绍如何运用梯度下降法，经过反复迭代求出θ0和θ1：

梯度下降是通过不停的迭代，最后沿梯度下降到最低点，收敛到一个我们满意的数据，误差趋近于0时迭代结束，此时的θ0和θ1正是我们要求的函数自变量的系数，有了θ0和θ1，这个假设的函数就建立起来了，这个函数就是我们要建的大数据分析模型。

梯度下降法分为批量梯度下降法和随机梯度下降法，批量梯度下降法速度较慢，每次迭代都要所有训练数据参与；随机梯度下降精度差一些，容易在极值周围震荡；房价大数据分析模型采用的是实时数据梯度下降法（Real Time Online Gradient Descent），可以随着房价的变化随时修正模型的参数。

5 构建房价大数据分析模型

通过数据可视化，我们可以看到房价数据趋于线性，所以我们采用线性回归构建房价大数据分析模型。采用监督学习，先给定一个训练集，根据这个训练集学习出一个线性函数，然后检验这个函数训练的好坏，即此函数是否足够拟合训练集数据，不断优化模型减少残差，最大限度地接近真实值。

假设房价大数据分析模型：

y=aX1+bX2

通过梯度下降法，不断递归，最后使假设值与实际值之差趋近于0，求得此时的模型变量系数a、b，构建线性函数（房价大数据分析模型）。模型通过回归诊断、交叉验证不断进行优化，直到误差达到要求。

以下是采用机器学习算法构建的房价大数据分析模型，用R语言编写房价大数据分析模型程序如下：

令：a=q1；b=q2；

将训练数据以数据框的形式存储。

pricedata

造梯度下降算法函数，初始点q1=0、q2=0；下降速率d=0.0001。

grd2

q1=0；

q2=0；

d=0.0001；

i=0；

m=9；

plot（y～x1+x2，data=pricedata，pch=16，col='red'）；

通过反复迭代得出估值函数系数q1、q2。

while （i

{

i=i+1；

q1=q1-d/m*（q1*x1+q2*x2-y）*x1；

q2=q2-d/m*（q1*x1+q2*x2-y）*x2；

}

return（q1）；

return（q2）；

}

grd2（）；

model2

summary（model2）；

通过summary（model2）汇总出模型变量系数。

篇(2)

关键词：粗糙集理论；数据分析方法；信息系统；决策表；属性约简

中图分类号：TP18 文献标识码：A文章编号：1009-3044(2007)06-11651-01

1 引言

粗糙集（Rough Set）理论[1]是波兰数学家Z.Pawlak于1982年提出的，它建立在完善的数学基础之上，是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息，使得粗糙集理论成为研究热点之一，被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。

属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中，大致可以分为两类：一类是基于信息熵的启发式算法[4]，这类算法往往不能得到系统的所有约简．另一类是基于区分矩阵和区分函数构造的算法[5]，这种算法直观，易于理解，能够计算出所有约简。但在区分矩阵中会出现大量的重复元素，造成时间和空间的浪费，从而降低了属性约简算法的效率。

本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下，逐个约去冗余的属性，直到不再有冗余的属性，此时得到的属性集是最小属性集，即为约简。该算法简单，能够求出所有约简，不会出现区分矩阵中大

量的重复元素，从而提高了属性约简的效率。

2 粗糙集概念

定义2.1设U为所讨论对象的非空有限集合，称为论域；R为建立在U上的一个等价关系族，称二元有序组S=(U，R)为近似空间。

定义2.2令R为等价关系族，设P?哿R，且P≠?I，则P中所有等价关系的交集称为P上的不可分辨关系，记作IND(P)，即有：[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。

定义2.3称4元有序组K=(U，A，V，f)为信息系统，其中U为所考虑对象的非空有限集合，称为论域；A为属性的非空有限集合；V=∪Va，Va为属性a的值域；f：U×AV是一个信息函数，?坌x∈U，a∈A，f(x,a)∈Va。对于给定对象x，f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U，A)。若A=C∪D且C∩D=?I，则S称，为决策表，其中C为条件属性集，D为决策属性集。

显然，信息系统中的属性与近似空间中的等价关系相对应。

定义2.4设K=(U，A，V，f)为信息系统，P?哿A且P≠?I，定义由属性子集P导出的二元关系如下：

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。

定义2.5称决策表是一致的当且仅当D依赖于C，即IND(C)?哿IND(D)，否则决策表是不一致的。一致决策表说明：在不同个体的条件属性值相同时，他们的决策属性值也相同。

定义2.6设K=(U，A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集，则称P为A的一个约简，或称为信息系统的一个约简。

定义2.7设K=(U，CUD)为一个决策表，其中C为条件属性集，D为决策属性，若P?哿C为满足POSC(D)=POSP(D)的极小属性子集，则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。

定义2.8数据分析方法对于信息系统K=(U，A)，逐个移去A中的属性，每移去一个属性即刻检查新得到的属性子集的不可分辨关系，如果等于IND(A)，则该属性可被约去，否则该属性不可被约去；对于决策表K=(U，CUD)，逐个移去C中的属性，每移去一个属性即刻检其决策表，如果不出现新的不一致，则该属性可被约去，否则该属性不可被约去。

3 基于数据分析方法的属性简约算法

3.1 算法思路

利用函数的递归调用，逐个判定信息系K=(U，A)中属性a(a∈A)，若IND(A)＝ND(A－{a})，则a可以约去，A‘=A－{a}，否则a不可以约去，继续检查A‘中的每个属性是否能被约去，此过程一直进行下去，直到出现某一属性子集中的每个属性都不可约去为止，此时该属性子集即为所求的属性简约。对于决策表，每次检查是否增加了不一致的决策规则，作为是否约去属性的依据。

算法如下：

输入：信息系统K=(U，A)。

输出：K的属性约简。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基数//

for j=i+1to|U|

begin

r=|R|//|R|表示属性个数//

if((f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2)）∧….∧（f(ui，ar)= f(uj，ar)))

then a不可被约去，return0

end

a可以被约去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示属性个数//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 ， reduce (A’)

if (flag且A未被输出)then

输出A中所有元素//flag≠0，说明A中所有元素不可移去，且不会被重复输出//

End

end

以上给出的函数是求解信息系统的属性约简算法；对于决策表，只要将Match(A’)函数中的if语句的条件换成(f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2))∧….∧(f(ui，ar)= f(uj，ar))∧(f(ui，ag)≠f(uj，ag))，r=|C|是条件属性个数，ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表，对非一致决策表，算法类似，也就是逐个移去属性并检查决策表是否出现新的不一致，作为约去此属性的依据。

4 举例

文献[7]中决策表1，a，b，c，d，e是条件属性，g是决策属性，求出的约简是{a,b,d}

应用本算法，求得的属性约简为{a,e}和{a,b,d}，得到决策简化表2和表3。

表1 决策表表2简化表表3简化表

如果将决策表表1看作一信息系统，运用本算法，求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 结束语

本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的，具有直观、易于理解和完备性的特点。当属性和对象都较少时，效率较高，但当属性和对象较多时，计算的复杂度较高。实例表明，该算法是有效的。

参考文献：

[1]PAWLAK z．Rough set[J]．International jom：ua ofcomputer and information science，1982，(11)：341―356．

[2]张文修，吴伟志，梁吉业等．粗糙集理论与方法[M]．北京：科学出版社，2001．

[3]Pawlak Z．Slowinski R．Rough set approach to muhiattribute decision analysis．Ivited Review[J]．European Journal of Operational Research．1994，72：443-459

[4]王国胤，于洪，杨大春．基于条件信息熵的决策表约简[J]．计算机学报，2002（7）：760―765．

[5]Skowron A，Rauszer C．The Discernibility Matrices and Functions in Information Systems[A]．I Slowinsk R．ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c]．1991，331-362．

[6]刘请．Rough集及Rough推理[M]．北京：科学出版社，2001．

篇(3)

关键词：空气质量；异常数据，空气自动监测系统；

中图分类号： X169 文献标识码： A 文章编号：

1引言

随着国家科技水平的提高，居民的生活质量也在逐渐提高，人们对周围环境的要求也随之提高。环境的重要组成部分——空气，作为人类一切活动的必需元素，自然也被放在了重要的位置，它关系到人体的舒适度以及健康状况。为了改善国家的空气质量，环保部门已在国家的大多数地区布设了环境监测站，并分别为这些监测站配备了一定的监测系统及技术人员。目前，常用的环境空气监测系统为空气自动监测系统，该系统在大多数监测站觉得以应用，因为该系统不仅能够在监测站内自动完成空气质量数据的监测，还能够根据已测数据来预测本地区的未来空气质量变化趋势，此外还能够在发生特殊事件时迅速提供应急措施。但是该系统也有一定的缺点，即在某些特殊状况下，比如停电、损坏、空气质量突变，产生不正常数据。下面分别从异常数据和正常数据两个方面着重介绍了如何对监测数据进行分析及处理。

2异常数据的分析及处理方法

绝大多数类型的监测项目均会产生一定量的异常数据。空气自动监测系统也不例外，该系统常因气候的突变，以及系统本身的性能不稳定，系统组成部件出现故障等一系列因素而产生许多异常数据。大量资料显示，该系统产生的异常数据通常占有总数据百分之一到百分之三的比例，这个比值偏大，因此如何恰当地分析及处理这些异常数据同分析和处理正常数据一样，具有十分重要的意义。

2.1分析造成异常数据的原因

造成系统产生异常数据的原因较多，大致分为分析仪故障、气路故障和其他故障三大类。

2.1.1分析仪故障

分析仪故障主要分为以下两类：

(一)二氧化硫及二氧化氮分析仪故障

这两种分析仪的采样管和限流孔直径都较小，而空气中的灰尘含量较高，而且有的灰尘颗粒粒径较大，所以容易造成管道出现堵塞。一旦堵塞，将会对二氧化硫和二氧化氮和的监测值带来很大影响。这两台分析仪内部还分别设有一台小型泵，泵上均附有泵膜，泵膜如果被空气中的灰尘污染，也将对二氧化硫的监测造成影响。此外，该两种分析仪内部还有许多诸如紫外灯等小物件，这些小物件的损坏也会对二氧化硫的监测值造成很大的偏差。

（二）PM10监测仪故障

该监测仪对采样量要求较高，所以如果在采样时出现气体泄露将会造成PM10值偏低；流量计如果不准确也会造成PM10值出现偏差。在该分析仪内设有滤膜带，滤膜带的破裂将会造成PM10值偏大或者固定不变。此外，下雨天要格外注意加热管的工作状态。加热管的主要作用是将水分进行分离。下雨天空气中水分含量较高，如果加热管不能将水分完全分离，就会造成水分吸在滤膜上。这些水分会因监测仪温度的升高而随之挥发，水分的挥发将最终导致PM10值长期处于低水平不变动，甚至变成负数。

2.1.2气路故障

空气自动监测系统的采样头因接触空气而容易沾染污物，所以为了获得准确的监测数据，要经常清洗采样头，保持清洁。采样管系的顺畅与否也直接影响着监测数据的准确性。

2.1.3其他故障

该系统内部具有许多线路，任何一条线路出现松动或者破坏都将对监测值带来影响，甚至造成系统无法正常运转。此外，该系统在电路不稳定或者断电的状态下无法正常工作，所以供电系统由断电转为有电的较短时间段后，该监测系统会因仪器的预热而产生一些异常数据。

2.2异常数据的处理方法

对于异常数据，数据处理人员应该能够准确地从监测数据中进行去除。在去除异常数据后，如果正常数据能够满足规定的小时数，则可以直接去掉这些异常数据继续接下来的工作，并且还要同其他监测站的数据进行对比。而如果在去除异常数据后的正常数据不能够满足规定的小时数，则需要考虑再采用其他方法进行监测。

3正常数据的分析及处理方法

探究一个地区的空气质量的好坏，首先是选用高端精确的系统，如空气自动监测系统，对空气进行监测，然后就是对这些监测数据进行系统地分析及处理，二者缺一不可，同等重要。（一）筛选数据。将监测到的大量数据进行筛选，去掉突变值，也就是异常数据，剩下的就是正常数据。（二）列表。根据监测站的不同或者各个监测站的主要污染物的类别按照一定的时间顺序填入表格，将这些数据进行系统化。（三）画图。根据上一步的表格数据，选择适当的图线类型，如折线图、曲线图、柱形图或者饼状图，将数据反映在图中，空气质量的变化趋势及几个监测站之间的区别看起来会直接，更清楚。（四）讨论。在对正常的监测数据进行处理之后，接下来就是对这个处理结果进行讨论：同种监测站的同种污染物不同时间含量的不同，不同监测站的同种污染物含量之间的不同，同一个监测站不同污染物种类的含量差别等。此外还应重点讨论各个监测站的主要污染物的来源，在讨论污染物的主要来源时要注意结合监测站的地形状况、当时的气候状况、以及监测的地理位置，即是否靠近工业区、居民生活区或者道路等，因为工业区会直接排放多种类型的气态污染物，如硫化物，氮氧化物，PM10，有机化合物，碳氧化物，铅等进入空气，居民区在冬季时则会因取暖而排放大量的硫化物，靠近道路的监测站则会因道路上的车辆尾气而导致监测数据中氮氧化物含量较高。

4总结

为了准确地了解当地的空气质量状况，空气监测站的工作人员需要掌握正确的数据分析及处理方法，对于正常数据及异常数据分别采用不同的方法进行分析和处理。此外，在工作过程中，应根据实际状况的不同而进行适当的变通，制定恰当的解决方案，切不可死搬硬套，而且工作人员应明确自身责任，掌握熟练的技术，确保环境空气监测结果科学而正规。

参考文献

篇(4)

[关键词]财政收入；GDP；面板数据

中图分类号：F01 文献标识码：A 文章编号：1006-0278（2013）02-024-01

在计量经济学中，我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析，但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中，截面数据回归分析会遗漏掉数据的时间序列特征，例如在分析某年中国各省的GDP增长数据时，单纯的截面数据回归分析无法找出各省GDP随时间变化的特征，使得分析结果没有深度。而如果只用时间序列分析，则会遗漏掉不同截面间的联系与区别，例如在分析中国单个省市的GDP随时间增长的数据时，无法找出各个省市之间经济增长的联系与区别，因而同样无法满足我们的需要。而面板数据，是一种既包括了时间序列数据，也包括了相关截面数据的复合数据，是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础，在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快，财政收入不断扩大，而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系，把握财政收入与经济增长之间的相互影响，发挥财政收入对经济发展的调节和促进功能，对于完善财税政策，深化财税体制改革，实现财政与经济之间的良性互动，具有重要的现实意义。文章就将从中国各省的面板数据出发研究，中国不同地域间财政收入和GDP之间的关系。

二、实证分析

（一）单位根检验

Eviews有两种单位根检验方法，一种在相同根的假设下的检验，包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下，包括IPS，ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设，因此序列GDP和CZSR均为一个2阶单整序列。

（二）协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的，那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列，其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中，Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设，同样Kao和Johansen检验方法也都拒绝原假设，因此，上述检验结果表明，我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验，说明变量之间存在着长期稳定的均衡关系，其方程回归残差是平稳的，因此可以在此基础上直接对进行回归分析，此时假设方程的回归结果是较精确的。

三、建立模型

混合模型：如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。

我们根据混合模型的回归结果，得到财政收入和GDP之间的回归方程为：

CZSR=227.3123+0.103224*GDP

（26.47637）（0.002839）

R2=0.810995 F=1321.587

显然从模型的回归结构来看，R2的值达到了0.81，有了比较好的回归解释力，同时，GDP的回归系数为0.103224，表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型：显然，在中国各省之间由于处在不同的地区，因而拥有不同的区位优势，那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化，此时在进行模型回归的时候，我们就有必要考虑变系数模型。

在回归结果中，R2的值达到了0.97，比混合模型拥有更好的回归解释力，而在变系数模型回归结果中，GDP的回归系数大于0.5的只有、青海、宁夏三个省份，也就是说这三个省份的财政收入占到了GDP的50%以上，他们同处于经济并不是很发达的西部地区，由此可以看出，处在经济发达地区的财政收入占GDP的比重要低，而不发达地区则要高。

四、结论

通过以上的分析检验，我们发现针对于中国财政收入和GDP的面板数据，我们应建立起变系数模型，并通过模型分析，我们可以得出这样的结论，中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同，造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们，我国西部地区的财政收入占GDP的比例要明显高于东部地区，地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此，这为我们改善我国落后地区的经济发展提供了一定的新思路，就是对一地区的税收征收可以适当放缓，而将GDP中以前政府占用的部分归还于民众和企业，因为，按照发达地区的经验表明，财政收入所占比重过高，经济发展的活力或者就不会很高，对于进一步刺激财政收入的增加也没有任何帮助。因此，我们应该适度降低财政收入占GDP的比重，从而增加经济活力，使西部地区以及落后地区及早的跟上东部发达地区的发展步伐，从而消除我国经济发展的地域不平衡。

参考文献：

[1]谢识予，朱洪鑫.高级计量经济学[M].复旦大学出版社，2005.

[2]张晓峒.Eviews使用指南（第二版）[M].南开大学出版社，2004.

篇(5)

关键词自组织映射组织特异性基因管家基因基因表达谱

一、SOM算法介绍

由Kohonen提出的自组织映射（SOM）的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层，组织成一个二维的网格结构（图1.1）。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射，这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制，首先需要指定类别数目，对映射空间结点进行权值的初始化等。如（图1.1）所示，SOM网络是一个的映射，如果这个神经元被安排在一个平面网格上面的话，这个神经网络就称为二维神经网络，因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络，输入向量是一个维的向量，相应的第个突触向量的第个元素与输入向量的第个元素相连，这样，一个维的突触向量就和第个神经元实行连接。

图1.1 SOM网络的基本结构

SOM算法描述如下：

（1）令网络学习次数，赋予初始化权值向量一个小的随机向量值，对拓扑邻域（）、学习率（）进行初始化，设置网络总的学习次数（）。

（2）当学习次数（）小于总的学习次数（）时，重复步骤3至步骤6。

（3）随机选一个输入向量进入网络进行训练。

（4）确定获胜神经元，相应的权值向量为与输入向量距离最短的向量，成为获胜神经元，输入向量与获胜神经元的最短距离为，定义如下：

（1.1）

（5）按照下式更新获胜神经元及其邻域内神经元权值向量：

（1.2）

与函数定义如下：（1.3）

（6）令，如果，回到第（3）步继续训练，否则结束训练。

二、数值模拟计算

本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵，其中每一个元素表示第个基因在第个组织中的表达水平值，行向量代表基因在19个人组织中的表达水平，成为基因的表达谱，列向量代表某一组织的各基因的表达水平。

（1.4）

本文运用SOM方法对人基因19个组织的59个样本进行聚类，SOM网络的拓扑结构见（图1.2）及参数选择见表（表1.1）。

图1.2 样本聚类SOM网络结构图

上图中，根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息，我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类（其中第（4，5）个结点为空），图中每个结点的位置（结点位置用与输入模式维数相同的向权值向量表示，初始权值由系统自动产生）为各个结点权值尺度化之后所得到的位置。

三、结论

通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别，并且与采用层次聚类法所得结果进行比较，可以看出自组织映射的聚类方法与层次聚类方法比较，可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确，其分类正确率达到了92.2%，证明了SOM方法是有效的。

参考文献：

[1]孙啸，陆祖宏，谢建明.生物信息学基础[M].北京：清华大学出版社，2005：282-285.

[2]许东，吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社，2002.

[3]阎凡平，张长水.人工神经网络与模拟进化计算[M].北京：清华大学出版社，2005.：11-34，360-395.

作者简介：

篇(6)

城市地铁深基坑施工，由于受环境条件限制，施工安全问题尤为突出，采用单一监测方法已不能满足要求，多种方法监测变形数据分析能客观准确反映安全状态与质量程度，数据的客观准确性对施工具有指导意义，掌握工程各主体部分的关键性安全和质量指标，确保地铁工程按照预定的要求顺利完成，对各种潜在的安全和质量问题做到心中有数。

关键词：桩顶沉降、桩顶水平位移、桩体水平位移、轴力监测。

引言

车站深基坑为东西走向，基坑开挖长为160m，东侧宽28m，西侧宽21m，开挖深度为22m。车站东北侧为机场航站楼，车站位于规划停车场下方，2号风亭位于现有落客平台匝道桥旁。车站为地下双层岛式站，地下一层为站厅层，地下二层为站台层，车站附属建筑包括2个出入口和2个风亭等土建工程，施工采用明挖法，支护结构为钻孔灌注桩和钢管内支撑。

1.监测项目

车站深基坑主要进行的监测项目有：基坑桩顶沉降、桩顶水平位移、桩体水平位移（基坑测斜）、钢支撑轴力监测等。

2.布点要求

2.1基准点：在远离基坑变形区域（50m）外，布设永久性沉降和位移基准点4个。

2.1.2桩顶水平位移点：测点布设在基坑四周围护桩顶，埋设强制对中装置。边长大于30m的按间隔30m布点，小于30m的，按1点布设，基坑4角各布设1点，共布设17点。

2.1.3桩顶沉降点：测点布设在基坑四周、围护桩顶，边长大于30m的按间隔30m布点，小于30m的，按1点布设，基坑4角各布设1点，共布设17点。

2.1.4桩体水平位移（测斜）孔：测孔布设在基坑四周围护桩体内，边长大于60m的按间隔60m布孔，小于60m的按1孔布设，共布设8孔。

2.1.5钢支撑轴力：在钢支撑两端安装予埋轴力计，共布设16组。

为了便于数据对比，以上各监测项目中监测点平均分布在基坑每条主断面上，监测点布设主断面示意图如下：

2.2巡视内容

2.2.1周边环境：建（构）筑物是否有裂缝、剥落，地面是否有裂隙、沉陷、隆起、基坑周边堆载情况、地表积水情况等。

2.2.2基坑工程：明挖基坑围护结构体系有无裂缝、倾斜、渗水、坍塌、支护体系施做情况、地下水控制情况。现场巡视按要求填写巡视成果表，特殊情况下扩大巡视范围。

2.3监测频率：施工方要求每天至少监测一次，第三方监测要求每三天监测一次，出现特殊情况（多方法监测数据变化量大、现场巡视发现有裂缝）时进行加密监测。

3.监测方法及效果

3.1监测方法及初始值：采用“同人员、同仪器、同线路”进行观测，用Leica-TCA2003型马达跟踪精密全站仪对由4个基准点组成的二等控制网进行角度和边长观测。角度观测为左右角两测回，距离采用直反觇进行观测，其各项观测精度均满足《建筑变形测量规范》要求。观测数据采用清华三维软件平差，平差精度为1/180000。变形监测工作采用整体监测形式，在基坑开挖前一周对监测点三次观测，取三次观测数据的平均值作为初始值。

3.2沉降监测：基坑四周、桩顶沉降采用电子水准仪天宝DINI03进行监测，监测等级按II等水准进行监测。观测方法采用前-后-后-前的顺序，地表监测基点为标准水准点（高程已知），监测时通过测得各测点与水准点（基点）的高程差ΔH，可得到各监测点的标准高程Δht，然后与上次测得高程进行比较，差值Δh即为该测点的沉降值：ΔHt（1，2）=Δht（2）-Δht（1）“+”值表示上浮、“-”值表示下沉。

3.3 桩顶水平位移：采用有“测量机器人”之称的最先进全站仪 TCA2300，该仪器（角度测量精度0.5”，测距精度1mm+1ppm），特制U型强制对中观测台2个，布设成相互垂直，可以控制基坑所有变形点，采用该观测台能达到观测稳定对点精度高，测点设置在围护桩顶或边坡坡顶，埋设强制对中装置，每个变形点观测三组数据，数据值保留至小数点后四位，其差值均在0.2mm内。每次测量的坐标减去上次测量的坐标，得到ΔX、ΔY，根据基坑方向与真北方向的角度关系，对变化量ΔX、ΔY进行角度归算，计算出垂直于基坑方向上的位移量。

3.4 桩体水平位移（测斜）：桩体水平位移采用CX-3C测斜仪进行测量，每0.5米读一次数，垂直基坑方向正反两次测量进行平差。基本公式：V1=（V正－V负）÷2，V2=（V正－V负）÷2＋V1

依次累加；ΔV1 = V1 本次测量值－V1 上次测量值。依次对应相减，得出每点的位移量。“+”值表示向基坑内倾斜、“-”值表示向基坑外倾斜。

3.5 支撑轴力：采用XP05振弦频率仪进行轴力监测，读取数据后，用公式算出轴力变化值：P=K*(f I2－fO2)

其中P表示轴力变化值，K表示轴力计标定系数，f i表示轴力计任一时刻观测值，fo表示轴力计初始观测值。

以上各监测项的的监测预警值均为0.8倍设计容许值。

4.各项监测数据分析

监测多方法数据和资料，通过比较分析能极大提升信息反馈的可靠性，并能有效剔除粗差。可以按照安全预警位发出报警信息，既可以对安全和质量事故做到防患于未然，又可以对各种潜在的安全和质量问题做到心中有数。

现对基坑第六主断面各测项监测点数据进行对比分析，评价基坑安全性。

4.1桩顶沉降曲线图如下：

根据图表曲线可以看出，基坑刚开挖时，由于土压力突然较小，桩顶沉降有隆起现象，随着基坑开挖，侧压力平衡发生变化，变形值和沉降量由小变大，围护结构变形增大。持续一段时间后，围护结构的支撑内力，锚杆拉力与土侧压力处于平衡，变形数据达到稳定。桩顶水平位移和桩体水平位移变化趋势一致，同时跟支撑轴力成反比例，当加大支撑轴力时，位移量变化减小，向基坑外变化，支撑轴力减少时，位移量增大，向基坑内变化，但数据变化量不是很大。根据每个断面上的4个监测项目，进行数据对比，位移及沉降变化速率均小于3mm/d，累积量均小于30mm的预警值。从整个分析可以得到该工程基坑支护设计合理,一级基坑安全控制有效。

结束语

（1）监测工作在地铁深基坑开挖过程中能有效地起到指导安全施工的作用，加强监测可以及时发现隐患，为确定加固措施、确保工程安全提供重要依据。

（2）变形监测频率要根据施工进度计划，安排好监测作业时间，因为工程阶段性变形量所占比例大，与工序相关性很强。

（3）城市地铁深基坑施工，由于受环境条件限制，人为因素、环境因素、气象因素等等情况影响，单一监测数据不能说明问题，可靠性较低，单一监测方法已不能满足城市地铁施工安全要求。

（4）可靠的信息、精度合理的数据对可能发生的危及环境安全的隐患或事故提供及时、准确的预报，以便及时采取有效措施，避免事故的发生。

（5）监测多方法采集的数据，可以及时发现监测质量的好坏，并能有效剔除粗差。通过曲线时速类比、各类数据软件分析，能极大提升数据信息质量和信息反馈的可靠性。

篇(7)

【关键词】交通事故预测方法回归分析预测法

所谓的交通事故预测是根据已发生交通事故的数据进行统计，在对事故原因进行分析的基础上，探寻事故规律，以针对交通事故做出更为合理的推测和判断。当前，交通事故预测方法相对较为多样，如回归分析、时间序列等，虽然都能对交通事故做出科学合理的决策性指导，但各具优缺点和适用条件，因而有关人员应在遵循交通事故预测思想的基础上，对几种主要预测方法进行分析，确保交通部门人员能够根据实际情况而合理选择交通事故预测方法。

1 交通事故预测思想

交通事故对人类造成的危害相对较大，对人类产生严重的威胁。从我国发展实践中可知，交通事故在一定程度上制约我国经济的发展进程，尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计，2015年全年间，我国交通事故约为10597358起，死亡人数约为68432人，财产损失高达10亿元以上。可见，交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理，在遵循规律的基础上，对未来可能发生的交通事故作出科学合理的预测，该预测结果以科学逻辑推断为基础。就交通事故原因而言，道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测，我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略，以最大限度降低和消除交通事故隐患。

2 交通事故主要预测方法

2.1 回归分析预测法

回归分析预测法在交通事故预测中的有效应用，主要分为线性回归和非线性回归两种方法。首先，背景交通工程研究所人员提出线性回归分析预测法，通过对自变量和因变量之间关系问题的探讨，对因变量趋势加以预测，其模型为：

Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。

其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。

其次，英国伦敦大学SemeedR.J教授对欧洲国家十余载的交通事故资料进行研究，提出非线性回归分析预测法。对此，他建立幂函数曲线事故模型，

即：D=0.0003。其中D为交通事故死亡人数；N是机动车保有量；P为人口数量。

回归分析预测法能够对交通事故影响因素间的因果关系加以反应，以达到预测结果的目的，但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。

2.2 时间序列预测法

时间序列预测法主要有两种类型，分别为移动平均预测法和指数平滑预测法。首先，移动平均预测法是比较简单的平滑预测技术，通过计算项数时序平均值，对长期发展趋势变化做出科学合理的预测。内蒙古科技大学韦丽琴、徐勇勇利用时间序列ARIMA模型做出科学合理的预测分析，对交通事故加以预测。其次，指数平滑预测法的通式为：

Ft+1=αxt+（1-α）Ft

时间序列预测法属于定量预测方法，拟合效果良好，但在短期预测中，受诸多因素干扰影响较大，使预测结果具有不确定性。该方法适用于国内县区等区域范围较小的预测实践中。

2.3 灰色马尔科夫链预测法

道路交通系统属于动态时变系统，但影响交通安全的因素多且复杂。在灰色马尔科夫链预测法的指导下，相关人员能够通过灰色预测模型，做出短期预测，以缩小预测区间，提高预测效率。云南交通职业技术学院王刚对灰色马尔科夫链预测法而建立模型，对交通事故进行预测，根据实践可知，基于该模型的预测精确度十分高，取得良好的预测成效。

灰色预测以短期预测为主，马尔科夫链预测以长期预测为主，通过二者结合，可提高预测精度，但如若数据变化大，则灰色模型的吻合度和精度下降。借助该预测方法，能够对状态下的转移规律加以预测，并揭示交通事故时序变化总趋势。

2.4 贝叶斯预测法

贝叶斯预测法主要相对于交通事故中的车速问题而言。在交通事故中，车速是重要影响因素，如若车辆速度过快，则驾驶员反应的时间较少，其应急策略不足，造成重大交通安全隐患。贝叶斯预测法能够对未来交通事故发生的可能性进行预测。该预测方法应用中，必须建立在交通事故和车速有关联的基础之上，有助于交通部门人员更好开展数据统计和交通流进行观测。

2.5 灰关联分析及神经网络预测法

就灰关联分析及神经网络预测法而言，哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法，旨在通过交通事故影响因素分析，对事故进行进一步解析，并建立合理的模型理论和确定预测指标，对未来交通事故发展趋势加以预测。该预测方法的适应性较强，在我国交通事故预测工作实践中有着较为有效的运用，可解决传统预测方法难以解决的问题，建立在BP网络基础之上，并利用计算机开展辅计算活动。

2.6 多层递阶预测方法

多层递阶预测方法能够规避传统统计预测方法的缺陷，以现代控制理论“系统辨识”为重要基础，对对象的未来状态做科学的预测。动态系统数学模型为：y（k）=。在交通事故预测中，多层递阶预测方法是大数据时代背景下的重要处理方式，有利于增强预测效果。

3 结论

交通部门对交通事故进行合理的预测，有利于提高道路交通系统的安全系数。所以，相关人员合理选择交通事故预测方法具有必要性，为规避交通事故而做出科学合理的决策。目前，使用较多的交通事故预测方法主要有：回归分析预测法、时间序列预测法、灰色马尔科夫链预测法、贝叶斯预测法、灰关联分析及神经网络预测法等，因其各具优缺点和适用条件，因而要求相关人员必须对系列问题进行深入探究，确保公路交通事故预测的有效性。

参考文献

[1]李景文，高桂清.交通事故预测分析[J].中国安全科学学报，2015，6（01）：20-23.

[2]刘志强.道路交通事故预测方法比较研究[J].交通与计算机，2013，19（05）：7-10.

[3]韦丽琴，徐勇勇.ARIMA模型在交通事故预测中的应用[J].包头医学院学报，2014，4（20）：287-288.

数据分析方法精品(七篇)

篇(1)

篇(2)

篇(3)

篇(4)

篇(5)

篇(6)

篇(7)

数据

大数据

大数据时代

数据法学