1、集中趋势的测度(反应个数据向某中心值靠拢或聚集的程度)
集中趋势表现为:均值、中位数、众数
①均值也叫平均数,主要适用于数值型数据,但不适用于分类和顺序数据,均值容易受到极端值影响;
②中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。中位数的优点是不受极端值的影响,抗干扰性强,尤其适用于收入这类偏斜分布的数值型数据;
③众数适用于描述分类数据和顺序数据的集中趋势。而在定量数据中,可能出现多众数和无众数的情况,因此众数不适用于描述定量数据的集中位置。
均值适用于定量变量,易受到极端值影响,能够充分利用数据的全部信息;
中位数适用于定量变量和顺序变量,不受极端值影响,没有充分利用数据的全部信息;
众数适用于顺序变量和分类变量,不受极端值影响,没有充分利用数据的全部信息。
2、离散程度的测度(反应数据之间的差异程度)
数据的离散程度越大,集中趋势的测度值对该数据的代表性就越差;
数据的离散程度越小,集中趋势的测度值对该数据的代表性就越好。
离散程度可以用方差、标准差、离散系数来表示。
① 方差:数据组中各数值与其均值离差平方的平均数,方差能较好地反映出数据的离散程度,应用最广。方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。
② 标准差:即方差的平方根。
标准差与方差只适用于数值型数据,与均值一样,对极端值很敏感,受到极端值的影响。
③ 离散系数:也称变异系数/标准差系数,即标准差与均值的比值,主要用于不同类别数据离散程度的比较。离散系数消除了测度单位和观测值水平不同的影响,因此可以直接用来比较变量的离散程度。
3、分布形态的测度/分布偏态(反应数据分布的不对称性)
①偏态系数(偏态系数的绝对值越大,说明数据分布的偏斜程度越大)
偏度是指数据分布的偏斜方向和程度,描述的是数据分布的对称程度。
如果偏态系数等于0,说明数据的分布是对称的;
如果偏态系数为正值,说明数据的分布为右偏(0-0.5轻度右偏,0.5-1中度右偏,大于1严重右偏);
如果偏态系数为负值,说明数据的分布为左偏(0–0.5轻度左偏,-0.5–1中度左偏,小于-1严重左偏)
②标准分数(标准分数可以给出数值距离均值的相对位置)
在统计上,均值和标准差不同时,不同变量的数值是不能比较的。
在实际应用中,当数据服从对称的钟型分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。经验法则表明:
——约有68%的数据与平均数的距离在1个标准差之内,标准分数在【-1.1】范围内;
——约有95%的数据与平均数的距离在2个标准差之内,标准分数在【-2.2】范围内;
——约有99%的数据与平均数的距离在3个标准差之内,标准分数在【-3.3】范围内。
4、变量间的相关分析
①相关的程度
——完全相关:当一个变量的取值变化完全由另一个变量的取值变化所确定时称这两个变量间的关系为完全相关。如:在价格不变的条件下,某种商品的销售总量由其销售量决定。
——不完全相关:当两个变量之间的关系介于完全相关和不相关之间,成为不完全相关,一般相关现象都是指这种不完全相关。
——不相关:两种变量的取值变化彼此互不影响。如:股票价格的高低与气温的高低不相关。
②相关的方向
——正相关:当一个变量的取值由小变大,另一个变量的取值也相应的由小变大。如:工人的工资随着劳动生产率的提高而增加。
——负相关:当一个变量的取值由小变大,而另一个变量的取值相反地由大变小。如:商品的销售量随着单价的升高而降低。
③相关的形式
——线性相关:两个相关变量之间的关系大致呈现为线性关系。
——非线性相关:两个相关变量之间,并不表现为直线的关系,而是近似于某种曲线方程的关系。
注意:相关关系并不等同于因果关系。
④相关系数
相关系数是度量两个变量间相关关系的统计量。
最常用的相关系数是Pearson相关系数,它度量的是两个变量间的线性相关关系。按实际数据计算出的r,其取值范围一般为-1到1。
0<r≤1,正线性相关
-1≤r<0,负线性相关
r=1,完全正线性相关
r=-1,完全负线性相关
r=0,不存在线性相关关系,但并不能说明两变量之间没有任何关系,它们之间可能存在非线性相关关系。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2022年中级经济师考试倒计时:50天
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com