数据的统计分析

新乡学院数学与信息科学系

实验报告

实验项目名称 所属课程名称 实 验 类 型 实 验 日 期 数据的统计分析 数学实验 综合性实验 2013-5-20

班 学 姓 成

级 号 名 绩

一、实验概述:

【实验目的】 本实验利用 matlab 来清晰直观的画出概率密度函数曲线, 通过画图来对这些概率密度函数曲线 来有个直观的认识,对数据分布的形态猜测,对某些概率分布的密度函数的估计以及简单的正态 假设检验,来找到生活中的数据的一些规律。

【实验原理】 1. 概率密度函数 pdf 系列.以 normpdf( )为例,调用格式: y=normpdf(x, mu,sigma), 计算参数为 mu 和 sigma 的样本数据 x 的正态概率密度函数. 参数 sigma 必须为正. 其 中:mu 为均值,sigma 为标准差. 2. 参数估计 fit 系列.以 normfit( )为例,调用格式: [muhat, sigmahat, muci, sigmaci] = normfit(x, alpha), 对样本数据 x 进行参数估计,并计算置信度为 100(1-alpha)%的置信区间.如 alpha=0.01 时, 则给出置信度为 99%的置信区间. 不写明 alpha, 即表示 alpha 取 0.05. 3.load( )函数.调用格式: S = load('数据文件') 将纯数据文件(文本文件)中的数据导入 Matlab,S 是双精度的数组,其行数、 列数与数据文件相一致. 4. ttest(x,m,alpha) 函数: 假设检验函数. 此函数对样本数据 x 进行显著性水平为 alpha 的 t 假设检验,以检验正态分布样本 x(标准差未知)的均值是否为 m.h=1 表示拒绝 零假设,h=0 表示不能拒绝零假设. 【实验环境】 Matlab 7.1.0 Microsoft Windows 7

二、实验内容: 【实验方案】

1. 写出书中未介绍的 10 种概率分布的密度函数(Beta 分布,Gamma 分布,超几何分布,对数 正态分布、、,写出它们的密度函数表达式,并画出相应的图形。 、) 8. 用该函数求解如下问题:某种电子元件的寿命 X(以小时计)服从正态分布,  ,  均未知, 现测得 16 只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问当取 alpha=0.5 时, (1)是否有理由认为元件的平均寿命不大于 225 小时?(2)是否有理由

1

认为元件的平均寿命不大于 295 小时? 9. 查看函数 ttest2()的用法,并用于处理 Matlab 统计工具中的数据文件 gas.mat.回答问题:一月 份油价 price1 与二月份油价 price2 的均值是否相同?

【实验过程】 (实验步骤、记录、数据、分析)

1. (1) :Beta 函数的分布 密度函数如下:

x=-5:0.2:5; y=betapdf(x,0,1); y1=betapdf(x,1,2); y2=betapdf(x,3,2); y3=betapdf(x,0.5,2); y4=betapdf(x,2,0.5); plot(x,y,'.',x,y1,'-',x,y2,':',x,y3,'--',x,y4,'+')

2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 -5 data1 data2 data3 data4 data5

-4

-3

-2

-1

0

1

2

3

4

5

(2) Gamma 函数的分布

2

密度函数如

下:

x=-1:0.5:10; y=gampdf(x,0.5,2); y1=gampdf(x,1,2); y2=gampdf(x,1.5,2); y3=gampdf(x,2,2); y4=gampdf(x,3,2); plot(x,y,'.',x,y1,'-',x,y2,':',x,y3,'--',x,y4,'+')

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -2 data1 data2 data3 data4 data5

0

2

4

6

8

10

(3) 超几何分布

x=0:8; y= hygepdf(x,100,20,10); plot(x,y);

3

0.35 data1 0.3

0.25

0.2

0.15

0.1

0.05

0

0

1

2

3

4

5

6

7

8

(4) 对数正态分布

密度函数如下

x = (10:100:10000); y = lognpdf(x,log(20000),1.0); plot(x,y);

4

3.5

x 10

-5

3

2.5

2

1.5

1

0.5

0

0

1000

2000

3000

4000

5000

6000

7000

8000

9000 10000

(5) 负二项分布

x=0:40; y=nbinpdf(x,10,0.6); plot(x,y)

5

0.14 data1 0.12

0.1

0.08

0.06

0.04

0.02

0

0

5

10

15

20

25

30

35

40

(6) :F 分布

密度函数如下

;

x = (0.01:0.1:10.01); y= ncfpdf(x,5,20,10); plot(x,y);

6

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0

0

2

4

6

8

10

12

(7) 非负中心 t 分布

密度函数如下

( n 1 ) n 1 2 x^2  2 2 (1  ) n n n

p(x)=

  x  

x = (0:0.1:10); y= nctpdf(x,4,2); plot(x,y);

7

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0

0

1

2

3

4

5

6

7

8

9

10

(8) 非负中心卡方分布 密度函数如下 p(x)=

x

n2 exp 2

n x 2

n 2 2 ( ) 2

x>2

x=0:0.01:20; y=ncx2pdf(x,6,5); plot(x,y);

8

0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0

0

2

4

6

8

10

12

14

16

18

20

(9) 瑞利分布

其密度函数如下 p(x)=

x 2b ^ 2 ,  

 x^2

x=0:0.01:20; y=raylpdf(x,6); plot(x,y);

9

0.12

0.1

0.08

0.06

0.04

0.02

0

0

2

4

6

8

10

12

14

16

18

20

(10) Weibull 分布 密度函数如下 P(x)= x1 e x  ,x>=0

x=0:0.01:5; y=weibpdf(x,1,6); plot(x,y);

10

2.5

2

1.5

1

0.5

0

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

8. 用该函数求解如下问题:某种电子元件的寿命 X(以小时计)服从正态分布,  ,  均未知,

现测得 16 只元件的寿命如下: 160 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170

问当取 alpha=0.5 时, (1)是否有理由认为元件的平均寿命不大于 225 小时?(2)是否有理由 认为元件的平均寿命不大于 295 小时?

解:

(1) 、认为元件的平均寿命不大于 225 小时是合理的。 x=[159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170] h=ttest(x,225,0.05,1) x= Columns 1 through 12 159 280 101 212 224 379 179 264 222 362 Columns 13 through 16 149 260 485 170 h=0 (2) 、认为元件的平均寿命不大于 295 小时是合理的。 x=[159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170] h=ttest(x,295,0.05,1) x= Columns 1 through 12 159 280 101 212 224 379 179 264 222 362 Columns 13 through 16 149 260 485 170

168

250

168

250

11

h=0 9. 查看函数 ttest2()的用法,并用于处理 Matlab 统计工具中的数据文件 gas.mat.回答问题:一 月份油价 price1 与二月份油价

price2 的均值是否相同? 解: load gas prices = [price1 price2]; [h,pvalue,ci] = ztest(price1/100,1.15,0.04) [h,pvalue,ci] = ttest(price2/100,1.15) [h,sig,ci] = ttest2(price1,price2) h=0 pvalue = 0.8668 ci = 1.1340 1.1690 h=1 pvalue = 4.9517e-004 ci =1.1675 1.2025 h=1 sig = 0.0083 ci =-5.7845 -0.9155 最后输出 h=1,所以一月份油价 price1 与二月份油价 price2 的均值不相同。

【实验小结】 (收获体会)

掌握用 matlab 求分布(如 Beta 分布, Gamma 分布,负二项分布,对数正态分布等分布 )的 方法,并求出它们的密度函数和画出它们的图形。通过对概率密度曲线的绘制,使我们更加直观 的认识到数据的统计分析的重要性,很好的掌握 ttest 函数的用法和均值的问题。 利用函数来快速找到数据之间的规律,来做些正态假设检验,方便简单。

12

新乡学院数学与信息科学系

实验报告

实验项目名称 所属课程名称 实 验 类 型 实 验 日 期 数据的统计分析 数学实验 综合性实验 2013-5-20

班 学 姓 成

级 号 名 绩

一、实验概述:

【实验目的】 本实验利用 matlab 来清晰直观的画出概率密度函数曲线, 通过画图来对这些概率密度函数曲线 来有个直观的认识,对数据分布的形态猜测,对某些概率分布的密度函数的估计以及简单的正态 假设检验,来找到生活中的数据的一些规律。

【实验原理】 1. 概率密度函数 pdf 系列.以 normpdf( )为例,调用格式: y=normpdf(x, mu,sigma), 计算参数为 mu 和 sigma 的样本数据 x 的正态概率密度函数. 参数 sigma 必须为正. 其 中:mu 为均值,sigma 为标准差. 2. 参数估计 fit 系列.以 normfit( )为例,调用格式: [muhat, sigmahat, muci, sigmaci] = normfit(x, alpha), 对样本数据 x 进行参数估计,并计算置信度为 100(1-alpha)%的置信区间.如 alpha=0.01 时, 则给出置信度为 99%的置信区间. 不写明 alpha, 即表示 alpha 取 0.05. 3.load( )函数.调用格式: S = load('数据文件') 将纯数据文件(文本文件)中的数据导入 Matlab,S 是双精度的数组,其行数、 列数与数据文件相一致. 4. ttest(x,m,alpha) 函数: 假设检验函数. 此函数对样本数据 x 进行显著性水平为 alpha 的 t 假设检验,以检验正态分布样本 x(标准差未知)的均值是否为 m.h=1 表示拒绝 零假设,h=0 表示不能拒绝零假设. 【实验环境】 Matlab 7.1.0 Microsoft Windows 7

二、实验内容: 【实验方案】

1. 写出书中未介绍的 10 种概率分布的密度函数(Beta 分布,Gamma 分布,超几何分布,对数 正态分布、、,写出它们的密度函数表达式,并画出相应的图形。 、) 8. 用该函数求解如下问题:某种电子元件的寿命 X(以小时计)服从正态分布,  ,  均未知, 现测得 16 只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问当取 alpha=0.5 时, (1)是否有理由认为元件的平均寿命不大于 225 小时?(2)是否有理由

1

认为元件的平均寿命不大于 295 小时? 9. 查看函数 ttest2()的用法,并用于处理 Matlab 统计工具中的数据文件 gas.mat.回答问题:一月 份油价 price1 与二月份油价 price2 的均值是否相同?

【实验过程】 (实验步骤、记录、数据、分析)

1. (1) :Beta 函数的分布 密度函数如下:

x=-5:0.2:5; y=betapdf(x,0,1); y1=betapdf(x,1,2); y2=betapdf(x,3,2); y3=betapdf(x,0.5,2); y4=betapdf(x,2,0.5); plot(x,y,'.',x,y1,'-',x,y2,':',x,y3,'--',x,y4,'+')

2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 -5 data1 data2 data3 data4 data5

-4

-3

-2

-1

0

1

2

3

4

5

(2) Gamma 函数的分布

2

密度函数如

下:

x=-1:0.5:10; y=gampdf(x,0.5,2); y1=gampdf(x,1,2); y2=gampdf(x,1.5,2); y3=gampdf(x,2,2); y4=gampdf(x,3,2); plot(x,y,'.',x,y1,'-',x,y2,':',x,y3,'--',x,y4,'+')

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -2 data1 data2 data3 data4 data5

0

2

4

6

8

10

(3) 超几何分布

x=0:8; y= hygepdf(x,100,20,10); plot(x,y);

3

0.35 data1 0.3

0.25

0.2

0.15

0.1

0.05

0

0

1

2

3

4

5

6

7

8

(4) 对数正态分布

密度函数如下

x = (10:100:10000); y = lognpdf(x,log(20000),1.0); plot(x,y);

4

3.5

x 10

-5

3

2.5

2

1.5

1

0.5

0

0

1000

2000

3000

4000

5000

6000

7000

8000

9000 10000

(5) 负二项分布

x=0:40; y=nbinpdf(x,10,0.6); plot(x,y)

5

0.14 data1 0.12

0.1

0.08

0.06

0.04

0.02

0

0

5

10

15

20

25

30

35

40

(6) :F 分布

密度函数如下

;

x = (0.01:0.1:10.01); y= ncfpdf(x,5,20,10); plot(x,y);

6

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0

0

2

4

6

8

10

12

(7) 非负中心 t 分布

密度函数如下

( n 1 ) n 1 2 x^2  2 2 (1  ) n n n

p(x)=

  x  

x = (0:0.1:10); y= nctpdf(x,4,2); plot(x,y);

7

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0

0

1

2

3

4

5

6

7

8

9

10

(8) 非负中心卡方分布 密度函数如下 p(x)=

x

n2 exp 2

n x 2

n 2 2 ( ) 2

x>2

x=0:0.01:20; y=ncx2pdf(x,6,5); plot(x,y);

8

0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0

0

2

4

6

8

10

12

14

16

18

20

(9) 瑞利分布

其密度函数如下 p(x)=

x 2b ^ 2 ,  

 x^2

x=0:0.01:20; y=raylpdf(x,6); plot(x,y);

9

0.12

0.1

0.08

0.06

0.04

0.02

0

0

2

4

6

8

10

12

14

16

18

20

(10) Weibull 分布 密度函数如下 P(x)= x1 e x  ,x>=0

x=0:0.01:5; y=weibpdf(x,1,6); plot(x,y);

10

2.5

2

1.5

1

0.5

0

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

8. 用该函数求解如下问题:某种电子元件的寿命 X(以小时计)服从正态分布,  ,  均未知,

现测得 16 只元件的寿命如下: 160 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170

问当取 alpha=0.5 时, (1)是否有理由认为元件的平均寿命不大于 225 小时?(2)是否有理由 认为元件的平均寿命不大于 295 小时?

解:

(1) 、认为元件的平均寿命不大于 225 小时是合理的。 x=[159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170] h=ttest(x,225,0.05,1) x= Columns 1 through 12 159 280 101 212 224 379 179 264 222 362 Columns 13 through 16 149 260 485 170 h=0 (2) 、认为元件的平均寿命不大于 295 小时是合理的。 x=[159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170] h=ttest(x,295,0.05,1) x= Columns 1 through 12 159 280 101 212 224 379 179 264 222 362 Columns 13 through 16 149 260 485 170

168

250

168

250

11

h=0 9. 查看函数 ttest2()的用法,并用于处理 Matlab 统计工具中的数据文件 gas.mat.回答问题:一 月份油价 price1 与二月份油价

price2 的均值是否相同? 解: load gas prices = [price1 price2]; [h,pvalue,ci] = ztest(price1/100,1.15,0.04) [h,pvalue,ci] = ttest(price2/100,1.15) [h,sig,ci] = ttest2(price1,price2) h=0 pvalue = 0.8668 ci = 1.1340 1.1690 h=1 pvalue = 4.9517e-004 ci =1.1675 1.2025 h=1 sig = 0.0083 ci =-5.7845 -0.9155 最后输出 h=1,所以一月份油价 price1 与二月份油价 price2 的均值不相同。

【实验小结】 (收获体会)

掌握用 matlab 求分布(如 Beta 分布, Gamma 分布,负二项分布,对数正态分布等分布 )的 方法,并求出它们的密度函数和画出它们的图形。通过对概率密度曲线的绘制,使我们更加直观 的认识到数据的统计分析的重要性,很好的掌握 ttest 函数的用法和均值的问题。 利用函数来快速找到数据之间的规律,来做些正态假设检验,方便简单。

12


相关文章

  • 中国大数据金融行业市场研究报告
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性 ...查看


  • 关于统计数据资源建设
  • 胡 帆:关于统计数据资源建设 "2010国际电子政务理论与实践交流会暨第五届中国电子政务论坛"电子政务专刊稿件,转载请注明. 一.统计信息化的历程 1.短暂的主机时期 1978-1984年期间,国家信息中心前身-国家计委 ...查看


  • 大数据时代的统计学
  • 大数据时代的统计学 摘要:本文主要围绕"大数据"展开话题,结合"统计学"专业,论述了什么是大数据,什么是统计学,在对概念的了解基础上掌握大数据的发展历程以及统计学的发展历程.从中找出大数据与统计学的联 ...查看


  • 大数据行业分析报告
  • 大数据行业分析报告 (2014) 江苏振邦智慧城市信息系统有限公司 2014年4月25日 目录 一.大数据概述................................................................. ...查看


  • 中国数据银行市场调查报告目录
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性 ...查看


  • 大数据与统计学分析方法比较
  • 摘要: 基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想.量化形式.数据来源.分析范式.分析方法.分析视角等角度揭示了两种社会科学分析方法存在的联系与差异. 关键词: 大数据: ...查看


  • 解构小白入手数据分析的思维模式
  • 解构小白入手数据分析的思维模式 数据分析(Data Analysis) --这个词真的是如雷贯耳,装B 一绝啊! 甭管什么玩意,上来先整一通再说."数据分析"甚是被提上了神坛,找工作或者聊点行业内的动态不提点数据简直是没 ...查看


  • 大数据与数据分析行业简介
  • 彰显数据价值 助推企业发展 项目数据分析师四川管理中心 目 录 1.大数据与数据分析概述 2.数据分析的应用前景和发展趋势 3.数据分析在企业部门的应用 4.数据分析的建立和准备 5.数据分析专业人才培养 1 大数据时代已经来临 信息技术. ...查看


  • 电视用户数据分析
  • 电视用户数据分析 文档修改记录 目录 1 总体描述 . ............................................................................................ ...查看


  • 基于HADOOP的大数据描述统计分析
  • 作者:宋廷山郭思亮韩伟 统计与信息论坛 2016年01期 一.研究背景 据IBM估算,全世界每天大约产生250兆字节的数据,而且世界上大约90%的数据是在近两年的时间里产生的[1].这些数据的来源也相当广泛:如各种互联网企业,像SNS.微博 ...查看


热门内容