授 課 目 錄
第一章 品質管理概說
第二章 統計學概論
第三章 機率概論及機率分配
第四章 統計製程管制與管制圖
第五章 計量值管制圖
第六章 計數值管制圖
第七章 製程能力分析
第八章 允收抽樣的基本方法
第九章 計數值抽樣計畫
第十章 計量值抽樣計畫
第十一章 量具之再現度與再生度
第十二章 品質管理之新七大手法
1. 導論
統計學是一探討如何搜集資料與分析資料的科學研究方法。在不確定的狀態下,藉由樣本資料所提供的訊息,經歸納分析、推論檢定、決策與預測等過程。『以事實(數字)作決策』。
2.1 認識統計
◎ 自古以來,人類從事各項研究活動均是為求真理,亦
是社會文明進步的原動力。然而通往真理的路上充滿混沌與挫折,如何釐清真相,統計學自然就成為一門極重要的科學研究工具。
◎ 統計學是由搜集資料、整理資料、分析資料及解釋意義等規則與程序所組成。
◎ 統計學研究過程:
推論= 估計 + 假設檢定
Inferential Statistics = Estimation + Testing Hypothesis
2.2 統計精神就是科學研究的精神
◎ 著名統計學家費雪(R. A. Fisher, 1890-1962)曰:統計方
法的目的是基於經驗觀察,去改進我們對系統的了解---即統計的基本精神。
◎ 架構一系列有組織有系統且可分析的研究過程,以獲
得客觀可靠的結論---即科學研究的精神。
系 統 理 論---線 性 系 統
“Ref: , by Peter S. Pande, Robert P. Neuman, & Roland R. Cavanagh, McGraw-Hill.”
『系統三要素---輸入、過程、輸出』
常用的幾個統計學術語
※ 母體:該次研究中所有欲探討之事務之全體對象。 ※ 參數:用來描述母體的特徵之數值,或稱母數。
※ 樣本:由母體中隨機抽取部分群體之集合。
※ 統計量:用來描述此樣本的特徵之數值。
母體(Population)、參數(Parameter)、樣本(Sample)、統計量(Statistics)
欲瞭解致遠工管系學生每週平均看書時間,經隨機抽樣30位該系學生,計算結果:
◎ 該系學生每週平均看書時間為21hrs----點估計。
◎ 該系學生每週平均看書時間為21-25 hrs----區間估
計,且有95%的信心,相信母體平均值為落於該區間內,即該系學生每週平均看書時間為21-25 hrs。
--------此稱之為點估計與區間估計-------
倘該系系學會宣稱,『本系學生每週平均看書時間為23 hrs』,懷疑者進行隨機抽樣,欲以實際的資料驗證與駁斥此宣稱,然資料顯示懷疑者是不能駁斥此宣稱,因為,
◎ 該系學生每週平均看書時間為23 hrs的確在95%信賴
區間21-25 hrs之內。
倘該系系學會宣稱,『本系學生每週平均看書時間為30 hrs』,懷疑者進行隨機抽樣,欲以實際的資料驗證與駁斥此宣稱,然資料顯示懷疑者能駁斥此宣稱,因為,
◎ 該系學生每週平均看書時間為30 hrs不在95%信賴區
間21-25 hrs之內。
---------此過程稱之為假設檢定----------
2.3 統計在現代社會所扮演的角色
『以事實(數字)作決策』
◎ 政治經濟---民調、得票率預測、失業率預測、各項經
濟指標
◎ 商業方面---市場佔有率、利率、匯率
◎ 企管方面---物管、人管、財管、品管
◎ 工程方面---品質、可靠度、交通流量
◎ 農業方面---品種改良、生產量、成功率與存活率 ◎ 醫藥方面---流行病的感染模式、成功率與存活率 ◎ 教育方面---教學評鑑、犯罪率
◎ 觀光方面---旅遊景點的受歡迎程度、週休二的影響
2.4 統計學的發展
◎ 源於1世紀,領導者或君主為瞭解國家(State)的人口、
經濟、生產、稅賦、天文與氣候等。
◎ 直到18世紀左右,主要偏向資料與圖形顯示的範圍,
即所謂敘述統計學(Descriptive Statistics)---將資料予以分析後,用數據、模式或圖表陳示出來。
◎ 19世紀末和20世紀初,演變包括資料的解釋、資料分
析歸納、更精確的估計與檢定結果、與模式建構等,即所謂推論統計學(Inferential Statistics)或分析統計學(Analytic Statistics)---由隨機描樣,經樣本統計量去推論母體參數,或檢定母體參數。對動態資料則有趨勢分析、建構模式與預測的功能。
現代統計學大師
1、 Karl Pearson, (1875-1936)---介紹簡單的統計量,如眾數、標準差及相關係數,尤其迴歸分析觀念和卡方檢定都為其貢獻。
2、 R. A. Fisher, (1890-1962)---提出小樣本統計方法,並3、
4、
數學、社會科學與統計學之關係
建立一致性、有效性、充分性、最大概似法等,提出實驗設計,另其對常態分配和t分配的理論與應用都有極大貢獻。 J. Neyman, (1894-1981) and Egon Pearson, (1895-)---在估計與檢定方面提供理論基礎,如提出型I、型II誤差及檢定力、信賴區間等觀念。 A. Wald, (1902-1950)---統計決策理論之始祖。
做統計工作時,須注此意數學與統計不同之處
1、 『100/300 = 1/3』,數學式100/300 = 1/3是恆等式,但
在統計卻有不同的意義。如於一母體中抽3人,其中有1人是男生,則男生所佔樣本的比例是1/3,如此可能無證據說明此母體中的男女生比例不是各佔一半;但倘於此母體中抽300人,其中有100人是男生,則男生所佔的樣本比例為1/3,如此已有證據說明此母體內男女生比例不是各佔一半。
2、 『49/100 ≠ 1/2』,在數學上此式是對的,但在統計檢
定時,倘於此母體中抽100人,其中有49人是男生,則男生所佔的樣本比例為49/100,雖然49/100 ≠ 1/2,但可能無足夠證據說明此母體內男生比例不是1/2的結論。
統計計算常用軟體
『Excel、Minitab、Matlab』、SAS、SPSS、Statistica
2.5 統計資料的整理與描述
研究自然或社會現象,首先要搜集相關的統計資料。接著對所搜集的資料進行處理描述,並製作統計圖表,以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。
藉由統計資料去了解母體的特性(參數),常用代表集中趨勢的統計量,如樣本的平均值;與代表離散的統計量,如樣本的變異數或標準差。此即敘述統計量。
(Measures of Central Tendency---Location)
(Measures of Dispersion---Scale)
2.5.1 統計資料的搜集
一般資料依性質可分為:連續型資料與離散型資料 1. 連續型資料(Continuous Data):如量測身高、體重、容量、重量、長度等資料,它是一種計量尺度(Metric Sacle),而且理論上可以量到小數點以下幾位的數據。 2. 離散型資料(Discrete Data):它是一種計數尺度,又細分三型---類別尺度、順序尺度、比率尺度。
(1) 類別尺度(Nominal Scale)---依資料性質分類並給予
特別數值或代號。如女性= 0、男性= 1;合格= ○、不合格=
×;紅色= 1、黃色= 2、藍色= 3。此類別表
示之數值或記號只區分類別,沒有大小、順序或比率關係。其僅能計算某類別代號出現的次數或頻率,其計算平均數則無意義。
(2) 順序尺度(Ordinal Scale)--- 依資料的重要性、強弱、
好壞程度區分,給予大小不等的數值。如小學= 1、中學= 2、大學= 3、研究所= 4;很便宜= 1、便宜= 2、一般= 3、貴= 4、很貴= 5。此類別雖在等第上有好壞、高低之分別,但無從比較差距。
(3) 比率尺度(Ratio Scale)---以某一特定對象為基準,其
他現象相對於此一標準的比值。例如,經濟成長率、人口成長率。
2.5.2 資料處理與展示---統計圖表
人類辨識影像圖形的能力,一般優於辨識數字與文字。千言萬言的說明敘述,有時反不及圖表的效果。『字不如表,表不如圖』。製作統計圖表,即以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。
常用統計圖表
(a) 次數分配或頻率表---直方圖
(1) 確定所須組數。
(2)計算全部數據的全距(Range)。R = max-min。並求出組距C = 全距/組數 (3) 求出各組的組距與組界
(4) 確定各組的頻數 (5) 作直方圖
例題:某技術員用車床車制螺絲,要求其直徑為10mm。為
了了解該技術員的加工品質,抽查其加工的100個螺絲,分別測得其直徑數據100個。
Max. = 10.60; Min. = 9.22; Range = 1.38; k = 7 (n =100);
組距 = 1.38/7 = 0.192 ~ 0.2
為使得所有數據不會落在組界上,並保證最小值9.22落在第一組內,故取第一組的組下限等於最小值減去最小量測單位的一半(即0.01/2 = 0.005)。則
第一組的組下限 = 9.22 – 0.005 = 9.125 第一組的組上限 = 第一組的組下限+組距
= 9.215 + 0.2 = 9.415
接著,確定各組的頻數
最後作直方圖
◎ 直方圖可以種方式表示:
(1) Frequency (3) Percent
→ (2) Cumulative Frequency → (4) Cumulative Percent
[(3-1) Relative Fequency → (3-2) Cumulative Relative
Frequency]
(5) Density
(6) Cumulative Density
◎ 螺絲直徑落在直方圖的可能性大小是以其高度表示,另由數學應用方便的角度觀之,各直方的面積表示可能大小,由於各組的組距,即直方的寬度是相等的,因此用直方面積表示與用直方的高度表示是相同的。 (b) 散佈圖
係對兩組變數之間關係感興趣,組成這兩組變數的對應
圖,又稱XY散佈圖。 範例:
(c) 盒圖或盒鬚圖(Box Plot or Box and Whisker Plot) 範例:
盒圖中有極小值、極大值、Q1 ,Q2 ,Q3。
(d) 柏拉圖法(Pareto’s Diagram)
80/20法則:80%的問題是來自20%的源頭。問題區分少數重要項目(Vital Few)、多數輕微項目(Trivial Many)的分法稱之為柏拉圖原則---『重點的掌握』。
Example of Pareto Analysis
The data in Table 1 has been recorded for peach arriving
at Super Market during August.
Table 1 Raw data for Pareto Analysis
The Pareto table for the data in Table 1 is shown in Table 2.
2.6 樣本統計量(統計量)(Sample Statistic)
統計圖表可方便展示資料,但對於資料的深入分析,其精確度與廣度仍不足。為了研究母體的特性(參數),仍須用一些統計量測數,藉以了解母體的特性。常用的統計量測數為代表集中趨勢統計量、代表離散統計量與形狀統計量,來表達母體的分配情形。這些樣本統計量亦稱之樣本的特徵值。
2.6.1集中趨勢統計量
集中趨勢統計量是用來衡量所有觀測值聚集的中心位置
---(算術)平均數、中位數、四分位數、眾數、截尾平均數 (a) 算術平均數(Arithmetic Mean)
在一般未分組的原始資料中,有n個觀測值,其集合為{x1, x2, …, xn |n N},則其算術平均數
n
=(x1 + x2 + …+ xn)/n = (∑xi)/n
i=1
對於分組資料,假定資料共有n個觀測值分為m組,令xi為第i組觀測值之組中點,fi為該組觀測值相對應的次數,∑fi = n。則其算術平均數為
=(x1f1+x2f2+…+xmfm)/n = (∑xi fi)/n
i=1m
(b) 中位數(Median)
中位數又稱為二分位數,是一種由小至大順序數列的中心項。將某筆資料n個觀測值由小而大順序排列,則其中間位數的觀測值即為中位數。若n為奇數,則第(n+1)/2位數的觀測值為中位數。若n為偶數,中位數即為第n/2位數與第(n/2)+1位數觀測值的算術平均數。
(c) 四分位數(Quartile)
將觀測值由小至大順序數列按位數分為四等分,Q1 , Q2 , Q3為其位數等分點之觀測值。第0個四分位(Q0)即是最小值,第1個四分位(Q1)是第25%的值,第2個四分位(Q2)是第50%的值(即中位數),第3個四分位(Q3)是第75%的值,第4個四分位(Q4)即是最大值。
(d) 眾數(Mode)
眾數是指統計資料中出現之次數最頻繁的觀測值。
(e) 截尾平均數(Trimmed Mean)---奧運體操評分標準
係考慮算術平均數容易受兩端特別遠離中心位置觀測值的影響,有時不能確切描述觀測值集中趨勢。即截頭去尾的方法,將Q1以下與Q3之上的觀測值排除,再計算Q1與Q3之間的觀測值的算術平均數。
2.6.2離散趨勢統計量
離散趨勢統計量是用來測量所有觀測值偏離中心的程度
---全距、四分位間距、平均絕對偏差、變異數與標準差、變異係數等
(a) 全距(Range)
Range = Max. –Min.
(b) 四分位間距(IQR, Inter-Quartile Range)
四分位間距= Q3-Q1
(c) 平均絕對偏差(MAD, Mean Absolute Deviation)
MAD =∑| xi-|/n
i=1n
(d) 變異數與標準差(Variance and Standard Deviation)
若有N個母體觀測值{x1, x2, …, xN},且母體平均值為μ,
則母體變異數為
σ=[∑(xi-μ)]/N,
i=1
2
N
2
([∑(xi-μ)2]:Sum Square)
i=1
N
對於樣本資料{ x1, x2, …, xn},則樣本變異數為
S=[∑(xi-)]/(n-1), ([∑(xi-)2]:Sum Square)
i=1
i=1
2
n
2
n
樣本變異數S2使用(n-1)當分母的原因是,分子中(xi-)
的自由度(DOF, Degree of Freedom)為(n-1)的關係。即n個項目(x1-),…,(xn-)中,只要知道其中的(n-1)項,則剩下的最後一項就固定了,因為∑(xi-)= 0。
變異數是取觀測值與母體平均數差之平方和,所以變異
數的單位與原觀測值所用的單位不同。為取一致可將變異數的開平方根,則σ 稱之母體標準差,作為對應之離散量。另
樣本標準差則相對為S。
對於分組資料,假設資料分為m組共有n個觀測值,令xi為第i組觀測值之組中點,fi為該組觀測值相對應的次數, ∑fi = n。則樣本變異數為
S=[∑(xi-)2 fi]/(n-1)
i=1
2
m
(e) 變異數係數(CV, Coefficient of Variance )
CV =(標準差/平均值)
2.6.3 形狀統計量
形狀統計量係用量測一組資料對稱與否,與分佈形狀峰
度之高低---分別為偏態係數與峰態係數。 (a) 偏態係數(Skewness)
偏態係數(SK)是對資料分配偏往某一方的趨勢(Tendency)。SK的值必介於 –3與3之間。其定義:
SK = 3(-Median)/S
上圖SK > 0 (右偏或正偏);Mean > Median >Mode
上圖SK
峰態係數(K)是對資料分配峰度(Peakedness)的程度。其定義:
K = {∑(xi
-)4/[∑(xi-)2]2}-3
平 時 考 題
1、裝配零件之生產線,用塞規決定孔徑是否合格,為(文字/屬性/屬量)資料。 2、一群員工對生產線問題提出討論之集體思考其要因,為(文字/屬性/屬量)資料。 3、下列何者為計量值資料(1)密度(2)布匹之缺點數(3)某批產品中有2個不合格品
(4)教室內共有20個學生。 4、
間斷資料 連續資料
(1)、電鍍液的鎳濃度(%) ( ) ( ) (2)、鐵線的強度 ( ) ( ) (3)、請假人數 ( ) ( ) (4)、機器故障次數 ( ) ( ) (5)、膠布的污點數 ( ) ( ) (6)、MIL–STD–105抽樣表 ( ) ( ) (7)、某工廠每期意外事件 ( ) ( )
(8)、鋼球直徑 ( ) ( ) (9)、回收率 ( ) ( )
5、致遠管理學院舉行全校統計學檢定考試,其中工管系成績的次數分配如下表,
試求該系統計學檢定考試之算術平均數。
6、某技術員用車床車制螺絲,要求其直徑為10mm。為了了解該技術員的加工
品質,抽查其加工的100個螺絲,分別測得其直徑數據100個。
試求該100個螺絲之算術平均數、中位數等、四分位數、眾數、截尾平均數、全距、四分位間距、變異數與標準差等。
7、不合格品A類10件,B類3件,C類6件,D類2件,E類4件,繪製柏拉
圖,則於柏拉圖內第三要項之累積不良比率( )。
8、不良品A類10件,B類3件,C類6件,D類2件,E類4件,B類在百分
比圖中之%為( )。
9、同上,扇形圖A類之圖心角度( )。
10、次數分配表之組中點為3.5,5.5,7.5,9.5,11.5試求組距( )。 11、直方圖向規格上下限伸展時,表示(1)變異過大(2)平均數過小(3)平均數過大
(4)變異過小(5)平均數過小,變異也變小。 12、 一組數字 1,4,7,9,Y 其R值=10求Y。 13、 23,21,22,20,X 平均值=23求X。 14、 1,3,5,7,9 求樣本變異數及樣本標準差。
15、 1cm,3cm,5cm,7cm,9cm 求樣本變異數及樣本標準差(含單位值) 16、已知抽樣n=5
17、連續4年員工薪水年增率 7%,8%,9%,10%,四年內平均增加率。(幾
何平均)
授 課 目 錄
第一章 品質管理概說
第二章 統計學概論
第三章 機率概論及機率分配
第四章 統計製程管制與管制圖
第五章 計量值管制圖
第六章 計數值管制圖
第七章 製程能力分析
第八章 允收抽樣的基本方法
第九章 計數值抽樣計畫
第十章 計量值抽樣計畫
第十一章 量具之再現度與再生度
第十二章 品質管理之新七大手法
1. 導論
統計學是一探討如何搜集資料與分析資料的科學研究方法。在不確定的狀態下,藉由樣本資料所提供的訊息,經歸納分析、推論檢定、決策與預測等過程。『以事實(數字)作決策』。
2.1 認識統計
◎ 自古以來,人類從事各項研究活動均是為求真理,亦
是社會文明進步的原動力。然而通往真理的路上充滿混沌與挫折,如何釐清真相,統計學自然就成為一門極重要的科學研究工具。
◎ 統計學是由搜集資料、整理資料、分析資料及解釋意義等規則與程序所組成。
◎ 統計學研究過程:
推論= 估計 + 假設檢定
Inferential Statistics = Estimation + Testing Hypothesis
2.2 統計精神就是科學研究的精神
◎ 著名統計學家費雪(R. A. Fisher, 1890-1962)曰:統計方
法的目的是基於經驗觀察,去改進我們對系統的了解---即統計的基本精神。
◎ 架構一系列有組織有系統且可分析的研究過程,以獲
得客觀可靠的結論---即科學研究的精神。
系 統 理 論---線 性 系 統
“Ref: , by Peter S. Pande, Robert P. Neuman, & Roland R. Cavanagh, McGraw-Hill.”
『系統三要素---輸入、過程、輸出』
常用的幾個統計學術語
※ 母體:該次研究中所有欲探討之事務之全體對象。 ※ 參數:用來描述母體的特徵之數值,或稱母數。
※ 樣本:由母體中隨機抽取部分群體之集合。
※ 統計量:用來描述此樣本的特徵之數值。
母體(Population)、參數(Parameter)、樣本(Sample)、統計量(Statistics)
欲瞭解致遠工管系學生每週平均看書時間,經隨機抽樣30位該系學生,計算結果:
◎ 該系學生每週平均看書時間為21hrs----點估計。
◎ 該系學生每週平均看書時間為21-25 hrs----區間估
計,且有95%的信心,相信母體平均值為落於該區間內,即該系學生每週平均看書時間為21-25 hrs。
--------此稱之為點估計與區間估計-------
倘該系系學會宣稱,『本系學生每週平均看書時間為23 hrs』,懷疑者進行隨機抽樣,欲以實際的資料驗證與駁斥此宣稱,然資料顯示懷疑者是不能駁斥此宣稱,因為,
◎ 該系學生每週平均看書時間為23 hrs的確在95%信賴
區間21-25 hrs之內。
倘該系系學會宣稱,『本系學生每週平均看書時間為30 hrs』,懷疑者進行隨機抽樣,欲以實際的資料驗證與駁斥此宣稱,然資料顯示懷疑者能駁斥此宣稱,因為,
◎ 該系學生每週平均看書時間為30 hrs不在95%信賴區
間21-25 hrs之內。
---------此過程稱之為假設檢定----------
2.3 統計在現代社會所扮演的角色
『以事實(數字)作決策』
◎ 政治經濟---民調、得票率預測、失業率預測、各項經
濟指標
◎ 商業方面---市場佔有率、利率、匯率
◎ 企管方面---物管、人管、財管、品管
◎ 工程方面---品質、可靠度、交通流量
◎ 農業方面---品種改良、生產量、成功率與存活率 ◎ 醫藥方面---流行病的感染模式、成功率與存活率 ◎ 教育方面---教學評鑑、犯罪率
◎ 觀光方面---旅遊景點的受歡迎程度、週休二的影響
2.4 統計學的發展
◎ 源於1世紀,領導者或君主為瞭解國家(State)的人口、
經濟、生產、稅賦、天文與氣候等。
◎ 直到18世紀左右,主要偏向資料與圖形顯示的範圍,
即所謂敘述統計學(Descriptive Statistics)---將資料予以分析後,用數據、模式或圖表陳示出來。
◎ 19世紀末和20世紀初,演變包括資料的解釋、資料分
析歸納、更精確的估計與檢定結果、與模式建構等,即所謂推論統計學(Inferential Statistics)或分析統計學(Analytic Statistics)---由隨機描樣,經樣本統計量去推論母體參數,或檢定母體參數。對動態資料則有趨勢分析、建構模式與預測的功能。
現代統計學大師
1、 Karl Pearson, (1875-1936)---介紹簡單的統計量,如眾數、標準差及相關係數,尤其迴歸分析觀念和卡方檢定都為其貢獻。
2、 R. A. Fisher, (1890-1962)---提出小樣本統計方法,並3、
4、
數學、社會科學與統計學之關係
建立一致性、有效性、充分性、最大概似法等,提出實驗設計,另其對常態分配和t分配的理論與應用都有極大貢獻。 J. Neyman, (1894-1981) and Egon Pearson, (1895-)---在估計與檢定方面提供理論基礎,如提出型I、型II誤差及檢定力、信賴區間等觀念。 A. Wald, (1902-1950)---統計決策理論之始祖。
做統計工作時,須注此意數學與統計不同之處
1、 『100/300 = 1/3』,數學式100/300 = 1/3是恆等式,但
在統計卻有不同的意義。如於一母體中抽3人,其中有1人是男生,則男生所佔樣本的比例是1/3,如此可能無證據說明此母體中的男女生比例不是各佔一半;但倘於此母體中抽300人,其中有100人是男生,則男生所佔的樣本比例為1/3,如此已有證據說明此母體內男女生比例不是各佔一半。
2、 『49/100 ≠ 1/2』,在數學上此式是對的,但在統計檢
定時,倘於此母體中抽100人,其中有49人是男生,則男生所佔的樣本比例為49/100,雖然49/100 ≠ 1/2,但可能無足夠證據說明此母體內男生比例不是1/2的結論。
統計計算常用軟體
『Excel、Minitab、Matlab』、SAS、SPSS、Statistica
2.5 統計資料的整理與描述
研究自然或社會現象,首先要搜集相關的統計資料。接著對所搜集的資料進行處理描述,並製作統計圖表,以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。
藉由統計資料去了解母體的特性(參數),常用代表集中趨勢的統計量,如樣本的平均值;與代表離散的統計量,如樣本的變異數或標準差。此即敘述統計量。
(Measures of Central Tendency---Location)
(Measures of Dispersion---Scale)
2.5.1 統計資料的搜集
一般資料依性質可分為:連續型資料與離散型資料 1. 連續型資料(Continuous Data):如量測身高、體重、容量、重量、長度等資料,它是一種計量尺度(Metric Sacle),而且理論上可以量到小數點以下幾位的數據。 2. 離散型資料(Discrete Data):它是一種計數尺度,又細分三型---類別尺度、順序尺度、比率尺度。
(1) 類別尺度(Nominal Scale)---依資料性質分類並給予
特別數值或代號。如女性= 0、男性= 1;合格= ○、不合格=
×;紅色= 1、黃色= 2、藍色= 3。此類別表
示之數值或記號只區分類別,沒有大小、順序或比率關係。其僅能計算某類別代號出現的次數或頻率,其計算平均數則無意義。
(2) 順序尺度(Ordinal Scale)--- 依資料的重要性、強弱、
好壞程度區分,給予大小不等的數值。如小學= 1、中學= 2、大學= 3、研究所= 4;很便宜= 1、便宜= 2、一般= 3、貴= 4、很貴= 5。此類別雖在等第上有好壞、高低之分別,但無從比較差距。
(3) 比率尺度(Ratio Scale)---以某一特定對象為基準,其
他現象相對於此一標準的比值。例如,經濟成長率、人口成長率。
2.5.2 資料處理與展示---統計圖表
人類辨識影像圖形的能力,一般優於辨識數字與文字。千言萬言的說明敘述,有時反不及圖表的效果。『字不如表,表不如圖』。製作統計圖表,即以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。
常用統計圖表
(a) 次數分配或頻率表---直方圖
(1) 確定所須組數。
(2)計算全部數據的全距(Range)。R = max-min。並求出組距C = 全距/組數 (3) 求出各組的組距與組界
(4) 確定各組的頻數 (5) 作直方圖
例題:某技術員用車床車制螺絲,要求其直徑為10mm。為
了了解該技術員的加工品質,抽查其加工的100個螺絲,分別測得其直徑數據100個。
Max. = 10.60; Min. = 9.22; Range = 1.38; k = 7 (n =100);
組距 = 1.38/7 = 0.192 ~ 0.2
為使得所有數據不會落在組界上,並保證最小值9.22落在第一組內,故取第一組的組下限等於最小值減去最小量測單位的一半(即0.01/2 = 0.005)。則
第一組的組下限 = 9.22 – 0.005 = 9.125 第一組的組上限 = 第一組的組下限+組距
= 9.215 + 0.2 = 9.415
接著,確定各組的頻數
最後作直方圖
◎ 直方圖可以種方式表示:
(1) Frequency (3) Percent
→ (2) Cumulative Frequency → (4) Cumulative Percent
[(3-1) Relative Fequency → (3-2) Cumulative Relative
Frequency]
(5) Density
(6) Cumulative Density
◎ 螺絲直徑落在直方圖的可能性大小是以其高度表示,另由數學應用方便的角度觀之,各直方的面積表示可能大小,由於各組的組距,即直方的寬度是相等的,因此用直方面積表示與用直方的高度表示是相同的。 (b) 散佈圖
係對兩組變數之間關係感興趣,組成這兩組變數的對應
圖,又稱XY散佈圖。 範例:
(c) 盒圖或盒鬚圖(Box Plot or Box and Whisker Plot) 範例:
盒圖中有極小值、極大值、Q1 ,Q2 ,Q3。
(d) 柏拉圖法(Pareto’s Diagram)
80/20法則:80%的問題是來自20%的源頭。問題區分少數重要項目(Vital Few)、多數輕微項目(Trivial Many)的分法稱之為柏拉圖原則---『重點的掌握』。
Example of Pareto Analysis
The data in Table 1 has been recorded for peach arriving
at Super Market during August.
Table 1 Raw data for Pareto Analysis
The Pareto table for the data in Table 1 is shown in Table 2.
2.6 樣本統計量(統計量)(Sample Statistic)
統計圖表可方便展示資料,但對於資料的深入分析,其精確度與廣度仍不足。為了研究母體的特性(參數),仍須用一些統計量測數,藉以了解母體的特性。常用的統計量測數為代表集中趨勢統計量、代表離散統計量與形狀統計量,來表達母體的分配情形。這些樣本統計量亦稱之樣本的特徵值。
2.6.1集中趨勢統計量
集中趨勢統計量是用來衡量所有觀測值聚集的中心位置
---(算術)平均數、中位數、四分位數、眾數、截尾平均數 (a) 算術平均數(Arithmetic Mean)
在一般未分組的原始資料中,有n個觀測值,其集合為{x1, x2, …, xn |n N},則其算術平均數
n
=(x1 + x2 + …+ xn)/n = (∑xi)/n
i=1
對於分組資料,假定資料共有n個觀測值分為m組,令xi為第i組觀測值之組中點,fi為該組觀測值相對應的次數,∑fi = n。則其算術平均數為
=(x1f1+x2f2+…+xmfm)/n = (∑xi fi)/n
i=1m
(b) 中位數(Median)
中位數又稱為二分位數,是一種由小至大順序數列的中心項。將某筆資料n個觀測值由小而大順序排列,則其中間位數的觀測值即為中位數。若n為奇數,則第(n+1)/2位數的觀測值為中位數。若n為偶數,中位數即為第n/2位數與第(n/2)+1位數觀測值的算術平均數。
(c) 四分位數(Quartile)
將觀測值由小至大順序數列按位數分為四等分,Q1 , Q2 , Q3為其位數等分點之觀測值。第0個四分位(Q0)即是最小值,第1個四分位(Q1)是第25%的值,第2個四分位(Q2)是第50%的值(即中位數),第3個四分位(Q3)是第75%的值,第4個四分位(Q4)即是最大值。
(d) 眾數(Mode)
眾數是指統計資料中出現之次數最頻繁的觀測值。
(e) 截尾平均數(Trimmed Mean)---奧運體操評分標準
係考慮算術平均數容易受兩端特別遠離中心位置觀測值的影響,有時不能確切描述觀測值集中趨勢。即截頭去尾的方法,將Q1以下與Q3之上的觀測值排除,再計算Q1與Q3之間的觀測值的算術平均數。
2.6.2離散趨勢統計量
離散趨勢統計量是用來測量所有觀測值偏離中心的程度
---全距、四分位間距、平均絕對偏差、變異數與標準差、變異係數等
(a) 全距(Range)
Range = Max. –Min.
(b) 四分位間距(IQR, Inter-Quartile Range)
四分位間距= Q3-Q1
(c) 平均絕對偏差(MAD, Mean Absolute Deviation)
MAD =∑| xi-|/n
i=1n
(d) 變異數與標準差(Variance and Standard Deviation)
若有N個母體觀測值{x1, x2, …, xN},且母體平均值為μ,
則母體變異數為
σ=[∑(xi-μ)]/N,
i=1
2
N
2
([∑(xi-μ)2]:Sum Square)
i=1
N
對於樣本資料{ x1, x2, …, xn},則樣本變異數為
S=[∑(xi-)]/(n-1), ([∑(xi-)2]:Sum Square)
i=1
i=1
2
n
2
n
樣本變異數S2使用(n-1)當分母的原因是,分子中(xi-)
的自由度(DOF, Degree of Freedom)為(n-1)的關係。即n個項目(x1-),…,(xn-)中,只要知道其中的(n-1)項,則剩下的最後一項就固定了,因為∑(xi-)= 0。
變異數是取觀測值與母體平均數差之平方和,所以變異
數的單位與原觀測值所用的單位不同。為取一致可將變異數的開平方根,則σ 稱之母體標準差,作為對應之離散量。另
樣本標準差則相對為S。
對於分組資料,假設資料分為m組共有n個觀測值,令xi為第i組觀測值之組中點,fi為該組觀測值相對應的次數, ∑fi = n。則樣本變異數為
S=[∑(xi-)2 fi]/(n-1)
i=1
2
m
(e) 變異數係數(CV, Coefficient of Variance )
CV =(標準差/平均值)
2.6.3 形狀統計量
形狀統計量係用量測一組資料對稱與否,與分佈形狀峰
度之高低---分別為偏態係數與峰態係數。 (a) 偏態係數(Skewness)
偏態係數(SK)是對資料分配偏往某一方的趨勢(Tendency)。SK的值必介於 –3與3之間。其定義:
SK = 3(-Median)/S
上圖SK > 0 (右偏或正偏);Mean > Median >Mode
上圖SK
峰態係數(K)是對資料分配峰度(Peakedness)的程度。其定義:
K = {∑(xi
-)4/[∑(xi-)2]2}-3
平 時 考 題
1、裝配零件之生產線,用塞規決定孔徑是否合格,為(文字/屬性/屬量)資料。 2、一群員工對生產線問題提出討論之集體思考其要因,為(文字/屬性/屬量)資料。 3、下列何者為計量值資料(1)密度(2)布匹之缺點數(3)某批產品中有2個不合格品
(4)教室內共有20個學生。 4、
間斷資料 連續資料
(1)、電鍍液的鎳濃度(%) ( ) ( ) (2)、鐵線的強度 ( ) ( ) (3)、請假人數 ( ) ( ) (4)、機器故障次數 ( ) ( ) (5)、膠布的污點數 ( ) ( ) (6)、MIL–STD–105抽樣表 ( ) ( ) (7)、某工廠每期意外事件 ( ) ( )
(8)、鋼球直徑 ( ) ( ) (9)、回收率 ( ) ( )
5、致遠管理學院舉行全校統計學檢定考試,其中工管系成績的次數分配如下表,
試求該系統計學檢定考試之算術平均數。
6、某技術員用車床車制螺絲,要求其直徑為10mm。為了了解該技術員的加工
品質,抽查其加工的100個螺絲,分別測得其直徑數據100個。
試求該100個螺絲之算術平均數、中位數等、四分位數、眾數、截尾平均數、全距、四分位間距、變異數與標準差等。
7、不合格品A類10件,B類3件,C類6件,D類2件,E類4件,繪製柏拉
圖,則於柏拉圖內第三要項之累積不良比率( )。
8、不良品A類10件,B類3件,C類6件,D類2件,E類4件,B類在百分
比圖中之%為( )。
9、同上,扇形圖A類之圖心角度( )。
10、次數分配表之組中點為3.5,5.5,7.5,9.5,11.5試求組距( )。 11、直方圖向規格上下限伸展時,表示(1)變異過大(2)平均數過小(3)平均數過大
(4)變異過小(5)平均數過小,變異也變小。 12、 一組數字 1,4,7,9,Y 其R值=10求Y。 13、 23,21,22,20,X 平均值=23求X。 14、 1,3,5,7,9 求樣本變異數及樣本標準差。
15、 1cm,3cm,5cm,7cm,9cm 求樣本變異數及樣本標準差(含單位值) 16、已知抽樣n=5
17、連續4年員工薪水年增率 7%,8%,9%,10%,四年內平均增加率。(幾
何平均)