統計學的現代應用
法國數學和天文學大師拉普拉斯(1749–1827)曾說:「人生至為莫名者,十之八九惟或然之所困惑也。」拉普拉斯是或然率論的巨擘,他在1812年出版的《或然率的解釋理論》中更說:「或然之論無他,乃付常理於推算而已。」
或然率亦稱「機率」,國內現通稱「概率」,基本概念是指某隨機事件在同一情況下可能發生或者不發生,表示發生可能性大小的量,就是或然率。以擲硬幣來說,硬幣掉在地上時,有一半機會是頭像一面朝天,另一半機會是文字一面,兩者的或然率都是二分一。或然率論是從數量角度研究或然現象規律性的一門數學分支,源自十七世紀對賭博、航海風險、測量誤差等問題的研究,其後隨科技的進步而迅速發展,且與其他學科互相結合,在現代科技、工業生產,以至金融及保險等經濟活動上的應用非常廣泛,更是數量統計學的理論基礎。
或然率的理論不過是「付常理於推算」,拉普拉斯把話可說得簡單。狼來了的故事就是好例子。統計學系陳炳城教授在中大迎新營中,便以這個故事向學生解釋統計學的道理。當牧羊童第一次喊「狼來了」,村民在常理上都相信的;第二次喊「狼來了」,常理上仍不虞有詐,每一次喊「狼來了」,牧羊童在說謊的或然率就是村民的參考數據。到收集了足夠的數據,村民的決定會改變,常理上不會再相信「狼來了」這鬼話了。陳教授說:「這個故事是典型的統計應用。」
陳教授最有興趣研究的是統計學裏的刪失數據,即是在進行統計時,存在於收集範圍以外的不明數據。「例如我們要量度一班六年級學生的身高,但量度用的尺只有一百五十厘米長。結果一班三十人,有二十五個可以量度到真正的高度,餘下五人只知道高於一米半。這五個同學的身高就是刪失數據。」
所有數據都會出現刪失的問題,較嚴重的便成為遺失數據,最明顯的例子是一份問卷十條問題只答了八條,或者設計問卷時失誤,應問的沒有問。不過統計學家不會放棄刪失或遺失數據,他們會利用不同的數學模型,把不明顯的數據和所有收集得來的數據一併估算,以取得較完整和準確的統計資料。「最常用的方法是利用條件或然率,把刪失或遺失的數據推斷出來,輸入作估算,然後與不輸入這些數據的估算結果比較。兩者若相差不遠,推斷的數據便算有效。」
刪失數據主要應用在計算工業產品的可靠及耐用程度,小至普通家庭用品如家具及電器,大如汽車、飛機,以至核電廠,都利用刪失數據估算壽命分布,即是在不同情況下的表現和可以使用多久。這也是陳教授現時專注的研究範圍。他解釋說,要收集足夠數據來評估產品在正常情況下的壽命並不容易,現時業界普遍採用「加速壽命試驗」進行測試,把物件置於極大應力下加速其損壞,然後利用所得數據,推算產品應有的壽命。那些在測試時間內仍倖存的物件,稱為刪失觀測數據。
陳教授的研究,就是從利用測試實驗數據進行最可能統計推斷,找出不同物件按不同標準應接受的最有效應力測試,以助業界設計出省時、準確和符合經濟效益的測試實驗。「新產品推出市場的時間由此可以縮短,」他說。「不過產品應如何設計才算是可靠和耐用,有時候是商業決定,我們只提供科學數據作參考。」
社交網路書籤