資訊處   19.12.2011

389

「或然之論無他,乃付常理於推算而已。」
陳炳城教授(中)和他的研究團隊
 
《中大通訊》第389期 > 洞明集 > 或此、或彼、或然

或此、或彼、或然

previouspausenext

統計學的現代應用

法國數學和天文學大師拉普拉斯(1749–1827)曾說:「人生至為莫名者,十之八九惟或然之所困惑也。」拉普拉斯是或然率論的巨擘,他在1812年出版的《或然率的解釋理論》中更說:「或然之論無他,乃付常理於推算而已。」

或然率亦稱「機率」,國內現通稱「概率」,基本概念是指某隨機事件在同一情況下可能發生或者不發生,表示發生可能性大小的量,就是或然率。以擲硬幣來說,硬幣掉在地上時,有一半機會是頭像一面朝天,另一半機會是文字一面,兩者的或然率都是二分一。或然率論是從數量角度研究或然現象規律性的一門數學分支,源自十七世紀對賭博、航海風險、測量誤差等問題的研究,其後隨科技的進步而迅速發展,且與其他學科互相結合,在現代科技、工業生產,以至金融及保險等經濟活動上的應用非常廣泛,更是數量統計學的理論基礎。

或然率的理論不過是「付常理於推算」,拉普拉斯把話可說得簡單。狼來了的故事就是好例子。統計學系陳炳城教授在中大迎新營中,便以這個故事向學生解釋統計學的道理。當牧羊童第一次喊「狼來了」,村民在常理上都相信的;第二次喊「狼來了」,常理上仍不虞有詐,每一次喊「狼來了」,牧羊童在說謊的或然率就是村民的參考數據。到收集了足夠的數據,村民的決定會改變,常理上不會再相信「狼來了」這鬼話了。陳教授說:「這個故事是典型的統計應用。」

陳教授最有興趣研究的是統計學裏的刪失數據,即是在進行統計時,存在於收集範圍以外的不明數據。「例如我們要量度一班六年級學生的身高,但量度用的尺只有一百五十厘米長。結果一班三十人,有二十五個可以量度到真正的高度,餘下五人只知道高於一米半。這五個同學的身高就是刪失數據。」

所有數據都會出現刪失的問題,較嚴重的便成為遺失數據,最明顯的例子是一份問卷十條問題只答了八條,或者設計問卷時失誤,應問的沒有問。不過統計學家不會放棄刪失或遺失數據,他們會利用不同的數學模型,把不明顯的數據和所有收集得來的數據一併估算,以取得較完整和準確的統計資料。「最常用的方法是利用條件或然率,把刪失或遺失的數據推斷出來,輸入作估算,然後與不輸入這些數據的估算結果比較。兩者若相差不遠,推斷的數據便算有效。」

刪失數據主要應用在計算工業產品的可靠及耐用程度,小至普通家庭用品如家具及電器,大如汽車、飛機,以至核電廠,都利用刪失數據估算壽命分布,即是在不同情況下的表現和可以使用多久。這也是陳教授現時專注的研究範圍。他解釋說,要收集足夠數據來評估產品在正常情況下的壽命並不容易,現時業界普遍採用「加速壽命試驗」進行測試,把物件置於極大應力下加速其損壞,然後利用所得數據,推算產品應有的壽命。那些在測試時間內仍倖存的物件,稱為刪失觀測數據。

陳教授的研究,就是從利用測試實驗數據進行最可能統計推斷,找出不同物件按不同標準應接受的最有效應力測試,以助業界設計出省時、準確和符合經濟效益的測試實驗。「新產品推出市場的時間由此可以縮短,」他說。「不過產品應如何設計才算是可靠和耐用,有時候是商業決定,我們只提供科學數據作參考。」

各期刊物

最新10期

2020年代

2010年代

2019–20

2018–19

2017–18

2016–17

2015–16

2014–15

2013–14

2012–13

2011–12

2010–11

2000年代

2009–10

2008–09

2007–08

2006–07

2005–06

2004–05

2003–04

2002–03

2001–02

2000–01

1990年代

1999–2000

1998–99

1997–98

1996–97

1995–96

1994–95

1993–94

1992–93

1991–92

1990–91

1980年代

社交網路書籤

twitter   facebook   谷歌   百度   qq

快速連結