中文大學校刊 二零二一年第一期
... ... 分門別類 電腦會先從排放量數據中隨機抽 取樣本,然後以一種名為決策樹 (decision tree)的分類法加以 整理。顧名思義,決策樹的分類 過程如大樹開枝散葉。電腦會按 樣本的其中一個因素,如氣溫之 高低,把它們分為兩組,每組樣 本又會按另一個因素再細分,如 此類推。 種樹成林 電腦會隨機抽取另一堆排放量數據樣本,再以上述方法分門別類。 整個過程會不斷重複,直至電腦得出大量決策樹,而「隨機森林」 這個名字,正是由此得來。電腦大費周章,重複抽樣分類,為的是 避免過適(overfitting)這個在人工智能十分常見問題。一棵決 策樹只能反映數據一部分的規律,在此基礎上作出的分析,自然 不能代表事實全部。所謂過適,正是指電腦過分留意部分數據, 側重一方,以致分析有欠穩妥。通過種出大量決策樹,電腦得以 反覆咀嚼整份數據,確保分析全面。 知所先後 經一連串分類,數據中的規律開 始浮現。電腦隨即可計算數據按 各因素排序後的整潔程度(mean decrease in impurity),進而推 斷各因素對排放量有多大影響。最 影響數據型態走向的因素,正是導 致紅樹林釋出甲烷的元兇。 穿壁引光 很多人工智能程式構造複雜,決 策機制不明,因而有「黑盒」 (black box)之稱。相比之下, 隨機森林的原理尚算簡單,方便學 者掌握數據是如何被整理出來,從 而推斷其當初的形成過程、受甚麼 因素左右。 2 3 4 甲烷排放量 低 高 氣溫 氣溫 ≥ x 氣溫 < x 鹽度 AI:人算不如機算? 37
Made with FlippingBook
RkJQdWJsaXNoZXIy NDE2NjYz