資訊處   4.1.2012

390

陳麗雲教授(中)與學生
研究人工神經網絡,旨在教電腦自動學習,並解決問題
 
《中大通訊》第390期 > 洞明集 > 網絡留痕的玄機:從人工智能到數據挖掘

網絡留痕的玄機:從人工智能到數據挖掘

previouspausenext

英國生物學家和科普作家道金斯是著名的無神論者,服膺達爾文的進化論,綽號「達爾文的羅威納犬」。他對那些認為「電腦不及人腦,只能按指令行事,永遠不會有創造力」的論點很不以為然,在1986年出版的《失明鐘錶匠》一書裏,他直斥這是陳腔濫調,就像說「莎士比亞寫的,除了文字這啟蒙老師教過他寫的東西外,其他甚麼也沒有。」

專研人工神經網絡的中大計算機科學與工程學系陳麗雲教授指出,人腦和電腦在創造功能上確實有距離,但兩者的學習過程卻非常相似。

人工神經網絡(簡稱「神經網絡」),是人工智能的一個類型,基本概念是模仿人類神經系統進行信息處理的計算模型,換句話說,那是為電腦建立一套學習過程,即是教電腦學習。人工智能的目標,是令電腦系統具備人類的智識和行為,所以建立學習過程是關鍵的環節。電腦懂得自動學習,便能夠按已有的知識進行推理和判斷,從而解決問題。

不容否認,電腦的學習過程只能根據輸入的學習材料進行。陳麗雲教授解釋,例如教電腦辨識字母A,電腦會從輸入的A及非A的各種圖形中,推理出這個字母的特質,而把字母A辨識出來。

不過電腦學習了一種知識後,輸出的答案有時是出乎意料。兩個不同的網絡,在學習同一知識材料後,處理相同的輸入資料時,輸出的信息可以有別。舉例說,一個網絡會告訴你,數列中1、2、4之後的數字是8;但另一個會說是7。兩個答案也沒有錯,因為網絡是從學習過程中去推算出答案,答案多於一個時,便視乎其在學習的過程中先推算到的是甚麼答案。

與人類一樣,不同網絡的學習進度會有差異。主要原因是網絡會有不同設定,這些設定會影響網絡的學習情況,包括對不同問題有不同的準確度和學習速度。「像有些人精於數字,有些對文學特別敏感。用電腦語言來說,就是設定不同。」此外,人類處理繁複的問題時,窮十年二十年也未必解決得到,電腦也一樣。但如果把問題分拆,逐一處理,解決起來便容易得多。過往需要專家來幫電腦去分拆,最近研究出電腦能自動分拆問題的計算模型,「這是神經網絡近年的發展方向,也是人工智能研究的一項突破。」

陳教授的另一研究重點為數據挖掘。她說,數據挖掘的研究大概始於上世紀九十年代,資訊科技愈發達,所記錄和處理大量數據的能力便愈高,從數據中找出隱藏意義或知識的技術於是發展起來,即所謂數據挖掘。

數據挖掘和神經網絡息息相關,前者從後者衍生出來。舉例說,神經網絡學習從大量數據中辨識某種特質,從而找出其中模式的方法,在數據挖掘上便大派用場。陳教授主要研究金融數據的挖掘,找出不同股票或者不同類別股票的關連及共通的因素。她運用算法尋找出數據之間有一些完全獨立的成分,每一個成分都不受其他因素影響,只須觀察這個成分,對股價的上落便可有較清楚的了解,這在風險管理上有很大作用。「以前技術上認為每一成分互不關連,但我們發現提取和處理完全獨立成分,比沒有關連成分優勝得多,」陳教授說。

今天的網絡世界覆蓋萬千,無所不包,除非從未踏足其中,否則所留下的痕跡,如電郵通訊內容、網上交易記錄、瀏覽網站的歷史、社交群組的資料,全皆是可供挖掘的數據,挖掘所得可用作設計及推銷市場、產品和服務的參考。

一進入網絡世界,我們會不自覺地遺下無法磨滅的足印,那還有甚麼私隱可言?「數據挖掘不是針對個人,而是群組。我們是試圖從人的數據來了解人,」陳教授解釋說。「數據挖掘的應用非常廣泛。舉例說,鬧得熱烘烘的選舉登記問題。我們可以利用數據挖掘,找出在某幾類情況或特徵之下,會有弄虛作假的成分,便可以有效地作出相應的預防措施。」

各期刊物

最新10期

2020年代

2010年代

2019–20

2018–19

2017–18

2016–17

2015–16

2014–15

2013–14

2012–13

2011–12

2010–11

2000年代

2009–10

2008–09

2007–08

2006–07

2005–06

2004–05

2003–04

2002–03

2001–02

2000–01

1990年代

1999–2000

1998–99

1997–98

1996–97

1995–96

1994–95

1993–94

1992–93

1991–92

1990–91

1980年代

社交網路書籤

twitter   facebook   谷歌   百度   qq

快速連結