敬告讀者: 《中大通訊》已停刊,本網暫停更新。請移玉步造訪本校最新通訊《走進中大》網頁:https://focus.cuhk.edu.hk,閱讀大學報道和消息。
提起語音技術,大家可能想到已故物理學家霍金,他所使用的語音合成器透過追蹤其眼球移動,逐一選擇字母,以機械化的語音拼讀出單字和句子。在6月3日舉行的「智慧的探索」公開講座系列第五場,工程學院蒙美玲教授(中)以「懂聽懂說的人工智能如何改善人類的學習及生活」為題,和二百多位現場聽眾分享怎樣用人工智能改進語音技術,同時應用這些技術於語言學習和輔助溝通。
現時微軟的語音識別技術誤差率僅5%,與人類相同。遇上不確定的語音,人工智能便會仿效人類,從上文下理推斷。蒙教授運用語音識別技術,開發一套語言學習系統,除可頗準確地辨別語音外,還可顯示發音錯誤之處。蒙教授舉例:「廣東話和普通話沒有齒間摩擦音,母語為廣東話的人常把英文thick [θIk]讀作[fIk];母語是普通話的則容易讀成sick[sIk]。」該系統可以顯示這些偏差,說話者便會「知錯」。然後,系統產生糾正反饋,讀出正音,同時以視像示範發音部位的變化,使用者便「能改」。
合成句子比單字層面挑戰更大。一般句子的意義除了根據單字的排序外,也視乎說話人在個別字音會否以拉長、加重或調高音調來達到特別效果。人工智能要完全模擬活人說話,便必須做到這一點。蒙教授的團隊透過研究同一字詞不同處理方法的特徵差異,在合成發聲中充分拿捏箇中分毫,從而傳達準確及完整的意思。另一方面,語音轉換技術可以把某人在一個語言的聲音特徵轉移至另一個語言,例如掌握了霍金說英語的聲音特徵,系統可以運用他的聲音合成維妙維肖的中文發音。
現時香港約五萬人有口語障礙,當中四成沒有口語交流能力。醫院管理局特製了供口語障礙者指圖示意的溝通書。蒙教授的團隊將之改良,製作可個人化的電子版溝通書,用者點擊圖像後,電子書便會讀出相關字詞,用者可按個人需要增減內容,例如輸入親友的相片和稱謂,電子書會把文字轉換成語音讀出。蒙教授的團隊與微軟合作,至今電子溝通書版本已增至十三種語言,涵蓋二十多種口音。蒙教授近年還致力為中風及腦癱等病人研發粵語智能語音系統,以幫助他們發聲。
與其他新興科技一樣,語音技術同樣會帶來安全問題。蒙教授說:「一些保安系統是用語音來識別身分的,語音合成技術或者可以攻破這些系統。我們也正在研究一些『盾』,以分辨合成的語音和自然語音。」
M. Mak
本文出自《中大通訊》第540期(2019年6月)