頭條

A.I.為人類發聲

提起語音技術，大家可能想到已故物理學家霍金，他所使用的語音合成器透過追蹤其眼球移動，逐一選擇字母，以機械化的語音拼讀出單字和句子。在6月3日舉行的「智慧的探索」公開講座系列第五場，工程學院蒙美玲教授（中）以「懂聽懂說的人工智能如何改善人類的學習及生活」為題，和二百多位現場聽眾分享怎樣用人工智能改進語音技術，同時應用這些技術於語言學習和輔助溝通。

現時微軟的語音識別技術誤差率僅5%，與人類相同。遇上不確定的語音，人工智能便會仿效人類，從上文下理推斷。蒙教授運用語音識別技術，開發一套語言學習系統，除可頗準確地辨別語音外，還可顯示發音錯誤之處。蒙教授舉例：「廣東話和普通話沒有齒間摩擦音，母語為廣東話的人常把英文thick [θIk]讀作[fIk]；母語是普通話的則容易讀成sick[sIk]。」該系統可以顯示這些偏差，說話者便會「知錯」。然後，系統產生糾正反饋，讀出正音，同時以視像示範發音部位的變化，使用者便「能改」。

合成句子比單字層面挑戰更大。一般句子的意義除了根據單字的排序外，也視乎說話人在個別字音會否以拉長、加重或調高音調來達到特別效果。人工智能要完全模擬活人說話，便必須做到這一點。蒙教授的團隊透過研究同一字詞不同處理方法的特徵差異，在合成發聲中充分拿捏箇中分毫，從而傳達準確及完整的意思。另一方面，語音轉換技術可以把某人在一個語言的聲音特徵轉移至另一個語言，例如掌握了霍金說英語的聲音特徵，系統可以運用他的聲音合成維妙維肖的中文發音。

現時香港約五萬人有口語障礙，當中四成沒有口語交流能力。醫院管理局特製了供口語障礙者指圖示意的溝通書。蒙教授的團隊將之改良，製作可個人化的電子版溝通書，用者點擊圖像後，電子書便會讀出相關字詞，用者可按個人需要增減內容，例如輸入親友的相片和稱謂，電子書會把文字轉換成語音讀出。蒙教授的團隊與微軟合作，至今電子溝通書版本已增至十三種語言，涵蓋二十多種口音。蒙教授近年還致力為中風及腦癱等病人研發粵語智能語音系統，以幫助他們發聲。

與其他新興科技一樣，語音技術同樣會帶來安全問題。蒙教授說：「一些保安系統是用語音來識別身分的，語音合成技術或者可以攻破這些系統。我們也正在研究一些『盾』，以分辨合成的語音和自然語音。」

M. Mak

本文出自《中大通訊》第540期（2019年6月）

標籤
「智慧的探索」公開講座蒙美玲語音技術人工智能工程學院

本期推介

支撐未來城巿的智慧科技

爸爸辛苦了！

防乳癌　求於己

盧惠玉──審閱文字與人生

緊貼更新

訂閱電子版以閱讀最新文章

A.I.為人類發聲

推介文章