大公產品

首頁 > 文章 > 正文

中大創檢測系統「捉」粵語錯字

時間:2017-06-12 03:15:23來源:大公網

  圖:中文大學研發全港首個能判斷粵語字的錯字檢測工具,準確率超過80% 大公報記者楊州攝

  【大公報訊】記者楊州報道:年輕一代打字多過寫字,打錯字又無提示。目前中文字檢測工具只能簡單做到找出錯別字,中文大學研發全港首個能判斷粵語字的錯字檢測工具,準確率超過80%,年內便推出,除基本辨識錯別字和簡體字功能外,更加入粵語用法和倒裝用法進行檢測,例如「鍾意」更正為「喜歡」、「隱私」更正為「私隱」。

  中大工程學院與應科院合作,2015年起展開研發「錯字和粵語檢測系統」,以解決沒有一套完善的中文檢字工具,該系統已在語文教師及中小學生間進行測試,料年內正式推出市面。中大系統工程及工程管理系研究員馮沛璋表示,系統基於大數據及深度學習,與傳統的檢字工具不一樣,會隨着系統學習而更新數據庫,過程無需人工。

  該系統分兩部分,即「錯字檢測組」和「粵語檢測組」,檢測句子中不能與前文後理組成通順句子的字,類似語境意識,其數據庫存有一萬二千個字典詞語及六萬個中文混淆字集。同時,研究人員亦把應科院提供的逾千份文憑試(DSE)中文作文卷及校內DSE模擬作文卷,作為測試對象,讓系統進行學習,其準確率亦有所提高。

  中大工程學院(外務)副院長黃錦輝介紹說:「我們要先教會這個系統,什麼是對,什麼是錯」,用作文卷來教,多位中文學者標籤正確的答案,系統就能學會。他稱,系統僅作學生自學中文的工具,並不會取代老師正常教學,因為系統不會讓學生明白什麼叫語境。至於是否商品化,他稱,要視乎研究團隊的學生是否有創業的念頭,若有中大則會支持。

  「鍾意」建議改「喜歡」

  馮沛璋亦即場示範使用該系統,輸入測驗句子「佢很鍾意吃媽媽的梁瓜抄蛋飯」時,系統便建議修正為「他很喜歡吃媽媽的涼瓜炒蛋飯」,而輸入錯別字「側隱之心」時,系統要求至少輸入10個字(包括標點符號),他解釋稱,系統檢測句子涉及上文下理,不能單一檢測四字詞語,而系統仍處初階,未來會增加建議的解釋,形式亦不排除以文書處理軟件插件、手機應用等呈現出來。

最新要聞

最新要聞

最受歡迎