
圖:中大王歷偉教授(左)及蒙美玲教授介紹「CLEVA Cantonese」的特色。\大公報記者黃洋港攝
香港中文大學近日推出全球首個粵語大語言模型評測平台「CLEVA Cantonese」,是首個專注粵語口語與書面語差異的評測系統。團隊指出,粵語因屬「低資源」語言,評測上相較英文、普通話更為困難。
總體而言,AI大模型粵語表現較英語、普通話欠佳,平台初步評測顯示,部分模型粵拼轉寫準確率低於10%,常見表達理解錯誤率更高達二至四成。中大團隊透露,未來將開放平台並拓展數據合作,同時探索商業化機會。\大公報記者 邱梓茵
中大禤永明系統工程與工程管理學講座教授、博智感知交互研究中心主任蒙美玲指出,粵語的文法結構、聲調及俗語等特點,令現有大模型評測方法難以直接套用,「粵語不像英語同普通話有充足語料,加上書面語同口語差異大,自動構建高質評測數據一直是難題,必須靠長期動態數據支持。」
CLEVA項目負責人王歷偉教授補充,過去業界甚少關注粵語書面語與口語的評測差異,而「CLEVA Cantonese」率先彌補這個缺口,「平台首批數據來自鳳凰衛視的官方脫敏資料,同時涵蓋口語化和書面語表達,評測方法亦兼容兩類語體。」
AI粵語表現遜英文普通話
針對AI領域常見的「數據污染」問題,平台採用數據貢獻者動態更新機制,確保評測公平。蒙美玲解釋:「大模型一旦見過評測數據,就好像學生預先看過試卷,評測就不公平─這就是『污染』。所以我們要不停推出新數據,先能真正測出不同模型對粵語的支援能力。」
目前平台已初步完成多個大模型評測,發現顯示AI大模型在粵語上整體表現較英、普不理想。同時,同一任務中,不同模型差距顯著:粵拼轉寫任務裏,最優模型得分超90%,最差則低於10%;在表達理解類任務中,即使最優模型仍有20%常見表達理解錯誤,行業平均錯誤率達40%。此外,模型在語碼轉換(粵夾英)翻譯任務中,表現比常規翻譯低約20%。蒙美玲建議,應針對粵語特點設計更具挑戰的評測任務,例如將粵拼延伸至詩詞寫作等下游領域。
團隊透過自動方法構建評測數據,效率與效果俱佳。以專有名詞理解任務為例,自動構建數據可清晰體現模型差距,最優模型準確率超80%,部分最新開源模型則僅約40%。
擬開放平台 探索商業化
展望未來,中大團隊計劃開放評測平台,供研究人員、開發者及機構使用,同時吸納更多數據貢獻者,引入更多元、動態的粵語數據,進一步覆蓋更多任務與低資源語言。在可信系統層面,平台將協助金融、教育、醫療等垂直領域,驗證大模型部署的可靠性,建立全面客觀的評測體系。
商業化方面,蒙美玲表示,平台生態蘊含多個合作機會,「無論是研發大模型的公司想做檢測,還是金融界需要數據評測,我們都歡迎合作,目前已有不少機構表達意向。」
她亦強調學界在推動粵語AI測評發展中的獨特作用:「工業界資源充足,但學界可搭建生態系統,動員更多持份者(stakeholders),集中資源支援粵語技術發展,不需要事事親力親為,透過協同效應更好服務粵語領域。」