圖:7月8日,2021世界人工智能大會開幕,超過300家企業的眾多前沿人工智能技術與產品集中亮相。\新華社
從檢索圖像、描述視頻,到吟詩作賦、續寫文章,再到識別語音、雙語翻譯,虛擬人「小初」日前亮相2021世界人工智能大會,賦詩讚美天宮,解說火箭視頻,意會太空遨遊,展示了圖、文、音三種模態的智能轉換和生成。這得益於一個名為「紫東太初」的跨模態通用人工智能平台。該平台由中國科學院自動化研究所研發,基於國產化基礎軟硬件,僅採用一個大模型,有效地提升機器的理解和生成能力,讓AI接近人類智力。\大公報記者 劉凝哲北京報道
「小初,請以天宮為主題作首詩吧?」「天宮生殿開成,萬花垂露照初。稠雲不掩國志,飛天當觸明霞。」「你能看懂這個視頻嗎?」「視頻中,火箭正在發射。」「小初,圖片中航天員正在幹什麼?」
「航天員正穿着航天服站在機械臂上遨遊太空。」……7月9日,在2021世界人工智能大會(WAIC2021)上,中國科學院自動化研究所所長徐波發布了自動化所研發的跨模態通用人工智能平台──「紫東太初」。
圖文音全場景應用 自動學習
「紫東太初」平台是跨模態通用人工智能平台,以多模態大模型為核心,基於全棧國產化基礎軟硬件平台,可支撐全場景AI應用。「所謂跨模態是指它可以理解語音、文字和圖片等多種模態信息;所謂全棧國產化是指這個平台的底層算力、模型、框架等都是自主研發的。」徐波解釋道。
多種模態預訓練模型被廣泛認為是從限定領域的弱人工智能邁向通用人工智能路徑的探索。依託面向超大規模的高效分布式訓練框架,自動化所構建了具有業界領先性能的中文預訓練模型、語音預訓練模型、視覺預訓練模型,並開拓性地通過跨模態語義關聯實現了視覺、文本、語音三種模態統一表示,構建了三模態預訓練大模型,賦予跨模態通用人工智能平台多種核心能力。
徐波介紹,「紫東太初」兼具跨模態理解和生成能力。與單模態和圖片、文字兩種模態相比,「紫東太初」採用一個大模型就可以靈活支撐圖片、文字以及語音的全場景AI應用,具有了在無監督情況下多任務聯合學習、並快速遷移到不同領域數據的強大能力。
「引入語音模態後的多模態預訓練模型,可實現共性圖片、語音和文字的空間表徵和利用,並突破性地直接實現三模態的統一表示。」徐波說,特別值得強調的是,該平台首次讓「以圖生音」和「以音生圖」成為現實,對更廣泛、更多樣的下游任務提供模型基礎支撐,讓AI能夠在視頻配音、語音播報、標題摘要、海報創作等更多場景實現應用。
改變單一範式 探AI研發新路徑
「『紫東太初』跨模態通用人工智能平台包括三大關鍵技術和六大核心能力。」徐波說,三大關鍵技術分別是多模態理解與生成多任務統一建模、面向國產化軟硬件的高效訓練與部署、多模態預訓練模型架構設計與優化。六大核心能力則體現為多模態統一表示與語義關聯、跨模態內容轉化與生成、預訓練模型網絡架構設計、標註受限自監督模型學習、模型適配與分布式訓練、模型輕量化與推理加速。徐波表示,「大數據+大模型+多模態」將改變當前單一模型對應單一任務的人工智能研發範式,多模態大模型將成為不同領域的共性平台技術,是邁向通用人工智能路徑的探索,具有廣闊的應用前景。