日前,中國科學院自動化所(簡稱“自動化所”)基于全場景AI計算框架MindSpore訓練完成全球首個圖文音(視覺-文本-語音)三模態預訓練模型(OPT-Omni-Perception pre-Trainer),該模型同時具備跨模態理解與跨模態生成能力,標志著預訓練模型工作獲得突破性進展。
自GPT/Bert模型提出后,預訓練模型迎來了爆發式發展,其具有在無監督情況下自動學習不同任務、并快速遷移到不同領域數據的強大能力,而多模態預訓練模型被廣泛認為是從限定領域的弱人工智能邁向通用人工智能的路徑探索。然而,互聯網音視頻數據呈高速增長,占比超過80%,純文本的預訓練模型只涵蓋了互聯網數據中的較少部分,更豐富的語音、圖像、視頻等數據并未被充分利用與學習,且人類的信息獲取、環境感知、知識學習與表達,都是通過多模態信息方式來執行的。OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在推特上發文表示,“人工智能的長期目標是構建多模態神經網絡,即AI能夠學習不同模態之間的概念,從而更好地理解世界”。為實現更加通用的人工智能模型,預訓練模型必然由單模態往多模態方向發展,將文本、語音、圖像、視頻等多模態內容聯合起來進行學習。自動化所瞄準這一方向,成功構建視覺-文本-語音三模態預訓練模型。
目前已有的多模態預訓練模型通常僅考慮兩個模態(如圖像和文本,或者視頻和文本),忽視了周圍環境中普遍存在的語音信息,并且模型極少兼具理解與生成能力,難以在生成任務與理解類任務中同時取得良好表現。針對這些問題,自動化此次提出的視覺-文本-語音三模態預訓練模型采用分別基于詞條級別(Token-level)、模態級別(Modality-level)以及樣本級別(Sample-level)的多層次、多任務子監督學習框架,更關注圖-文-音三模態數據之間的關聯特性以及跨模態轉換問題,對更廣泛、更多樣的下游任務提供模型基礎支撐。該模型不僅可實現跨模態理解(比如圖像識別、語音識別等任務),也能完成跨模態生成(比如從文本生成圖像、從圖像生成文本、語音生成圖像等任務)。靈活的自監督學習框架可同時支持三種或任兩種模態弱關聯數據進行預訓練,有效降低了多模態數據收集與清洗成本。
三模態預訓練模型基本原理
自動化所首次提出了視覺-文本-語音三模態預訓練模型,實現了三模態間相互轉換和生成。其核心原理是視覺、文本、語音不同模態通過各自編碼器映射到統一語義空間,然后通過多頭自注意力機制(Multi-head Self-attention)學習模態之間的語義關聯以及特征對齊,形成多模態統一知識表示,再利用編碼后的多模態特征,然后通過多頭自注意力機制進行通過解碼器分別生成文本、圖像和語音。這里三模態互相轉化和相互生成示意如圖1所示:
圖文音三模態相互轉換與生成
多層次多任務自監督預訓練學習
自動化提出的三模態預訓練模型由單模態編碼器、跨模態編碼器和跨模態解碼器構成。針對圖文音三模態數據,我們提出三級預訓練自監督學習方式:詞條級別 (Token-level,Modality-level),模態級(Modality-level masking)以及樣本級別(Sample-level masking) 。具體包括:
(1)詞條級別(Token-level)學習:(a)文本掩碼建模(Masked Language Modeling):隨機掩蓋一些文本單詞,需要模型根據上下文預測被掩蓋的單詞是什么;(b)視覺掩碼建模(Masked Vision Modeling):隨機掩蓋一些圖像區域,讓模型預測被掩蓋的區域;(c)語音掩碼建模(Masked Audio Modeling):隨機掩蓋一些語音詞條(token),模型需要預測被掩蓋的詞條(token)是什么。
(2)模態級別(Modality-level)學習:包括文本重構和圖像重構兩個任務,分別學習重構輸入文本和圖像。團隊引入模態級別掩碼(Modality-Level Masking)機制隨機地掩蓋一個模態信息,使得模型需要根據其他模態信息對當前模態進行重構,從而能夠進行下游的跨模態生成任務。這個機制也帶來另一個好處—它使模型不僅能夠處理三模態輸入,也能處理兩模態輸入,從而適應下游的兩模態任務。
(3)樣本級別(Sample-level)學習:該預訓練任務是通過對每個樣本隨機地替換三種模態信息中的一種或兩種,讓模型來預測替換哪些模態。
多維度自動混合并行極簡訓練
訓練多模態大模型,用戶需綜合考慮模型參數量、計算量、計算類型、集群帶寬拓撲和樣本數量等才能設計出性能較優的并行切分策略,在考慮模型編碼算法以外,還需要編寫大量并行切分和通信代碼。
MindSpore是業界首個支持全自動并行的AI計算框架,從如下維度進行多模態模型的加速訓練。(1)MindSpore同時使用數據并行、算子級模型并行、Pipeline模型并行、優化器模型并行、異構并行、重計算、高效內存復用多維度、全種類的分布式并行策略;(2)依托多種類、多維度的并行策略,原創集群拓撲感知的多維度自動混合并行,實現超大模型自動切分,取得了比人工編寫切分策略更優的結果,顯著提升集群加速能力;(3)基于多維混合自動并行技術,原創新的DNN分布式并行編程范式,實現一行代碼完成串行算法到并行算法的切換,使得開發者可以專注算法的研究;
基于上述優勢,MindSpore為復雜的多模態大模型提供了極好的訓練加速能力,同時也極大減少了系統性能優化的代價,大大縮短了代碼開發、調試和訓練的周期。
實驗結果
自動化所主要采用Open Images數據集作為預訓練數據,該數據包含圖像、文本與音頻數據。此外我們也額外地使用兩模態數據,如Conceptual Caption圖文數據集,Visual Genome圖文數據集等。當加入額外的兩模態數據時,這些兩模態與三模態數據則被隨機混合進行訓練。
自動化所主要進行了以下兩方面的實驗驗證:
(1)圖文音三模態關聯編碼與相互生成性能:分別在多模態融合的圖像分類、任意兩模態的相互檢索以及語音識別任務中,與常規全監督方法進行了性能比較,均取得了性能上的顯著提升。其中在多模態融合的圖像分類任務中,與常規全監督的Resnet101網絡模型相比,性能提升5%;加入語音模態信息能夠明顯提升以文搜圖的性能,驗證了聯合建模視覺-文本-語音三模態信息的必要性。
(2)多模態下游任務性能:分別在跨模態檢索、視覺問答與圖像語義描述任務中,與
當前最新的圖文兩模態預訓練模型進行了性能比較,在補充了圖文兩模態數據參與預訓練的模型上,取得了具有競爭力甚至更好的實驗性能。
以圖生音示例(短視頻)
以音生圖示例(短視頻)
總結
三模態預訓練模型的提出將改變當前單一模型對應單一任務的人工智研發范式,三模態圖文音的統一語義表達將大幅提升文本、語音、圖像和視頻等領域的基礎任務性能,并在多模態內容的理解、搜索、推薦和問答,語音識別和合成,人機交互和無人駕駛等商業應用中具有潛力巨大的市場價值。
“大數據+大模型+多模態”多任務統一學習將引領就技術發展的潮流,中科院自動化所所長徐波將在2021世界人工智能大會(WAIC)昇騰人工智能高峰論壇上介紹跨模態通用人工智能平臺,更多信息敬請關注。
文章來源:科學放大鏡