前言
從臨近中國的兔年開始,生成式AI(又稱AIGC)的發(fā)展可謂“兔”飛猛進(jìn)。幾乎每周都有許多新的消息和成果發(fā)布,更低的門檻和更好的效果不斷沖擊大眾認(rèn)知,讓越來越多的人認(rèn)知到生成式AI已經(jīng)成為推進(jìn)下一輪技術(shù)革新的重要動力。同時,也有越來越多的人開始思考一些問題,比如:為什么最好的生成效果不在中國?中國的生成式AI離國外有多遠(yuǎn)?要做出最好的生成式AI,除了模型,我們還需要建設(shè)哪些東西?
網(wǎng)易伏羲作為國內(nèi)首個專注數(shù)字文娛領(lǐng)域的人工智能研究機(jī)構(gòu),從17年成立之初開始關(guān)注生成式AI的發(fā)展和落地可能,這些問題在過去的幾年內(nèi)不斷在團(tuán)隊(duì)內(nèi)部被提及、討論,并驅(qū)動一系列工作的開展和推進(jìn)。本文將介紹網(wǎng)易伏羲對這些問題的思考,以及當(dāng)前的一些進(jìn)展。
自然語言與生成式AI
這一輪生成式AI的爆發(fā),需要從自然語言處理技術(shù)的突破說起,17年谷歌提出Transformer架構(gòu),使得計(jì)算機(jī)可以更加高效地進(jìn)行文本內(nèi)容知識的學(xué)習(xí),從而推動BERT、GPT等一些列大規(guī)模文本模型的誕生,從理解和生成的維度都獲得了巨大突破。而自然語言處理這門連接人類和計(jì)算機(jī)交流的基礎(chǔ)學(xué)科,也成為驅(qū)動包括文本、圖像、音頻、視頻、三維模型等各個維度生成式AI爆發(fā)的核心基座。一方面人們從海量的互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)中整理可以用于生成式AI訓(xùn)練的數(shù)據(jù),另外一方面通過自然語言來對齊各個模態(tài)的信息,使得這些知識可以互通。這也可以很好的解釋為什么英文生態(tài)的公司和機(jī)構(gòu)在這一輪技術(shù)熱潮中更容易占據(jù)先機(jī) -- 當(dāng)前規(guī)模最大、內(nèi)容最豐富、質(zhì)量最高的機(jī)器學(xué)習(xí)語料是由英文構(gòu)成的。
例如文本下游微調(diào)數(shù)據(jù),英文領(lǐng)域有像T0-SF,Muffin等大量優(yōu)質(zhì)的數(shù)據(jù)集,圖文領(lǐng)域也有像LAION-2B,MSCOCO等開源數(shù)據(jù)集。相比于國內(nèi),中文領(lǐng)域雖然這兩年也有多個相關(guān)數(shù)據(jù)集的建設(shè),如200G悟道文本預(yù)訓(xùn)練數(shù)據(jù)集,“悟空”1億圖文對數(shù)據(jù)集等,但是無論從數(shù)量還是質(zhì)量上來比,與海外的數(shù)據(jù)還是存在著一定的差距。
除此之外,英文生態(tài)本身也具備非常明確的先天優(yōu)勢,其包含了大量其他語種不具備的優(yōu)質(zhì)的內(nèi)容。比如說全球最頂尖的學(xué)術(shù)論文、編程代碼、多個行業(yè)領(lǐng)域的規(guī)范標(biāo)準(zhǔn)。這些構(gòu)成了英文的獨(dú)天得天獨(dú)厚的優(yōu)勢,也使得基于英文生態(tài)的研究方案可以更好的去推動和落地。
如何走出數(shù)據(jù)困境
面對這樣的數(shù)據(jù)困境,國內(nèi)的研究者和機(jī)構(gòu)又采取了哪些辦法?歸結(jié)來看大概有4種策略:
??????? 1、直接用開源模型,走API翻譯
這可能是最直接的方案,尤其在圖文生成領(lǐng)域,去年stable diffusion模型開源之后國內(nèi)有不少創(chuàng)業(yè)公司嘗試直接基于該模型進(jìn)行適配訓(xùn)練和推理生成,同時利用 API的翻譯接口將中文的輸入轉(zhuǎn)化成英文實(shí)現(xiàn)對中文用戶的支持。這條路線的好處是可以快速地將最新的英文生態(tài)的工作應(yīng)用到國內(nèi)。缺點(diǎn)也非常明顯,一方面是中文翻譯可能引起語義的缺失,很多英文這個領(lǐng)域當(dāng)中常用的說法在中文當(dāng)中是沒有辦法很好的表達(dá)的,比如說中國的許多成語以及諺語:
飛流直下三千尺 from Mid Journel
竹杖芒鞋輕勝馬 from Mid Journel
??????? 海外數(shù)據(jù)的內(nèi)容組成也大多由當(dāng)?shù)氐娜宋牡乩?,生活歷史構(gòu)成,對于中文的知識缺乏很好的理解,比如說中國的歷史古跡、名人、美食和生活習(xí)俗。
西湖斷橋 from midjournel
過橋米線 from mid journel
??????? 第三點(diǎn)也是最核心的一點(diǎn):已有開源模型數(shù)的數(shù)據(jù)據(jù)存在偏見,合規(guī)性和安全性都留有風(fēng)險。舉例說,這些模型在種族問題上不平等,也存在大量裸露、暴力的內(nèi)容。直接將這些數(shù)據(jù)模型用于國內(nèi)的生產(chǎn),存在著巨大的隱患,所以從年初開始,相關(guān)部門對生成式AI的能力構(gòu)成加大了審核力度。
??????? 2、海外數(shù)據(jù)翻譯
??????? 這種方案是第一種方案的改進(jìn)版。具備一定研究能力的機(jī)構(gòu),會選擇將海外數(shù)據(jù)整理下來之后進(jìn)行英文到中文的翻譯,借助英文數(shù)據(jù)已有的成果,構(gòu)建更加可靠的自有模型,目前國內(nèi)有不少研究機(jī)構(gòu)和企業(yè)采取了這條路線。優(yōu)點(diǎn)是可以繼承英文的豐富的數(shù)據(jù)生態(tài),同時可以對涉黃、涉政的數(shù)據(jù)進(jìn)行系統(tǒng)性篩選。
??????? 缺點(diǎn)還是存在領(lǐng)域差異,包括對一些特定的中文表述、生態(tài)、文化習(xí)俗的缺失,以及數(shù)據(jù)本身還是帶有非常強(qiáng)的偏見,甚至是歧視。即使去除了不合規(guī)的數(shù)據(jù),這些隱性的問題還是很難解決的。比如“穿旗袍的女孩”,“七夕節(jié)日”等等。
??????? 3、中文數(shù)據(jù)構(gòu)建
這是一條相對難走的道路,需要大量前期的積累。數(shù)據(jù)的整理的工作往往在短期內(nèi)難以獲得成效,其階段性價值也難以衡量。但完善的高質(zhì)量數(shù)據(jù)的建設(shè),將對生成式AI后期的工作推進(jìn)帶來可靠的助力。所以在伏羲以往的討論當(dāng)中,這也被認(rèn)定為是一條難走卻又正確的道路。自建中文數(shù)據(jù)集的好處在于可以解決中文場景的一系列基礎(chǔ)性問題,彌補(bǔ)模型對中文知識的欠缺,更好的去控制數(shù)據(jù)安全,從而對數(shù)據(jù)的合規(guī)性進(jìn)行有效審核。
??????? 國內(nèi)目前也有一些做了中文數(shù)據(jù)構(gòu)建的這些工作,高質(zhì)量對齊數(shù)量例如coco-cn,數(shù)據(jù)量級別在十萬級別,數(shù)據(jù)量較少。wukong數(shù)據(jù)集是目前較大規(guī)模的開源圖文數(shù)據(jù)集,但相比海外的對標(biāo)數(shù)據(jù)集目前還是存在一定差距。許多場景之下,相關(guān)的研究人員也開始呼吁國內(nèi)的政府和企業(yè)可以推進(jìn)高質(zhì)量的中文數(shù)據(jù)集的共建,我們也看到有許多國內(nèi)同行開始加入到這個行列。
??????? 4、多語言兼容
??????? 自建數(shù)據(jù)集雖好,但依然無法解決其他語言優(yōu)質(zhì)內(nèi)容缺乏的問題。所以多語言兼容是目前看起來大規(guī)模預(yù)訓(xùn)練模型技術(shù)比較切實(shí)可行的方案。當(dāng)然,這個方案目前依舊在驗(yàn)證當(dāng)中,當(dāng)前已經(jīng)有一些相關(guān)的工作,通過多語言的方案,將英文場景下圖文理解,文圖生成功能,擴(kuò)展到其他的語種中,打通了英文體系和其他語種的障礙。
??????? 在ChatGPT的訓(xùn)練過程當(dāng)中,已經(jīng)體現(xiàn)展現(xiàn)出跨語言的可行性以及潛力。由于有大量的多元數(shù)據(jù)融合,目前GPT的中文能力已經(jīng)比許多純中文預(yù)訓(xùn)練模型更加出色。在圖文生成領(lǐng)域,Niji模型的跨語言能力和生成效果都是不錯的。
伏羲的破境之舉
從生成式AI的整體效果考慮,伏羲選擇了一條比較長期的技術(shù)路線。在兼容開源數(shù)據(jù)的同時,又分為4步推進(jìn),首先是建設(shè)高質(zhì)量的大規(guī)模中文數(shù)據(jù)集;其次構(gòu)建中文領(lǐng)域的優(yōu)質(zhì)理解模型;然后基于數(shù)據(jù)集和理解模型重構(gòu)圖文生成算法,做到語義的有效提升;最后引入專家和人類的反饋引導(dǎo)模型生成用戶更加需要的高質(zhì)量內(nèi)容。
??????? 1、建設(shè)大規(guī)模中文數(shù)據(jù)
伏羲聯(lián)合網(wǎng)易多個部門,包括網(wǎng)易雷火、傳媒、云音樂等核心業(yè)務(wù),從用戶和業(yè)務(wù)維度提供對數(shù)據(jù)的理解和需求,完成對于優(yōu)質(zhì)數(shù)據(jù)的定義,建設(shè)包括文本質(zhì)量,圖像美觀度,版權(quán)合規(guī)性以及倫理評估等評價標(biāo)準(zhǔn)。以此框架作為約束共同推進(jìn)數(shù)據(jù)構(gòu)建,同時設(shè)計(jì)了一套基于分布式任務(wù)的數(shù)據(jù)可信系統(tǒng),各專家團(tuán)隊(duì)各自提供數(shù)據(jù)質(zhì)量評審模型,完成共同打分后再交由數(shù)據(jù)治理引擎統(tǒng)一管理。
??????? 2、構(gòu)建中文領(lǐng)域的理解模型
基于伏羲自研千億文本模型的技術(shù)積累,“玉言”系列理解模型先后登頂知名中文榜單FewCLUE和CLUE分類榜單,在CLUE1.1分類任務(wù)排行榜(包含AFQMC[文本相似度]、TNEWS[短文本分類]、IFLYTEK[長文本分類]、OCNLI[自然語言推理]、WSC[代詞消歧]、CSL[關(guān)鍵詞識別]6個理解任務(wù))上超過人類水平。玉言系列中的百億生成模型與對話模型已完成開源,理解模型也會在近期開源。
??????? 在文本理解的基礎(chǔ)之上,伏羲自2021年起著力打造“玉知”多模態(tài)圖文理解大模型,采用圖片-文本雙塔結(jié)構(gòu)和模塊化的訓(xùn)練思想,基于億級別的中文圖文數(shù)據(jù)對,先后迭代了三種規(guī)格的模型版本,在中文圖文理解水平上達(dá)到業(yè)界領(lǐng)先水平,并具有良好的泛化性,在下游各類任務(wù)如分類,檢索,推薦等方面表現(xiàn)優(yōu)異;并且,在圖文模型的預(yù)訓(xùn)練過程中,針對包含不同文本長度的圖文對采用不同的訓(xùn)練策略,這使得“玉知”模型對語義具有較強(qiáng)的理解能力。同時,利用網(wǎng)易伏羲開源的EET高效推理框架,對模型壓縮、算法適配、硬件底層等方面進(jìn)行優(yōu)化,使其推理速度提升4倍,滿足了線上的高并發(fā)需求,降低了部署資源的損耗。
在業(yè)務(wù)數(shù)據(jù)集的zero-shot評測中
“玉知”多模態(tài)理解大模型優(yōu)于Chinese-CLIP的CN-CLIPViT-H/14
??????? 玉知模型也成功在網(wǎng)易的多個業(yè)務(wù)中得到驗(yàn)證,如網(wǎng)易新聞和網(wǎng)易云音樂的搜索、推薦、智能標(biāo)注等場景。網(wǎng)易新聞通過圖文大模型構(gòu)建的圖文內(nèi)容表征,在推薦環(huán)節(jié)采用基于該圖文向量的dropoutnet召回優(yōu)化,對召回源、列表頁視頻試投、列表頁試投整體等效果明顯改進(jìn),實(shí)現(xiàn)視頻和整體大盤的業(yè)務(wù)指標(biāo)提升,已在線上業(yè)務(wù)中落地使用。網(wǎng)易云音樂通過圖文大模型構(gòu)建的內(nèi)容表征引擎和內(nèi)容相似檢索引擎,已成功應(yīng)用于云音樂視頻、長音頻、廣告等多個內(nèi)容業(yè)務(wù),對內(nèi)容冷啟動效率、CTR預(yù)估模型等,帶來顯著的線上收益。同時進(jìn)一步聯(lián)合華為團(tuán)隊(duì),充分分析互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)集特性,對多模態(tài)模型結(jié)構(gòu)進(jìn)行優(yōu)化,優(yōu)選合適編碼器并采用多階段訓(xùn)練模式,共建玉知-悟空模型,進(jìn)一步構(gòu)建伏羲在中文跨模態(tài)理解領(lǐng)域的領(lǐng)先優(yōu)勢。
??????? 3、圖文生成算法重構(gòu)
在圖文理解預(yù)訓(xùn)練模型的基礎(chǔ)上,伏羲進(jìn)一步推進(jìn)自研文圖生成模型——“丹青”的研發(fā),一種語義增強(qiáng)的文圖生成擴(kuò)散模型。依托于擴(kuò)散模型的原理,在廣泛的(8億)圖文數(shù)據(jù)上訓(xùn)練以達(dá)到較好的生成結(jié)果。不同于常見的基于擴(kuò)散模型的文圖生成方法,伏羲自研的模型還具備以下特點(diǎn):
??????? 1.模型創(chuàng)新:文圖生成的語義能力,非常強(qiáng)依賴對用戶輸入文本的表征能力,依托于伏羲自研的”玉知”模型在中文語境下的表征能力,自研生成模型在中文場景下具有的超強(qiáng)語義表征能力。此外,伏羲自研模型還側(cè)重文本與圖片交互的,強(qiáng)化了在文圖引導(dǎo)部分的參數(shù)作用,能夠讓文本更好地引導(dǎo)圖片的生成,因此生成的結(jié)果也更加貼近用戶意圖。
??????? 2.圖片多尺度的訓(xùn)練:在廣泛的數(shù)據(jù)集中,自研模型在充分考慮圖片的不同尺寸和清晰度問題,將不同尺寸和分辨率的圖片進(jìn)行分桶,從而進(jìn)行的多尺度訓(xùn)練。在充分保證訓(xùn)練圖片訓(xùn)練的不失真的前提下,保留盡可能多的信息,自研模型能夠適應(yīng)不同分辨率的生成。
??????? 3.數(shù)據(jù)策略:多階段的訓(xùn)練能夠保證模型既具有廣泛性,又保證生成結(jié)果的質(zhì)量。初始階段,使用億級別的廣泛分布的數(shù)據(jù),讓模型不僅在語義理解上具有廣泛性,可以很好的理解一些成語,古文詩句,例如夫妻肺片,名花傾國等等。同時在生成的畫風(fēng)上也具有多樣性,可以生成多種風(fēng)格。在之后的階段分別從圖文關(guān)聯(lián)度,圖片清晰度,圖片美觀度等多個層面進(jìn)行數(shù)據(jù)篩選,以優(yōu)化生成能力,生成高質(zhì)量圖片。
??????? 中文場景下超強(qiáng)的語義理解能力: 能夠充分理解用戶的輸入,并且返回給用戶想要的東西。尤其在成語,俗語,詩句的理解和生成具備一定優(yōu)勢。
??????? 風(fēng)格的多樣性 & 純正性 :覆蓋的風(fēng)格廣泛,例如年輕人熱愛的二次元,動漫風(fēng)格,傳統(tǒng)的山水國畫風(fēng)格,以及知名畫家的特殊風(fēng)格等。
??????? 中文場景的領(lǐng)域優(yōu)勢:善于生成中國元素的作品,例如宋代美女,傳統(tǒng)佳節(jié)等場景
???????
4、人機(jī)協(xié)同增強(qiáng)的數(shù)據(jù)閉環(huán)
??????? 依賴于機(jī)器進(jìn)行數(shù)據(jù)篩選,不可避免存在諸多缺陷和不完美。依托于網(wǎng)易伏羲的aop眾包能力,我們從不同角度引入了人工。在訓(xùn)練階段,人工從多個維度的評估,篩選出來大批高質(zhì)量圖文匹配、高美觀度數(shù)據(jù),以補(bǔ)足自動流程缺失能力,幫助基礎(chǔ)模型獲得更好的效果。同時,我們在模型的生成階段,也引入人工的反饋,對模型的語義生成能力和圖片美觀度進(jìn)行評分,篩選出大批量優(yōu)質(zhì)生成的結(jié)果,引入模型當(dāng)做正反饋,實(shí)現(xiàn)數(shù)據(jù)閉環(huán)。更好提升了模型的理解能力和生成能力。
后續(xù)工作與展望
以上四個維度的建設(shè),使得網(wǎng)易伏羲的圖文生成式AI具備較好的中文理解及美觀度表達(dá)能力,在做到與中國用戶“心有靈犀”的工作道路上邁出了第一步。生成式AI技術(shù)革新的序幕剛剛開始拉起,隨著生產(chǎn)力的不斷釋放和新的開源生態(tài)建立,在聯(lián)通算法、數(shù)據(jù)、算力和人的工作上還有很多事情要做。除了持續(xù)優(yōu)化生成效果,對于AI在將來工作流當(dāng)中的價值、已有知識產(chǎn)權(quán)的保護(hù)、AI倫理的規(guī)范遵守等一些問題,也需要持續(xù)的思考和完善。
??????? 目前,網(wǎng)易伏羲正在推進(jìn)中文領(lǐng)域的生成式人工智能平臺-“丹青約”的建設(shè),并攜手集團(tuán)內(nèi)部生態(tài)共同參與藝術(shù)風(fēng)格和算法模型的設(shè)計(jì)和訓(xùn)練。為行業(yè)用戶提供高效微調(diào)適配、低成本模塊化推斷、開源生態(tài)快速集成、生成模型定制加速等完整解決方案,為藝術(shù)家們提供更加靈活的生產(chǎn)力工具,尋找更新的藝術(shù)形態(tài),為推動中文語義理解和科技創(chuàng)新注入新的力量。
這下真是“不安desu”了。
又要到飯了兄弟們!
“我們大部分的煩惱,來自于夢想另一種有可能的人生”。這句話如刀般割破表面的平靜,深入內(nèi)心深處的思考。從過去到現(xiàn)在,每個人或多或少都曾在自己的四疊半空間里難以自拔。這部《四疊半神話大系》正是揭開了屬于年輕人共有的那層焦慮與迷惘。