【資料圖】
一旦網(wǎng)絡(luò)訓(xùn)練完成,權(quán)重矩陣將永久固定,然后根據(jù)網(wǎng)絡(luò)對(duì)測(cè)試數(shù)據(jù)的泛化結(jié)果來(lái)評(píng)估其有效性。但很多環(huán)境在訓(xùn)練后會(huì)不斷進(jìn)化,測(cè)試數(shù)據(jù)可能會(huì)偏離訓(xùn)練,超出神經(jīng)網(wǎng)絡(luò)的泛化能力。這需要人工干預(yù)來(lái)重新訓(xùn)練或調(diào)整模型。相反,一個(gè)完全自主的系統(tǒng)應(yīng)該學(xué)會(huì)根據(jù)新的經(jīng)驗(yàn)更新自己的程序,而不需要干預(yù)。特別是在多任務(wù)學(xué)習(xí)和元學(xué)習(xí)中,學(xué)習(xí)如何保持模型的更新和微調(diào)是非常重要的,這可以幫助網(wǎng)絡(luò)快速適應(yīng)各種情況和新的挑戰(zhàn)。LSTM之父Jrgen Schmidhuber等人在研究一種學(xué)會(huì)自我修改的現(xiàn)代自參照權(quán)重矩陣時(shí),基于更新和生成權(quán)重的現(xiàn)代技術(shù),回顧了20世紀(jì)90年代以來(lái)提出的自參照權(quán)重矩陣(self-reference WM),特別是利用快速權(quán)重程序員(FWPs)背景下建立的機(jī)制,導(dǎo)出了一種新的自參照權(quán)重矩陣(SRWM)。本研究從以下三個(gè)方面對(duì)SRWM進(jìn)行了評(píng)價(jià):第一,該模型在標(biāo)準(zhǔn)小樣本學(xué)習(xí)中取得了競(jìng)爭(zhēng)性能,證明了所提出的模型能夠有效地產(chǎn)生有用的自我糾錯(cuò);其次,通過(guò)將小樣本學(xué)習(xí)設(shè)置擴(kuò)展到連續(xù)多任務(wù)學(xué)習(xí)設(shè)置,檢驗(yàn)SRWM適應(yīng)運(yùn)行時(shí)任務(wù)實(shí)時(shí)變化的能力。最后在ProcGen game environment設(shè)置的多任務(wù)強(qiáng)化學(xué)習(xí)(RL)環(huán)境下進(jìn)行評(píng)測(cè),包括編程游戲環(huán)境??偟膩?lái)說(shuō),證明了本文提出的方法的實(shí)用性和較強(qiáng)的性能。新的自校正權(quán)重矩陣本文提出的新的自校正權(quán)重矩陣(SRWM)類(lèi)似于最近提出的FWPs變體。它通過(guò)學(xué)習(xí)自己發(fā)明的鍵/值的“訓(xùn)練”模式和學(xué)習(xí)率進(jìn)行自我訓(xùn)練,調(diào)用基于外積和delta函數(shù)更新規(guī)則的基本編程指令。具體步驟如下:給定t時(shí)刻的輸入xtRdin,本文中的SRWM WT1 R (dout2 * DIN1) DIN會(huì)產(chǎn)生四個(gè)變量[yt,qt,kt,t]。其中ytRdout是本層在當(dāng)前時(shí)間步的輸出,qtRdin和ktRdin是查詢(xún)向量和關(guān)鍵向量,tR是根據(jù)delta函數(shù)使用的自創(chuàng)學(xué)習(xí)率。類(lèi)似于90年代提出的原始SRWM論文中引入的術(shù)語(yǔ),ktRdin是修正的鍵向量,表示鍵向量,其當(dāng)前值在SRWM中必須修正;QtRdin是查詢(xún)向量,再次發(fā)送給SRWM以檢索新的“值”向量,并將其與修改后的鍵向量相關(guān)聯(lián)??傮w動(dòng)態(tài)可以簡(jiǎn)單地表述如下:
其中值向量有維數(shù):vt,R(dout 2*din 1)。如圖1所示。
圖1一個(gè)“現(xiàn)代”的自指權(quán)矩陣(SRWM)重要的是,SRWM中W0的初始值是這一層中唯一需要梯度下降訓(xùn)練的參數(shù)。在實(shí)踐中,本文將矩陣的輸出維數(shù)從“3d 1”(dout 2 * din 1)擴(kuò)展到“3d 4”(dout 2 * din 4),生成四個(gè)不同的自創(chuàng)時(shí)變學(xué)習(xí)率tR4,用于WT1=[Wyt1,WQT1,WTK1,W T1在公式(8)中,為了提高計(jì)算效率,本文還利用了普通變壓器模型中的多頭計(jì)算。上述SRWM可以用來(lái)代替任何傳統(tǒng)的權(quán)重矩陣。本文關(guān)注一種模型,該模型可以通過(guò)使用相應(yīng)的SRWM公式(5)來(lái)獲得
(8)取代基準(zhǔn)模型DeltaNet中的式(1)-(4)而得到。實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)的總體目標(biāo)是評(píng)估所提出的SRWM在各種需要“良好”自我修改類(lèi)型的任務(wù)上的性能,因此對(duì)標(biāo)準(zhǔn)監(jiān)督的小樣本(few-shot)學(xué)習(xí)任務(wù)和在游戲環(huán)境中的多任務(wù)強(qiáng)化學(xué)習(xí)進(jìn)行了實(shí)驗(yàn)。1. 標(biāo)準(zhǔn)小樣本(Few-Shot)學(xué)習(xí)小樣本圖像分類(lèi)任務(wù)或稱(chēng)為基于包含C類(lèi)數(shù)據(jù)集的N-way K-shot圖像分類(lèi)任務(wù),是通過(guò)所謂的場(chǎng)景來(lái)組織的。在每一個(gè)場(chǎng)景中,從C類(lèi)中隨機(jī)抽取N個(gè)不同的類(lèi),由此產(chǎn)生的N類(lèi)被重新標(biāo)記的數(shù)據(jù)集,將N個(gè)不同的隨機(jī)標(biāo)簽索引中的一個(gè)分配給每一個(gè)類(lèi)。對(duì)于這N個(gè)類(lèi)中的每一個(gè),隨機(jī)抽取K個(gè)樣本。由此得到的N×K個(gè)標(biāo)簽圖像的集合稱(chēng)為支持集。該任務(wù)的目標(biāo)是根據(jù)支持集中可用的信息,預(yù)測(cè)從N類(lèi)中的一類(lèi)中采樣的另一幅圖像(不在支持集中的查詢(xún)圖像)的標(biāo)簽。雖然有好幾種方法可以解決這個(gè)問(wèn)題,但本文采用順序?qū)W習(xí)方法來(lái)評(píng)估本文的SRWM。也就是說(shuō),將支持集的圖像/標(biāo)簽對(duì)隨機(jī)排序,形成一個(gè)由序列處理神經(jīng)網(wǎng)絡(luò)(例如,循環(huán)神經(jīng)網(wǎng)絡(luò))讀取的序列。對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)通過(guò)將支持集信息編碼為其內(nèi)部狀態(tài)來(lái)預(yù)測(cè)查詢(xún)圖像的標(biāo)簽。在本文提出的SRWM中,模型在讀取支持集項(xiàng)的序列時(shí)生成自己的更新權(quán)重,生成的權(quán)重用于計(jì)算對(duì)查詢(xún)圖像的最終預(yù)測(cè)。為了詳細(xì)說(shuō)明這種方法,還需要解釋如何將輸入圖像/標(biāo)簽對(duì)輸入到模型中。這里本文采用Mishra等人使用的方法,稱(chēng)為圖2所示的同步標(biāo)簽設(shè)置,這是專(zhuān)門(mén)為N-way K-shot學(xué)習(xí)設(shè)計(jì)的策略。即對(duì)支持集中的N×K個(gè)項(xiàng)目,同時(shí)將輸入及其標(biāo)簽輸送給模型。該模型只預(yù)測(cè)第(N×K+1)個(gè)輸入的標(biāo)簽,即沒(méi)有標(biāo)簽的查詢(xún)圖像。本文稱(chēng)另一種方法為延遲標(biāo)簽設(shè)置(如圖3所示)。事實(shí)上,因?yàn)镸ishra等人提出的SNAIL模型是一個(gè)類(lèi)似于transformer的模型(規(guī)則前饋塊被一維卷積代替),因此將其作為本文實(shí)驗(yàn)的基準(zhǔn)模型,還在基準(zhǔn)模型中引入了Oreshkin等人提出的TADAM方法。然而,本文注意到,TADAM是一種專(zhuān)門(mén)為小樣本學(xué)習(xí)設(shè)計(jì)的方法,與本文的模型和SNAIL不一樣,SNAIL是適用于小樣本學(xué)習(xí)之外的通用序列處理神經(jīng)網(wǎng)絡(luò)。圖2 N-way K-shot學(xué)習(xí)的同步標(biāo)簽設(shè)置。正確的標(biāo)簽與前N×K個(gè)標(biāo)記相應(yīng)的輸入一起作為輸入。只對(duì)第(NK+1)個(gè)無(wú)標(biāo)簽輸入的標(biāo)簽進(jìn)行預(yù)測(cè)。圖3 延遲標(biāo)簽設(shè)置。正確的標(biāo)簽在對(duì)應(yīng)輸入的后一步被輸入。在每一步進(jìn)行預(yù)測(cè)。最終的性能受視覺(jué)特征提取器選擇的直接影響,視覺(jué)特征提取器使用視覺(jué)模型將輸入圖像轉(zhuǎn)換為一個(gè)緊湊的特征向量,然后將其提供給序列處理模塊。在這里,本文展示了在這些基準(zhǔn)模型上使用兩種流行特征提取器的結(jié)果:Conv-4和Res-12。結(jié)果如表1所示??傮w而言,所提出的SRWM性能良好。將SRWM與一般的SNAIL模型進(jìn)行比較,SRWM在Mini-ImageNet2上實(shí)現(xiàn)了獨(dú)立于視覺(jué)后端(Conv-4或Res12)的具有競(jìng)爭(zhēng)力的性能。DeltaNet和SRWM具有相似的性能。這是一個(gè)令人滿(mǎn)意的結(jié)果,因?yàn)樗砻鲉蝹€(gè)自修正的WM(而不是單獨(dú)的慢速和快速網(wǎng)絡(luò))在這個(gè)單一任務(wù)場(chǎng)景中仍然具有競(jìng)爭(zhēng)力。表1 在Omniglot、Mini-ImageNet和FC100上使用Conv4或Res-12視覺(jué)特征提取器進(jìn)行單任務(wù)、 5-way、小樣本分類(lèi)測(cè)試準(zhǔn)確率(%)。本文發(fā)現(xiàn)雖然TADAM在 5-shot Mini-ImageNet上的表現(xiàn)優(yōu)于SRWM,但在1-shot、5-shot FC100以及 1-shot MiniImangeNet上的性能與SRWM不相上下。盡管SRWM是一種非常通用的方法,但它的整體性能非常具有競(jìng)爭(zhēng)力,這表明了所提出的自我修正權(quán)重矩陣的有效性(本實(shí)驗(yàn)的主要目標(biāo))。2. 連續(xù)的多任務(wù)適應(yīng)性本節(jié)需要在運(yùn)行時(shí)適應(yīng)環(huán)境變化的任務(wù)上測(cè)試它的自適應(yīng)性。本文對(duì)上述小樣本學(xué)習(xí)進(jìn)行了兩個(gè)修改。首先,不使用同步標(biāo)簽設(shè)置(圖2)對(duì)模型進(jìn)行N-way K-shot分類(lèi)的專(zhuān)門(mén)訓(xùn)練,而是在如圖3所示的延遲標(biāo)簽設(shè)置中訓(xùn)練本文的模型。此處,模型在每個(gè)時(shí)間步下,通過(guò)接收一個(gè)需要分類(lèi)的輸入圖像和前一個(gè)輸入的正確標(biāo)簽(因此標(biāo)簽輸送被移動(dòng)/延遲一個(gè)時(shí)間步)來(lái)做出預(yù)測(cè)。這種設(shè)置便于在連續(xù)的預(yù)測(cè)/解決方案流上評(píng)估模型。其次,通過(guò)將來(lái)自?xún)蓚€(gè)不同數(shù)據(jù)集的兩個(gè)圖像序列(Omniglot和Mini-ImageNet)串聯(lián)起來(lái),構(gòu)造出要預(yù)測(cè)的圖像序列。該模型首先接收來(lái)自其中一個(gè)數(shù)據(jù)集的圖像流,在某個(gè)時(shí)刻,使數(shù)據(jù)集突然發(fā)生變化,以模擬環(huán)境的變化。模型必須學(xué)會(huì)在沒(méi)有人為干預(yù)的情況下,在程序的持續(xù)執(zhí)行中適應(yīng)這種轉(zhuǎn)變。注意,本文的目標(biāo)是構(gòu)造一個(gè)任務(wù),它需要適應(yīng)模型運(yùn)行期間的突然變化。這不同于連續(xù)的小樣本學(xué)習(xí)的目標(biāo),即在多個(gè)小樣本學(xué)習(xí)任務(wù)上連續(xù)進(jìn)行元學(xué)習(xí)。因此,本文在一個(gè)5-way分類(lèi)設(shè)置中進(jìn)行實(shí)驗(yàn),將Omniglot和Mini-ImageNet片段串聯(lián)起來(lái),每個(gè)片段中的每個(gè)類(lèi)包含多達(dá)15個(gè)示例。每個(gè)batch的連接順序是交替的,訓(xùn)練片段的長(zhǎng)度是隨機(jī)裁剪的。無(wú)論模型類(lèi)型如何,本文發(fā)現(xiàn)延遲標(biāo)簽設(shè)置下的訓(xùn)練模型比同步標(biāo)簽設(shè)置下的訓(xùn)練模型更難。本文觀(guān)察到,在許多配置中,模型被卡在一個(gè)次優(yōu)行為中,在這個(gè)行為中,它學(xué)習(xí)提高了零樣本(zero-shot)的類(lèi)平均精度(顯然是通過(guò)學(xué)習(xí)輸出序列中第一次出現(xiàn)的新類(lèi)的一個(gè)未使用的標(biāo)簽),但在反饋中的每一步中都不能正確地學(xué)習(xí)。本文確定的最關(guān)鍵的超參數(shù)是足夠大的批處理大小。最后,本文在這個(gè)連續(xù)自適應(yīng)任務(wù)上成功的訓(xùn)練了DeltaNet基準(zhǔn)模型和SRWM。圖4顯示了SRWM的測(cè)試時(shí)間精度隨著輸入的增加而變化的情況。在這個(gè)測(cè)試設(shè)置中,模型從接收來(lái)自O(shè)mniglot數(shù)據(jù)集的一系列樣本開(kāi)始。在第74代任務(wù)發(fā)生變化;此時(shí)模型必須對(duì)從Mini-ImageNet數(shù)據(jù)集采樣的圖像進(jìn)行分類(lèi)。這個(gè)變化導(dǎo)致模型的準(zhǔn)確率明顯下降,這是因?yàn)槟P筒恢佬碌臄?shù)據(jù)點(diǎn)屬于哪個(gè)類(lèi),但它能夠有效地適應(yīng)自己,開(kāi)始學(xué)習(xí)第二個(gè)任務(wù)。表2比較了DeltaNet和SRWM。雖然他們?cè)诨贠mniglot的測(cè)試序列的第一部分的表現(xiàn)相似,SRWM在Mini-ImageNet的第二部分采樣中實(shí)現(xiàn)了更高的精度,顯示了其快速適應(yīng)能力。圖4 基于SRWM的測(cè)試精度(%)(使用Conv4后端),該模型作為連續(xù)多任務(wù)適應(yīng)設(shè)置中轉(zhuǎn)發(fā)步驟數(shù)量的函數(shù)(第4.2節(jié))。數(shù)據(jù)點(diǎn)流以延遲標(biāo)簽的方式提供給模型(圖3)。數(shù)據(jù)點(diǎn)從Omniglot進(jìn)行采樣直到第74步(精度下降),然后從Mini-ImageNet采樣。表2 連續(xù)多任務(wù)小樣本學(xué)習(xí)實(shí)驗(yàn)的總準(zhǔn)確率和實(shí)例級(jí)準(zhǔn)確率(%)(第4.2節(jié))。對(duì)于實(shí)例級(jí)精度,列k∈{1,2,3,5,10}表示每個(gè)類(lèi)中第k個(gè)實(shí)例的正確預(yù)測(cè)百分比。測(cè)試時(shí)間的場(chǎng)景下的模型首先被要求學(xué)習(xí)預(yù)測(cè)Omniglot和Mini-ImageNet。Conv4后端用于兩種模型。3.多任務(wù)強(qiáng)化學(xué)習(xí)(RL)最后,本文在采用程序生成的ProcGen游戲環(huán)境設(shè)置的多任務(wù)RL上評(píng)估所提出的模型。相應(yīng)的設(shè)置如圖5所示。圖5 多任務(wù)RL的插圖。初始權(quán)矩陣W0對(duì)所有任務(wù)和場(chǎng)景是相同的。有效的權(quán)重矩陣是特定任務(wù)/事件的輸入流的函數(shù)。表3展示了聚合的標(biāo)準(zhǔn)化分?jǐn)?shù)。相較于基準(zhǔn)模型,SRWM性能的提高在Bigfish和Starpilot這兩個(gè)環(huán)境尤其大。本文對(duì)這兩個(gè)案例進(jìn)行單獨(dú)研究。如表所示,本文將上述多任務(wù)訓(xùn)練與專(zhuān)門(mén)在一個(gè)環(huán)境下訓(xùn)練50M步的專(zhuān)家訓(xùn)練進(jìn)行了比較。在Starpilot上,本文觀(guān)察到自我修正機(jī)制甚至在單個(gè)任務(wù)情況下也有改進(jìn)。Bigfish的例子更有趣:在專(zhuān)家訓(xùn)練案例中,具有自我修正能力和不具有自我修正能力的模型性能接近。然而,自我修正模型在多任務(wù)設(shè)置中獲得了更好的分?jǐn)?shù),在多任務(wù)設(shè)置中,基準(zhǔn)模型的性能有很大的幅度的下降。這驗(yàn)證了SRWM能夠適應(yīng)多任務(wù)場(chǎng)景中每個(gè)環(huán)境的能力。表4 多任務(wù)與專(zhuān)家訓(xùn)練模型性能的比較。在ProcGen的簡(jiǎn)單分布中獲得的原始分?jǐn)?shù)。作為消融研究,本文通過(guò)在每個(gè)固定時(shí)間跨度(其長(zhǎng)度為反向傳播跨度)后重置權(quán)重更新來(lái)訓(xùn)練和評(píng)估SRWM。相比較那些沒(méi)有自我修正的模型(表3)而未能利用SRWM機(jī)制模型,該模型在訓(xùn)練和測(cè)試分支上分別獲得28.5(1.2)和16.1(2.2)的分?jǐn)?shù)。三個(gè)實(shí)驗(yàn)中,證明了本文提出的SRWM是實(shí)用的,并且在有監(jiān)督的小樣本學(xué)習(xí)和多任務(wù)強(qiáng)化學(xué)習(xí),以及程序生成的游戲環(huán)境表現(xiàn)良好。希望本文的結(jié)果可以鼓勵(lì)對(duì)自我修正神經(jīng)網(wǎng)絡(luò)的進(jìn)一步研究。關(guān)鍵詞:



