• <s id="aiiqm"></s>
  • 
    
    • <sup id="aiiqm"></sup>
    • <sup id="aiiqm"></sup>
       

      LSTM之父新作一種新方法邁向自我修正的神經(jīng)網(wǎng)絡(luò)

      發(fā)布時間:2023-03-22 17:14:54  |  來源:互聯(lián)網(wǎng)  


      【資料圖】

      一旦網(wǎng)絡(luò)訓(xùn)練完成,權(quán)重矩陣將永久固定,然后根據(jù)網(wǎng)絡(luò)對測試數(shù)據(jù)的泛化結(jié)果來評估其有效性。但很多環(huán)境在訓(xùn)練后會不斷進(jìn)化,測試數(shù)據(jù)可能會偏離訓(xùn)練,超出神經(jīng)網(wǎng)絡(luò)的泛化能力。這需要人工干預(yù)來重新訓(xùn)練或調(diào)整模型。相反,一個完全自主的系統(tǒng)應(yīng)該學(xué)會根據(jù)新的經(jīng)驗更新自己的程序,而不需要干預(yù)。特別是在多任務(wù)學(xué)習(xí)和元學(xué)習(xí)中,學(xué)習(xí)如何保持模型的更新和微調(diào)是非常重要的,這可以幫助網(wǎng)絡(luò)快速適應(yīng)各種情況和新的挑戰(zhàn)。LSTM之父Jrgen Schmidhuber等人在研究一種學(xué)會自我修改的現(xiàn)代自參照權(quán)重矩陣時,基于更新和生成權(quán)重的現(xiàn)代技術(shù),回顧了20世紀(jì)90年代以來提出的自參照權(quán)重矩陣(self-reference WM),特別是利用快速權(quán)重程序員(FWPs)背景下建立的機制,導(dǎo)出了一種新的自參照權(quán)重矩陣(SRWM)。本研究從以下三個方面對SRWM進(jìn)行了評價:第一,該模型在標(biāo)準(zhǔn)小樣本學(xué)習(xí)中取得了競爭性能,證明了所提出的模型能夠有效地產(chǎn)生有用的自我糾錯;其次,通過將小樣本學(xué)習(xí)設(shè)置擴展到連續(xù)多任務(wù)學(xué)習(xí)設(shè)置,檢驗SRWM適應(yīng)運行時任務(wù)實時變化的能力。最后在ProcGen game environment設(shè)置的多任務(wù)強化學(xué)習(xí)(RL)環(huán)境下進(jìn)行評測,包括編程游戲環(huán)境。總的來說,證明了本文提出的方法的實用性和較強的性能。新的自校正權(quán)重矩陣本文提出的新的自校正權(quán)重矩陣(SRWM)類似于最近提出的FWPs變體。它通過學(xué)習(xí)自己發(fā)明的鍵/值的“訓(xùn)練”模式和學(xué)習(xí)率進(jìn)行自我訓(xùn)練,調(diào)用基于外積和delta函數(shù)更新規(guī)則的基本編程指令。具體步驟如下:給定t時刻的輸入xtRdin,本文中的SRWM WT1 R (dout2 * DIN1) DIN會產(chǎn)生四個變量[yt,qt,kt,t]。其中ytRdout是本層在當(dāng)前時間步的輸出,qtRdin和ktRdin是查詢向量和關(guān)鍵向量,tR是根據(jù)delta函數(shù)使用的自創(chuàng)學(xué)習(xí)率。類似于90年代提出的原始SRWM論文中引入的術(shù)語,ktRdin是修正的鍵向量,表示鍵向量,其當(dāng)前值在SRWM中必須修正;QtRdin是查詢向量,再次發(fā)送給SRWM以檢索新的“值”向量,并將其與修改后的鍵向量相關(guān)聯(lián)。總體動態(tài)可以簡單地表述如下:

      其中值向量有維數(shù):vt,R(dout 2*din 1)。如圖1所示。

      圖1一個“現(xiàn)代”的自指權(quán)矩陣(SRWM)重要的是,SRWM中W0的初始值是這一層中唯一需要梯度下降訓(xùn)練的參數(shù)。在實踐中,本文將矩陣的輸出維數(shù)從“3d 1”(dout 2 * din 1)擴展到“3d 4”(dout 2 * din 4),生成四個不同的自創(chuàng)時變學(xué)習(xí)率tR4,用于WT1=[Wyt1,WQT1,WTK1,W T1在公式(8)中,為了提高計算效率,本文還利用了普通變壓器模型中的多頭計算。上述SRWM可以用來代替任何傳統(tǒng)的權(quán)重矩陣。本文關(guān)注一種模型,該模型可以通過使用相應(yīng)的SRWM公式(5)來獲得

      (8)取代基準(zhǔn)模型DeltaNet中的式(1)-(4)而得到。實驗結(jié)果實驗的總體目標(biāo)是評估所提出的SRWM在各種需要“良好”自我修改類型的任務(wù)上的性能,因此對標(biāo)準(zhǔn)監(jiān)督的小樣本(few-shot)學(xué)習(xí)任務(wù)和在游戲環(huán)境中的多任務(wù)強化學(xué)習(xí)進(jìn)行了實驗。1. 標(biāo)準(zhǔn)小樣本(Few-Shot)學(xué)習(xí)小樣本圖像分類任務(wù)或稱為基于包含C類數(shù)據(jù)集的N-way K-shot圖像分類任務(wù),是通過所謂的場景來組織的。在每一個場景中,從C類中隨機抽取N個不同的類,由此產(chǎn)生的N類被重新標(biāo)記的數(shù)據(jù)集,將N個不同的隨機標(biāo)簽索引中的一個分配給每一個類。對于這N個類中的每一個,隨機抽取K個樣本。由此得到的N×K個標(biāo)簽圖像的集合稱為支持集。該任務(wù)的目標(biāo)是根據(jù)支持集中可用的信息,預(yù)測從N類中的一類中采樣的另一幅圖像(不在支持集中的查詢圖像)的標(biāo)簽。雖然有好幾種方法可以解決這個問題,但本文采用順序?qū)W習(xí)方法來評估本文的SRWM。也就是說,將支持集的圖像/標(biāo)簽對隨機排序,形成一個由序列處理神經(jīng)網(wǎng)絡(luò)(例如,循環(huán)神經(jīng)網(wǎng)絡(luò))讀取的序列。對應(yīng)的神經(jīng)網(wǎng)絡(luò)通過將支持集信息編碼為其內(nèi)部狀態(tài)來預(yù)測查詢圖像的標(biāo)簽。在本文提出的SRWM中,模型在讀取支持集項的序列時生成自己的更新權(quán)重,生成的權(quán)重用于計算對查詢圖像的最終預(yù)測。為了詳細(xì)說明這種方法,還需要解釋如何將輸入圖像/標(biāo)簽對輸入到模型中。這里本文采用Mishra等人使用的方法,稱為圖2所示的同步標(biāo)簽設(shè)置,這是專門為N-way K-shot學(xué)習(xí)設(shè)計的策略。即對支持集中的N×K個項目,同時將輸入及其標(biāo)簽輸送給模型。該模型只預(yù)測第(N×K+1)個輸入的標(biāo)簽,即沒有標(biāo)簽的查詢圖像。本文稱另一種方法為延遲標(biāo)簽設(shè)置(如圖3所示)。事實上,因為Mishra等人提出的SNAIL模型是一個類似于transformer的模型(規(guī)則前饋塊被一維卷積代替),因此將其作為本文實驗的基準(zhǔn)模型,還在基準(zhǔn)模型中引入了Oreshkin等人提出的TADAM方法。然而,本文注意到,TADAM是一種專門為小樣本學(xué)習(xí)設(shè)計的方法,與本文的模型和SNAIL不一樣,SNAIL是適用于小樣本學(xué)習(xí)之外的通用序列處理神經(jīng)網(wǎng)絡(luò)。圖2 N-way K-shot學(xué)習(xí)的同步標(biāo)簽設(shè)置。正確的標(biāo)簽與前N×K個標(biāo)記相應(yīng)的輸入一起作為輸入。只對第(NK+1)個無標(biāo)簽輸入的標(biāo)簽進(jìn)行預(yù)測。圖3 延遲標(biāo)簽設(shè)置。正確的標(biāo)簽在對應(yīng)輸入的后一步被輸入。在每一步進(jìn)行預(yù)測。最終的性能受視覺特征提取器選擇的直接影響,視覺特征提取器使用視覺模型將輸入圖像轉(zhuǎn)換為一個緊湊的特征向量,然后將其提供給序列處理模塊。在這里,本文展示了在這些基準(zhǔn)模型上使用兩種流行特征提取器的結(jié)果:Conv-4和Res-12。結(jié)果如表1所示。總體而言,所提出的SRWM性能良好。將SRWM與一般的SNAIL模型進(jìn)行比較,SRWM在Mini-ImageNet2上實現(xiàn)了獨立于視覺后端(Conv-4或Res12)的具有競爭力的性能。DeltaNet和SRWM具有相似的性能。這是一個令人滿意的結(jié)果,因為它表明單個自修正的WM(而不是單獨的慢速和快速網(wǎng)絡(luò))在這個單一任務(wù)場景中仍然具有競爭力。表1 在Omniglot、Mini-ImageNet和FC100上使用Conv4或Res-12視覺特征提取器進(jìn)行單任務(wù)、 5-way、小樣本分類測試準(zhǔn)確率(%)。本文發(fā)現(xiàn)雖然TADAM在 5-shot Mini-ImageNet上的表現(xiàn)優(yōu)于SRWM,但在1-shot、5-shot FC100以及 1-shot MiniImangeNet上的性能與SRWM不相上下。盡管SRWM是一種非常通用的方法,但它的整體性能非常具有競爭力,這表明了所提出的自我修正權(quán)重矩陣的有效性(本實驗的主要目標(biāo))。2. 連續(xù)的多任務(wù)適應(yīng)性本節(jié)需要在運行時適應(yīng)環(huán)境變化的任務(wù)上測試它的自適應(yīng)性。本文對上述小樣本學(xué)習(xí)進(jìn)行了兩個修改。首先,不使用同步標(biāo)簽設(shè)置(圖2)對模型進(jìn)行N-way K-shot分類的專門訓(xùn)練,而是在如圖3所示的延遲標(biāo)簽設(shè)置中訓(xùn)練本文的模型。此處,模型在每個時間步下,通過接收一個需要分類的輸入圖像和前一個輸入的正確標(biāo)簽(因此標(biāo)簽輸送被移動/延遲一個時間步)來做出預(yù)測。這種設(shè)置便于在連續(xù)的預(yù)測/解決方案流上評估模型。其次,通過將來自兩個不同數(shù)據(jù)集的兩個圖像序列(Omniglot和Mini-ImageNet)串聯(lián)起來,構(gòu)造出要預(yù)測的圖像序列。該模型首先接收來自其中一個數(shù)據(jù)集的圖像流,在某個時刻,使數(shù)據(jù)集突然發(fā)生變化,以模擬環(huán)境的變化。模型必須學(xué)會在沒有人為干預(yù)的情況下,在程序的持續(xù)執(zhí)行中適應(yīng)這種轉(zhuǎn)變。注意,本文的目標(biāo)是構(gòu)造一個任務(wù),它需要適應(yīng)模型運行期間的突然變化。這不同于連續(xù)的小樣本學(xué)習(xí)的目標(biāo),即在多個小樣本學(xué)習(xí)任務(wù)上連續(xù)進(jìn)行元學(xué)習(xí)。因此,本文在一個5-way分類設(shè)置中進(jìn)行實驗,將Omniglot和Mini-ImageNet片段串聯(lián)起來,每個片段中的每個類包含多達(dá)15個示例。每個batch的連接順序是交替的,訓(xùn)練片段的長度是隨機裁剪的。無論模型類型如何,本文發(fā)現(xiàn)延遲標(biāo)簽設(shè)置下的訓(xùn)練模型比同步標(biāo)簽設(shè)置下的訓(xùn)練模型更難。本文觀察到,在許多配置中,模型被卡在一個次優(yōu)行為中,在這個行為中,它學(xué)習(xí)提高了零樣本(zero-shot)的類平均精度(顯然是通過學(xué)習(xí)輸出序列中第一次出現(xiàn)的新類的一個未使用的標(biāo)簽),但在反饋中的每一步中都不能正確地學(xué)習(xí)。本文確定的最關(guān)鍵的超參數(shù)是足夠大的批處理大小。最后,本文在這個連續(xù)自適應(yīng)任務(wù)上成功的訓(xùn)練了DeltaNet基準(zhǔn)模型和SRWM。圖4顯示了SRWM的測試時間精度隨著輸入的增加而變化的情況。在這個測試設(shè)置中,模型從接收來自O(shè)mniglot數(shù)據(jù)集的一系列樣本開始。在第74代任務(wù)發(fā)生變化;此時模型必須對從Mini-ImageNet數(shù)據(jù)集采樣的圖像進(jìn)行分類。這個變化導(dǎo)致模型的準(zhǔn)確率明顯下降,這是因為模型不知道新的數(shù)據(jù)點屬于哪個類,但它能夠有效地適應(yīng)自己,開始學(xué)習(xí)第二個任務(wù)。表2比較了DeltaNet和SRWM。雖然他們在基于Omniglot的測試序列的第一部分的表現(xiàn)相似,SRWM在Mini-ImageNet的第二部分采樣中實現(xiàn)了更高的精度,顯示了其快速適應(yīng)能力。圖4 基于SRWM的測試精度(%)(使用Conv4后端),該模型作為連續(xù)多任務(wù)適應(yīng)設(shè)置中轉(zhuǎn)發(fā)步驟數(shù)量的函數(shù)(第4.2節(jié))。數(shù)據(jù)點流以延遲標(biāo)簽的方式提供給模型(圖3)。數(shù)據(jù)點從Omniglot進(jìn)行采樣直到第74步(精度下降),然后從Mini-ImageNet采樣。表2 連續(xù)多任務(wù)小樣本學(xué)習(xí)實驗的總準(zhǔn)確率和實例級準(zhǔn)確率(%)(第4.2節(jié))。對于實例級精度,列k∈{1,2,3,5,10}表示每個類中第k個實例的正確預(yù)測百分比。測試時間的場景下的模型首先被要求學(xué)習(xí)預(yù)測Omniglot和Mini-ImageNet。Conv4后端用于兩種模型。3.多任務(wù)強化學(xué)習(xí)(RL)最后,本文在采用程序生成的ProcGen游戲環(huán)境設(shè)置的多任務(wù)RL上評估所提出的模型。相應(yīng)的設(shè)置如圖5所示。圖5 多任務(wù)RL的插圖。初始權(quán)矩陣W0對所有任務(wù)和場景是相同的。有效的權(quán)重矩陣是特定任務(wù)/事件的輸入流的函數(shù)。表3展示了聚合的標(biāo)準(zhǔn)化分?jǐn)?shù)。相較于基準(zhǔn)模型,SRWM性能的提高在Bigfish和Starpilot這兩個環(huán)境尤其大。本文對這兩個案例進(jìn)行單獨研究。如表所示,本文將上述多任務(wù)訓(xùn)練與專門在一個環(huán)境下訓(xùn)練50M步的專家訓(xùn)練進(jìn)行了比較。在Starpilot上,本文觀察到自我修正機制甚至在單個任務(wù)情況下也有改進(jìn)。Bigfish的例子更有趣:在專家訓(xùn)練案例中,具有自我修正能力和不具有自我修正能力的模型性能接近。然而,自我修正模型在多任務(wù)設(shè)置中獲得了更好的分?jǐn)?shù),在多任務(wù)設(shè)置中,基準(zhǔn)模型的性能有很大的幅度的下降。這驗證了SRWM能夠適應(yīng)多任務(wù)場景中每個環(huán)境的能力。表4 多任務(wù)與專家訓(xùn)練模型性能的比較。在ProcGen的簡單分布中獲得的原始分?jǐn)?shù)。作為消融研究,本文通過在每個固定時間跨度(其長度為反向傳播跨度)后重置權(quán)重更新來訓(xùn)練和評估SRWM。相比較那些沒有自我修正的模型(表3)而未能利用SRWM機制模型,該模型在訓(xùn)練和測試分支上分別獲得28.5(1.2)和16.1(2.2)的分?jǐn)?shù)。三個實驗中,證明了本文提出的SRWM是實用的,并且在有監(jiān)督的小樣本學(xué)習(xí)和多任務(wù)強化學(xué)習(xí),以及程序生成的游戲環(huán)境表現(xiàn)良好。希望本文的結(jié)果可以鼓勵對自我修正神經(jīng)網(wǎng)絡(luò)的進(jìn)一步研究。

      關(guān)鍵詞:

       

      關(guān)于我們 - 聯(lián)系我們 - 版權(quán)聲明 - 招聘信息 - 友鏈交換

      2014-2020  電腦商網(wǎng) 版權(quán)所有. All Rights Reserved.

      備案號:京ICP備2022022245號-1 未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復(fù)制.

      聯(lián)系我們:435 226 40@qq.com

      国内精品一区视频在线播放,嫩草影视在线观看,天天久久狠狠伊人第一麻豆,波多野结衣视频免费看
    • <s id="aiiqm"></s>
    • 
      
      • <sup id="aiiqm"></sup>
      • <sup id="aiiqm"></sup>
        主站蜘蛛池模板: 新婚熄与翁公试婚小说| 美女破处在线观看| 91九色视频无限观看免费| 欧美激情久久久久久久久| 在线视频免费观看a毛片| 伊人不卡久久大香线蕉综合影院 | 99久re热视频这里只有精品6| 福利在线小视频| 好男人视频社区精品免费| 动漫人物差差差动漫网站| 一区二区不卡久久精品| 男女性爽大片视频男女生活| 天天操天天射天天| 亚洲男女一区二区三区| 4480yy私人影院论| 欧美与黑人午夜性猛交久久久 | 免费va人成视频网站全| a拍拍男女免费看全片| 涩涩高清无乱码在线观看| 国内自拍成人网在线视频 | 一级毛片免费播放视频| 精品久久久久久亚洲综合网| 女人自慰AA大片| 亚洲熟妇无码乱子av电影| 19日本人xxxxwww| 日韩黄色一级大片| 国产三级在线观看完整版| 一级特黄录像绵费播放| 特级毛片a级毛片在线播放www| 国精品无码一区二区三区在线蜜臀| 亚洲国产精品综合久久2007| 免费看片在线观看| 无码欧精品亚洲日韩一区| 动漫裸男露ji无遮挡网站| 99热精品久久只有精品30| 欧美午夜成年片在线观看| 国产影片中文字幕| 中文全彩漫画爆乳| 波多野给衣一区二区三区| 国产精品h在线观看| 久久久久久夜精品精品免费啦|