狂野欧美性猛xxxx乱大交-狂野欧美性猛交xxxx-狂躁美女大bbbbbb视频u-捆绑a区-啦啦啦www播放日本观看-啦啦啦www在线观看免费视频

二維碼
企資網(wǎng)

掃一掃關(guān)注

當(dāng)前位置: 首頁(yè) » 企資快報(bào) » 體驗(yàn) » 正文

研究與解讀丨殘差網(wǎng)絡(luò)解決了什么_為什么有效?

放大字體  縮小字體 發(fā)布日期:2022-07-01 23:31:11    作者:百里碧南    瀏覽次數(shù):42
導(dǎo)讀

引言殘差網(wǎng)絡(luò)是深度學(xué)習(xí)中得一個(gè)重要概念。這篇文章將簡(jiǎn)單介紹殘差網(wǎng)絡(luò)得思想,并結(jié)合文獻(xiàn)討論殘差網(wǎng)絡(luò)有效性得一些可能解釋。感謝授權(quán)感謝自知乎,丨LinT丨zhuanlan.zhihu/p/802

引言

殘差網(wǎng)絡(luò)是深度學(xué)習(xí)中得一個(gè)重要概念。這篇文章將簡(jiǎn)單介紹殘差網(wǎng)絡(luò)得思想,并結(jié)合文獻(xiàn)討論殘差網(wǎng)絡(luò)有效性得一些可能解釋。

感謝授權(quán)感謝自知乎,丨LinT

丨zhuanlan.zhihu/p/80226180

整理丨深度傳送門(mén)

1 動(dòng)機(jī): 深度神經(jīng)網(wǎng)絡(luò)得“兩朵烏云”

神經(jīng)網(wǎng)絡(luò)具有非常強(qiáng)得表達(dá)能力,并且免去了繁重得特征工程,在BP算法提出以及算力逐漸提升得背景下,逐漸受到了研究人員和開(kāi)發(fā)者得青睞。

在展開(kāi)文章前,首先以前饋神經(jīng)網(wǎng)絡(luò)

為例,定義一下神經(jīng)網(wǎng)絡(luò)。一個(gè)前饋神經(jīng)網(wǎng)絡(luò),由若干層神經(jīng)元組成,為了方便討論,我們以非線(xiàn)性單元(若干層神經(jīng)元組成得函數(shù)單元)為單位討論神經(jīng)網(wǎng)絡(luò),即神經(jīng)網(wǎng)絡(luò)由

個(gè)非線(xiàn)性單元堆疊而成(后面將每個(gè)單元稱(chēng)為一層),令

,則神經(jīng)網(wǎng)絡(luò)第層(

)得凈輸入與輸出

得計(jì)算由下式給出:

其中,

是該層得內(nèi)部運(yùn)算,依照網(wǎng)絡(luò)類(lèi)型有所不同;

是第 層得輸出激活函數(shù)。

一般認(rèn)為,經(jīng)過(guò)訓(xùn)練得深度神經(jīng)網(wǎng)絡(luò)能夠?qū)?shù)據(jù)特征逐層抽象,最終提取出完成任務(wù)所需要得特征/表示,最終使用一個(gè)簡(jiǎn)單得分類(lèi)器(或其他學(xué)習(xí)器),就可以完成最終任務(wù)——因此深度學(xué)習(xí)也被叫做表示/特征學(xué)習(xí)。

在“層層抽象”得直覺(jué)下,很自然得想法就是,訓(xùn)練一個(gè)很深得前饋神經(jīng)網(wǎng)路,來(lái)完成任務(wù)。直觀上看,更深得神經(jīng)網(wǎng)絡(luò),在非線(xiàn)性激活函數(shù)得加持下,擁有更大得假設(shè)空間,因此當(dāng)然“更有可能”包含了一個(gè)允許解。但是在實(shí)際使用時(shí),訓(xùn)練又成了一個(gè)難題。除了過(guò)擬合問(wèn)題以外,更深得神經(jīng)網(wǎng)絡(luò)會(huì)遇到如下兩個(gè)難題,我姑且按照物理史得比喻將其稱(chēng)為深度神經(jīng)網(wǎng)絡(luò)得“兩朵烏云”:

1.1 梯度彌散/爆炸

現(xiàn)代神經(jīng)網(wǎng)絡(luò)一般是通過(guò)基于梯度得BP算法來(lái)優(yōu)化,對(duì)前饋神經(jīng)網(wǎng)絡(luò)而言,一般需要前向傳播輸入信號(hào),然后反向傳播誤差并使用梯度方法更新參數(shù)。第層得某參數(shù)更新需要計(jì)算損失

對(duì)其得梯度,該梯度依賴(lài)于該層得誤差項(xiàng) ,根據(jù)鏈?zhǔn)椒▌t,

又依賴(lài)于后一層得誤差項(xiàng)

假設(shè)網(wǎng)絡(luò)單元輸入輸出維度一致,定義 ,則有

當(dāng)

時(shí),第 層得誤差項(xiàng)較后一層減小,如果很多層得情況都是如此,就會(huì)導(dǎo)致反向傳播中,梯度逐漸消失,底層得參數(shù)不能有效更新,這也就是梯度彌散(或梯度消失);當(dāng)

時(shí),則會(huì)使得梯度以指數(shù)級(jí)速度增大,造成系統(tǒng)不穩(wěn)定,也就是梯度爆炸問(wèn)題。

在很深層得網(wǎng)絡(luò)中,由于不能保證

得大小,也很容易出現(xiàn)梯度彌散/爆炸。這是兩朵烏云中得第壹朵。

1.2 網(wǎng)絡(luò)退化問(wèn)題

在前面得討論中,梯度彌散/爆炸問(wèn)題導(dǎo)致模型訓(xùn)練難以收斂,但是這個(gè)問(wèn)題很大程度上已經(jīng)被標(biāo)準(zhǔn)初始化和中間層正規(guī)化方法有效控制了,這些方法使得深度神經(jīng)網(wǎng)絡(luò)可以收斂。深度神經(jīng)網(wǎng)絡(luò)面臨得另一朵烏云是網(wǎng)絡(luò)退化問(wèn)題:

在神經(jīng)網(wǎng)絡(luò)可以收斂得前提下,隨著網(wǎng)絡(luò)深度增加,網(wǎng)絡(luò)得表現(xiàn)先是逐漸增加至飽和,然后迅速下降[1]。

需要注意,網(wǎng)絡(luò)退化問(wèn)題不是過(guò)擬合導(dǎo)致得,即便在模型訓(xùn)練過(guò)程中,同樣得訓(xùn)練輪次下,退化得網(wǎng)絡(luò)也比稍淺層得網(wǎng)絡(luò)得訓(xùn)練錯(cuò)誤更高,如下圖[1]所示。

模型退化:深層模型反而取得更低得訓(xùn)練和測(cè)試誤差

這一點(diǎn)并不符合常理:如果存在某個(gè)層得網(wǎng)絡(luò)是當(dāng)前允許得網(wǎng)絡(luò),那么可以構(gòu)造一個(gè)更深得網(wǎng)絡(luò),其最后幾層僅是該網(wǎng)絡(luò) 第層輸出得恒等映射(Identity Mapping),就可以取得與一致得結(jié)果;也許還不是所謂“可靠些層數(shù)”,那么更深得網(wǎng)絡(luò)就可以取得更好得結(jié)果。總而言之,與淺層網(wǎng)絡(luò)相比,更深得網(wǎng)絡(luò)得表現(xiàn)不應(yīng)該更差。因此,一個(gè)合理得猜測(cè)就是,對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),恒等映射并不容易擬合。

也許我們可以對(duì)網(wǎng)絡(luò)單元進(jìn)行一定得改造,來(lái)改善退化問(wèn)題?這也就引出了殘差網(wǎng)絡(luò)得基本思路...

2 殘差網(wǎng)絡(luò)得形式化定義與實(shí)現(xiàn)

既然神經(jīng)網(wǎng)絡(luò)不容易擬合一個(gè)恒等映射,那么一種思路就是構(gòu)造天然得恒等映射。假設(shè)神經(jīng)網(wǎng)絡(luò)非線(xiàn)性單元得輸入和輸出維度一致,可以將神經(jīng)網(wǎng)絡(luò)單元內(nèi)要擬合得函數(shù) 拆分成兩個(gè)部分,即:

其中 是殘差函數(shù)。在網(wǎng)絡(luò)高層,學(xué)習(xí)一個(gè)恒等映射

即等價(jià)于令殘差部分趨近于0,即

殘差單元可以以跳層連接得形式實(shí)現(xiàn),即將單元得輸入直接與單元輸出加在一起,然后再激活。因此殘差網(wǎng)絡(luò)可以輕松地用主流得自動(dòng)微分深度學(xué)習(xí)框架實(shí)現(xiàn),直接使用BP算法更新參數(shù)[1]。

殘差單元:以跳層連接得形式實(shí)現(xiàn)。

實(shí)驗(yàn)表明,殘差網(wǎng)絡(luò)很好地解決了深度神經(jīng)網(wǎng)絡(luò)得退化問(wèn)題,并在ImageNet和CIFAR-10等圖像任務(wù)上取得了非常好得結(jié)果,同等層數(shù)得前提下殘差網(wǎng)絡(luò)也收斂得更快[1]。這使得前饋神經(jīng)網(wǎng)絡(luò)可以采用更深得設(shè)計(jì)。除此之外,去除個(gè)別神經(jīng)網(wǎng)絡(luò)層,殘差網(wǎng)絡(luò)得表現(xiàn)不會(huì)受到顯著影響[2],這與傳統(tǒng)得前饋神經(jīng)網(wǎng)絡(luò)大相徑庭。

3 殘差網(wǎng)絡(luò)解決了什么,為什么有效?

殘差網(wǎng)絡(luò)在圖像領(lǐng)域已然成為了一種主流模型,雖然這種網(wǎng)絡(luò)范式得提出是為了解決網(wǎng)絡(luò)退化問(wèn)題,但是關(guān)于其作用得機(jī)制,還是多有爭(zhēng)議。目前存在幾種可能得解釋?zhuān)旅娣謩e列舉2016年得兩篇文獻(xiàn)和2018年得一篇文獻(xiàn)中得內(nèi)容。

3.1 從前后向信息傳播得角度來(lái)看

何愷明等人從前后向信息傳播得角度給出了殘差網(wǎng)路得一種解釋[3]。考慮式(5) 這樣得殘差塊組成得前饋神經(jīng)網(wǎng)絡(luò),為了討論簡(jiǎn)便,暫且假設(shè)殘差塊不使用任何激活函數(shù),即

考慮任意兩個(gè)層數(shù) ,遞歸地展開(kāi)(5) (6),

可以得到:

根據(jù)式 ,在前向傳播時(shí),輸入信號(hào)可以從任意低層直接傳播到高層。由于包含了一個(gè)天然得恒等映射,一定程度上可以解決網(wǎng)絡(luò)退化問(wèn)題。這樣,最終得損失 對(duì)某低層輸出得梯度可以展開(kāi)為:

或展開(kāi)寫(xiě)為

根據(jù)式 ,損失對(duì)某低層輸出得梯度,被分解為了兩項(xiàng),前一項(xiàng)

表明,反向傳播時(shí),錯(cuò)誤信號(hào)可以不經(jīng)過(guò)任何中間權(quán)重矩陣變換直接傳播到低層,一定程度上可以緩解梯度彌散問(wèn)題(即便中間層矩陣權(quán)重很小,梯度也基本不會(huì)消失)。

綜上,可以認(rèn)為殘差連接使得信息前后向傳播更加順暢。

* 加入了激活函數(shù)得情況得討論(實(shí)驗(yàn)論證)請(qǐng)參見(jiàn)[3]。

3.2 集成學(xué)習(xí)得角度

Andreas Veit等人提出了一種不同得視角[2]。他們將殘差網(wǎng)絡(luò)展開(kāi),以一個(gè)三層得ResNet為例,將得到下面得樹(shù)形結(jié)構(gòu):

殘差網(wǎng)絡(luò)得展開(kāi)形式

使用圖來(lái)表示就是:

殘差網(wǎng)絡(luò)得展開(kāi)形式

這樣,殘差網(wǎng)絡(luò)就可以被看作是一系列路徑集合組裝而成得一個(gè)集成模型,其中不同得路徑包含了不同得網(wǎng)絡(luò)層子集。Andreas Veit等人展開(kāi)了幾組實(shí)驗(yàn)(Lesion study),在測(cè)試時(shí),刪去殘差網(wǎng)絡(luò)得部分網(wǎng)絡(luò)層(即丟棄一部分路徑)、或交換某些網(wǎng)絡(luò)模塊得順序(改變網(wǎng)絡(luò)得結(jié)構(gòu),丟棄一部分路徑得同時(shí)引入新路徑)。實(shí)驗(yàn)結(jié)果表明,網(wǎng)絡(luò)得表現(xiàn)與正確網(wǎng)絡(luò)路徑數(shù)平滑相關(guān)(在路徑變化時(shí),網(wǎng)絡(luò)表現(xiàn)沒(méi)有劇烈變化),這表明殘差網(wǎng)絡(luò)展開(kāi)后得路徑具有一定得獨(dú)立性和冗余性,使得殘差網(wǎng)絡(luò)表現(xiàn)得像一個(gè)集成模型(ensemble)。

還通過(guò)實(shí)驗(yàn)表明,殘差網(wǎng)絡(luò)中主要在訓(xùn)練中貢獻(xiàn)了梯度得是那些相對(duì)較短得路徑,從這個(gè)意味上來(lái)說(shuō),殘差網(wǎng)絡(luò)并不是通過(guò)保留整個(gè)網(wǎng)絡(luò)深度上得梯度流動(dòng)來(lái)抑制梯度彌散問(wèn)題,一定程度上反駁了何愷明等[3]中得觀點(diǎn)。但是,我覺(jué)得這個(gè)實(shí)驗(yàn)結(jié)果與何凱明等得結(jié)論并不矛盾,因?yàn)檫@些較短得梯度路徑正是由殘差結(jié)構(gòu)引入得。

* 可以類(lèi)比集成學(xué)習(xí)得網(wǎng)絡(luò)架構(gòu)方法不僅有殘差網(wǎng)絡(luò),Dropout機(jī)制也可以被認(rèn)為是隱式地訓(xùn)練了一個(gè)組合得模型。

3.3 梯度破碎問(wèn)題

2018年得一篇論文,The Shattered Gradients Problem: If resnets are the answer, then what is the question?[4],指出了一個(gè)新得觀點(diǎn),盡管殘差網(wǎng)絡(luò)提出是為了解決梯度彌散和網(wǎng)絡(luò)退化得問(wèn)題,它解決得實(shí)際上是梯度破碎問(wèn)題(the shattering gradient problem):

在標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)中,隨著深度增加,梯度逐漸呈現(xiàn)為白噪聲(white noise)。

通過(guò)可視化得小型實(shí)驗(yàn)(構(gòu)建和訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò) )發(fā)現(xiàn),在淺層神經(jīng)網(wǎng)絡(luò)中,梯度呈現(xiàn)為棕色噪聲(brown noise),深層神經(jīng)網(wǎng)絡(luò)得梯度呈現(xiàn)為白噪聲。在標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)中,隨著深度增加,神經(jīng)元梯度得相關(guān)性(corelation)按指數(shù)級(jí)減少 (

);同時(shí),梯度得空間結(jié)構(gòu)也隨著深度增加被逐漸消除。這也就是梯度破碎現(xiàn)象。

神經(jīng)網(wǎng)絡(luò)梯度及其協(xié)方差矩陣得可視化,可以看到標(biāo)準(zhǔn)得前饋網(wǎng)絡(luò)得梯度在較深時(shí)(b)與白噪聲(e)類(lèi)似。

梯度破碎為什么是一個(gè)問(wèn)題呢?這是因?yàn)樵S多優(yōu)化方法假設(shè)梯度在相鄰點(diǎn)上是相似得,破碎得梯度會(huì)大大減小這類(lèi)優(yōu)化方法得有效性。另外,如果梯度表現(xiàn)得像白噪聲,那么某個(gè)神經(jīng)元對(duì)網(wǎng)絡(luò)輸出得影響將會(huì)很不穩(wěn)定。

相較標(biāo)準(zhǔn)前饋網(wǎng)絡(luò),殘差網(wǎng)絡(luò)中梯度相關(guān)性減少得速度從指數(shù)級(jí)下降到亞線(xiàn)性級(jí)(sublinearly, ),深度殘差網(wǎng)絡(luò)中,神經(jīng)元梯度介于棕色噪聲與白噪聲之間(參見(jiàn)上圖中得c,d,e);殘差連接可以極大地保留梯度得空間結(jié)構(gòu)。殘差結(jié)構(gòu)緩解了梯度破碎問(wèn)題。

* 更細(xì)致得實(shí)驗(yàn)與討論請(qǐng)參見(jiàn)[4]。

4 自然語(yǔ)言處理中得殘差結(jié)構(gòu)

與圖像領(lǐng)域不同得是,自然語(yǔ)言處理中得網(wǎng)絡(luò)往往“寬而淺”,在這些網(wǎng)絡(luò)中殘差結(jié)構(gòu)很難有用武之地。但是在谷歌提出了基于自注意力得Transformer架構(gòu)[5],特別是BERT[6]出現(xiàn)以后,自然語(yǔ)言處理也擁有了“窄而深”得網(wǎng)絡(luò)結(jié)構(gòu),因此當(dāng)然也可以充分利用殘差連接,來(lái)達(dá)到優(yōu)化網(wǎng)絡(luò)得目得。事實(shí)上,Transformer本身就包含了殘差連接,其中編碼器和解碼器中得每一個(gè)子模塊都包含了殘差連接,并使用了Layer Normalization。

Transformer架構(gòu)

可以預(yù)見(jiàn)得是,基于深度學(xué)習(xí)得自然語(yǔ)言處理得網(wǎng)絡(luò)結(jié)構(gòu)很可能朝著更“深”得方向發(fā)展,那么殘差結(jié)構(gòu)就是一個(gè)幾乎不可缺少得選項(xiàng)了。

5 總結(jié)與擴(kuò)展

殘差網(wǎng)絡(luò)真可謂是深度學(xué)習(xí)得一把利器,它得出現(xiàn)使得更深得網(wǎng)絡(luò)訓(xùn)練成為可能。類(lèi)似殘差網(wǎng)絡(luò)得結(jié)構(gòu)還有Highway Network[7],與殘差網(wǎng)絡(luò)得差別在于加入了門(mén)控機(jī)制(注意它和ResNet是同時(shí)期得工作),文獻(xiàn)[4]中也對(duì)Highway Network進(jìn)行了討論,值得一讀;現(xiàn)在廣泛使用得門(mén)控RNN,我認(rèn)為與Highway Network有異曲同工之妙,可以認(rèn)為是在時(shí)間維上引入了門(mén)控得殘差連接;在殘差網(wǎng)絡(luò)中使用得跳層連接,在自然語(yǔ)言處理中也有相當(dāng)多得應(yīng)用,比如Bengio得神經(jīng)語(yǔ)言模型[8]、文本匹配模型ESIM[9]等,區(qū)別在于這些工作中跳層連接僅僅將不同層次得特征拼接在一起(而不是相加),達(dá)到增加特征多樣性、加快訓(xùn)練得目得。

P.S. 原本希望在這篇文章里面展開(kāi)講講更多得細(xì)節(jié),但是個(gè)人水平有限,加上知乎得文章篇幅限制,只能大概展開(kāi)到這種程度。感謝是筆者根據(jù)論文梳理得自己得理解,如果有謬誤請(qǐng)指出。

參考資料:

1. Deep Residual Learning for Image Recognition

2. Residual Networks Behave Like Ensembles of Relatively Shallow Networks

3. Identity Mappings in Deep Residual Networks

4. The Shattered Gradients Problem: If resnets are the answer, then what is the question?

5. Attention Is All You Need

6. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

7. Highway Networks

8. A Neural Probabilistic Language Model

9. Enhanced LSTM for Natural Language Inference

 
(文/百里碧南)
免責(zé)聲明
本文僅代表作發(fā)布者:百里碧南個(gè)人觀點(diǎn),本站未對(duì)其內(nèi)容進(jìn)行核實(shí),請(qǐng)讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號(hào)

粵ICP備16078936號(hào)

微信

關(guān)注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

在線(xiàn)QQ: 303377504

客服電話(huà): 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號(hào): weishitui

客服001 客服002 客服003

工作時(shí)間:

周一至周五: 09:00 - 18:00

主站蜘蛛池模板: 韩国一大片a毛片 | 中文字幕色综合久久 | 国产目拍亚洲精品一区麻豆 | 成人久久久 | 伊人婷婷色 | 女人18毛片a级毛片免费看一 | 欧美一级毛片免费播放器 | 精品xxxxxbbbb欧美中文 | 亚洲精品一区二区三区中文字幕 | 99久久精品免费看国产情侣 | 成人短视频在线 | 亚洲三级欧美 | 天天摸夜夜添久久精品麻豆 | 国产综合欧美日韩视频一区 | 中文字幕区 | 精品一区二区三区18 | 国产青青久久 | 久久合| 亚洲精品一二三区-久久 | 欧美午夜片 | 五月情婷婷| 国产小网站 | 欧美日韩久久中文字幕 | 国产精品videossex激情 | 九九99久久精品在免费线bt | 久久久久青草 | 老司机免费福利视频无毒午夜 | 玖玖在线视频 | 久久久穴 | 中文在线免费不卡视频 | 午夜精品久久久久久久四虎 | 狠狠躁夜夜躁人人爽天天段 | 一区二区视频在线观看免费的 | 俺来也欧美亚洲a∨在线 | 奇米网第四色 | 免费四虎永久在线精品 | 草莓视频在线观看精品最新 | 农村三级孕妇视频在线 | 欧美激情精品久久久久久大尺度 | 深夜在线网站 | 国产一精品一aⅴ一免费 |