日韩有码亚洲专区|国产探花在线播放|亚洲色图双飞成人|不卡 二区 视频|东京热av网一区|玖玖视频在线播放|AV人人爽人人片|安全无毒成人网站|久久高清免费视频|人人人人人超碰在线

首頁(yè) > 文章中心 > 卷積神經(jīng)網(wǎng)絡(luò)方法

卷積神經(jīng)網(wǎng)絡(luò)方法

前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)方法范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

卷積神經(jīng)網(wǎng)絡(luò)方法

卷積神經(jīng)網(wǎng)絡(luò)方法范文第1篇

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò) 現(xiàn)場(chǎng)可編程門(mén)陣列 并行結(jié)構(gòu)

中圖分類(lèi)號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)12-0000-00

1 引言

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)具有良好的處理能力、自學(xué)能力及容錯(cuò)能力,可以用來(lái)處理復(fù)雜的環(huán)境信息,例如,背景情況不明,推理規(guī)則不明,樣品存有一定程度的缺陷或畸變的情況。所以,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于目標(biāo)檢測(cè)、物體識(shí)別和語(yǔ)音分析等方面[1]?,F(xiàn)場(chǎng)可編程門(mén)陣列(Field Programmable Gate Array, FPGA),作為可編程使用的信號(hào)處理器件,其具有高集成度、運(yùn)行高速、可靠性高及采用并行結(jié)構(gòu)的特點(diǎn),易于配合CNN處理數(shù)據(jù)。

2 國(guó)內(nèi)外研究現(xiàn)狀

2.1 神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)

根據(jù)研究角度、數(shù)據(jù)傳遞方式、數(shù)據(jù)處理模式、學(xué)習(xí)方法等的不同,多種神經(jīng)網(wǎng)絡(luò)模型被構(gòu)建出來(lái)。目前主要有四種模型被廣泛應(yīng)用中[2][3]:

(1)前饋型神經(jīng)網(wǎng)絡(luò)。此類(lèi)神經(jīng)元網(wǎng)絡(luò)是由觸突將神經(jīng)原進(jìn)行連接的,所以網(wǎng)絡(luò)群體由全部神經(jīng)元構(gòu)成,可實(shí)現(xiàn)記憶、思維和學(xué)習(xí)。此種類(lèi)型的網(wǎng)絡(luò)是有監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。(2)遞歸型神經(jīng)網(wǎng)絡(luò)。此種神經(jīng)網(wǎng)絡(luò)又稱(chēng)為反饋網(wǎng)絡(luò),以多個(gè)神經(jīng)元互相連接,組織成一個(gè)互連的神經(jīng)網(wǎng)絡(luò),使得電流和信號(hào)能夠通過(guò)正向和反向進(jìn)行流通。(3)隨機(jī)型神經(jīng)網(wǎng)絡(luò)。此種神經(jīng)網(wǎng)絡(luò)的運(yùn)行規(guī)律是隨機(jī)的,通過(guò)有監(jiān)督學(xué)習(xí)方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。(4)自組織競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)。此種神經(jīng)網(wǎng)絡(luò)通過(guò)無(wú)監(jiān)督的學(xué)習(xí)方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,一般具有兩層網(wǎng)絡(luò)結(jié)構(gòu),輸入層和競(jìng)爭(zhēng)層。兩層間的各神經(jīng)元實(shí)現(xiàn)雙向全連接。

2.2 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法用來(lái)解決調(diào)整網(wǎng)絡(luò)權(quán)重的問(wèn)題,是指完成輸入特征向量映射到輸出變量之間的算法,可以歸納為三類(lèi)[4-7]:

(1)有監(jiān)督的學(xué)習(xí)。在學(xué)習(xí)開(kāi)始前,向神經(jīng)網(wǎng)絡(luò)提供若干已知輸入向量和相應(yīng)目標(biāo)變量構(gòu)成的樣本訓(xùn)練集,通過(guò)給定輸入值與輸出期望值和實(shí)際網(wǎng)絡(luò)輸出值之間的差來(lái)調(diào)整神經(jīng)元之間的連接權(quán)重。(2)無(wú)監(jiān)督的學(xué)習(xí)。此種學(xué)習(xí)方法只需要向神經(jīng)網(wǎng)絡(luò)提供輸入,不需要期望輸出值,神經(jīng)網(wǎng)絡(luò)能自適應(yīng)連接權(quán)重,無(wú)需外界的指導(dǎo)信息。(3)強(qiáng)化學(xué)習(xí)。此種算法不需要給出明確的期望輸出,而是采用評(píng)價(jià)機(jī)制來(lái)評(píng)價(jià)給定輸入所對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)輸出的質(zhì)量因數(shù)。外界環(huán)境對(duì)輸出結(jié)果僅給出評(píng)價(jià)結(jié)果,通過(guò)強(qiáng)化授獎(jiǎng)動(dòng)作來(lái)改善系統(tǒng)性能。此種學(xué)習(xí)方法是有監(jiān)督學(xué)習(xí)的特例。

2.3 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)為識(shí)別二維或三維信號(hào)而設(shè)計(jì)的一個(gè)多層次的感知器,其基本結(jié)構(gòu)包括兩種特殊的神經(jīng)元層,一為卷積層,每個(gè)神經(jīng)元的輸入與前一層的局部相連,并提取該局部的特征[8];二是池化層,用來(lái)求局部敏感性與二次特征提取的計(jì)算層[8]。作為部分連接的網(wǎng)絡(luò),最底層是卷積層(特征提取層),上層是池化層,可以繼續(xù)疊加卷積、池化或者是全連接層。

3 FPGA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的并行體系結(jié)構(gòu)

(1)卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算架構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)可以使用“主機(jī)”與“FPGA”相結(jié)合的體系模型,主機(jī)用來(lái)控制計(jì)算的開(kāi)始和結(jié)束,并在神經(jīng)網(wǎng)絡(luò)前向傳播計(jì)算過(guò)程中,提供輸入圖像等數(shù)據(jù)。主機(jī)與FPGA之間的通信可以通過(guò)標(biāo)準(zhǔn)接口,在主機(jī)進(jìn)行任務(wù)分配的過(guò)程中可以對(duì)FPGA上的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行硬件加速。當(dāng)卷積神經(jīng)網(wǎng)絡(luò)開(kāi)始啟動(dòng)計(jì)算,通過(guò)標(biāo)準(zhǔn)接口接收到主機(jī)傳輸?shù)膱D像時(shí),F(xiàn)PGA開(kāi)始進(jìn)行計(jì)算,并且使用FPGA中的存儲(chǔ)器來(lái)存儲(chǔ)卷積核權(quán)值。FPGA將會(huì)先完成卷積神經(jīng)網(wǎng)絡(luò)前向傳播過(guò)程的計(jì)算,然后將其最后一層計(jì)算得到的結(jié)果輸出給主機(jī)。(2)卷積神經(jīng)網(wǎng)絡(luò)并行體系架構(gòu)。一、單輸出并行結(jié)構(gòu):每次計(jì)算一個(gè)輸出圖像,其中會(huì)將多個(gè)輸入圖像和多個(gè)卷積核基本計(jì)算單元同時(shí)進(jìn)行卷積運(yùn)算,然后將全部卷積運(yùn)算的結(jié)果與偏置值進(jìn)行累加,再將結(jié)果輸入非線性函數(shù)和自抽樣子層進(jìn)行計(jì)算。二、多輸出并行結(jié)構(gòu):若卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算單元中含有多個(gè)單輸出的并行結(jié)構(gòu),那么輸入數(shù)據(jù)可同時(shí)傳送到多個(gè)單輸出計(jì)算單元的輸入端,從而組成多個(gè)單輸出計(jì)算單元組成的并行結(jié)構(gòu)。在卷積神經(jīng)網(wǎng)絡(luò)的并行計(jì)算結(jié)構(gòu)中,每個(gè)卷積核計(jì)算單元在進(jìn)行卷積操作時(shí)都要進(jìn)行乘加運(yùn)算,所以,有必要將單個(gè)的卷積運(yùn)算拆分實(shí)現(xiàn)并行化,并且可以嘗試將同一層內(nèi)的多個(gè)卷積運(yùn)算進(jìn)行并行化。

4 結(jié)語(yǔ)

本文對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了介紹,總結(jié)了國(guó)內(nèi)外的研究現(xiàn)狀,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)運(yùn)算的特點(diǎn)與FPGA的快速計(jì)算單元數(shù)量及功能方面的優(yōu)勢(shì),嘗試闡述了在FPGA映射過(guò)程的卷積神經(jīng)網(wǎng)絡(luò)的并行體系結(jié)構(gòu)。

參考文獻(xiàn)

[1] Fan J,Xu W,Wu Y,et al. Human tracking using convolutional neural networks[J].IEEE Transactions on Neural Networks,2010(10):1610-1623.

[2] 楊治明,王曉蓉,彭軍.BP神經(jīng)網(wǎng)絡(luò)在圖像分割中的應(yīng)用.計(jì)算機(jī)科學(xué)[J].2007(03):234-236.

[3] Simon Haykin . Neural networks ,a comprehensive foundation[M].second edition,Prentice Hall,1998.

[4] Herta J , et al.Introduction to Theory of Neural Compution[M].Sant Fee Complexity Science Series,1991.156.

[5] 戴奎.神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)技術(shù)[M].長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1998.

[6] 焦李成.神經(jīng)網(wǎng)絡(luò)系統(tǒng)理論[M].西安:西安電子科技大學(xué)出版社,1996.

卷積神經(jīng)網(wǎng)絡(luò)方法范文第2篇

關(guān)鍵詞:手寫(xiě)數(shù)字識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);應(yīng)用

手寫(xiě)體數(shù)字識(shí)別在郵政、金融等領(lǐng)域應(yīng)用廣泛。對(duì)于數(shù)字識(shí)別,人們往往要求識(shí)別器有很高的識(shí)別可靠性,數(shù)字識(shí)別的錯(cuò)誤所帶來(lái)的影響比文字識(shí)別等其他識(shí)別所帶來(lái)的影響更大,特別是有關(guān)金融方面的數(shù)字識(shí)別錯(cuò)誤所帶來(lái)的后果是無(wú)法想象的,識(shí)別錯(cuò)一個(gè)數(shù)字,這其中的差距可能是幾的差距,也可能是幾十、幾百的差距,這些都還是小問(wèn)題;但更有可能這一個(gè)數(shù)字代表的差距是幾萬(wàn)、幾千萬(wàn)甚至幾億乃至更多,那么這個(gè)錯(cuò)誤造成的損失就無(wú)法估量了。因此,O計(jì)出有著高可靠性與高識(shí)別率的數(shù)字識(shí)別系統(tǒng)已經(jīng)成為了字符識(shí)別領(lǐng)域一個(gè)非常重要的環(huán)節(jié)。

1 網(wǎng)絡(luò)模型和數(shù)據(jù)庫(kù)及學(xué)習(xí)算法的選擇

1.1 關(guān)于Mnist數(shù)據(jù)庫(kù)的介紹

首先,Mnist是NIST數(shù)據(jù)庫(kù)的一個(gè)優(yōu)化子集。它是一個(gè)有著60000個(gè)訓(xùn)練樣本集與10000個(gè)測(cè)試樣本集的手寫(xiě)體數(shù)字?jǐn)?shù)據(jù)庫(kù)。此數(shù)字庫(kù)一共有4個(gè)文件。

此數(shù)字庫(kù)的所有樣本集都有圖像文件以及標(biāo)簽文件。標(biāo)簽文件的作用是用來(lái)儲(chǔ)存樣本集中的每個(gè)樣本的數(shù)值標(biāo)簽,而每一個(gè)樣本的圖像數(shù)據(jù)信息則是由圖像文件存儲(chǔ)著。此數(shù)據(jù)庫(kù)的圖像數(shù)據(jù)均保存在二進(jìn)制文件之中,且每個(gè)樣本圖像的大小均為28*28。

1.2 數(shù)字識(shí)別的模型選擇

手寫(xiě)體數(shù)字雖然只有0~9十個(gè)數(shù)字,但由于寫(xiě)法因人而異,不同地域同樣一個(gè)數(shù)字有多種不同的寫(xiě)法,每個(gè)人都有自己的書(shū)寫(xiě)習(xí)慣。且一些紙質(zhì)差異、筆畫(huà)粗細(xì)、光線問(wèn)題、位置、尺度大小等等多種因素都能對(duì)輸入產(chǎn)生影響??紤]到這些因素,為讓網(wǎng)絡(luò)有良好的識(shí)別能力,我們這里采用在圖像識(shí)別領(lǐng)域有著優(yōu)秀表現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)作為此數(shù)字識(shí)別系統(tǒng)的訓(xùn)練模型。

1.3 學(xué)習(xí)算法的選擇

一個(gè)優(yōu)秀的網(wǎng)絡(luò)模型必須具備良好的學(xué)習(xí)算法,每個(gè)學(xué)習(xí)網(wǎng)絡(luò)都有著相對(duì)來(lái)說(shuō)較為合適自己的學(xué)習(xí)算法,而并不是說(shuō)越高端的算法就越好。在此文中,我選擇的學(xué)習(xí)算法是較為成熟的BP算法。此算法在文字前面有些許介紹,此處不再多做說(shuō)明。

2 基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別系統(tǒng)的設(shè)計(jì)

2.1 輸入層以及輸出層設(shè)定

根據(jù)樣本的特征與此網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),可以大概判斷出輸入層與輸出層該如何設(shè)置。隱含層的個(gè)數(shù)可以是一個(gè),也可以是多個(gè),這與要分類(lèi)的問(wèn)題有關(guān)。

前文提及到在mnist數(shù)據(jù)庫(kù)中,所有的圖像都是28*28大小的,且以整個(gè)圖片的像素形式存儲(chǔ)在數(shù)據(jù)文件之中。每張圖像大小為28*28,故一個(gè)圖片像素點(diǎn)個(gè)數(shù)為784個(gè)。這里,卷積神經(jīng)網(wǎng)絡(luò)的輸入即為這784個(gè)像素點(diǎn)。

因?yàn)閿?shù)字識(shí)別需要識(shí)別的是0~9這十個(gè)數(shù)字,即需要識(shí)別十種字符類(lèi)別,所以將這個(gè)神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元節(jié)點(diǎn)數(shù)設(shè)置為10。

2.2 網(wǎng)絡(luò)的中間層設(shè)置

卷積神經(jīng)網(wǎng)絡(luò)的中間層有兩個(gè)部分,即卷積層(特征提取層)與下采樣層(特征映射層),由第二章中圖2-1所示,C1、C3為卷積層,S2、S4為降采樣層。

1)激活函數(shù)選擇

激活函數(shù)選擇sigmoid函數(shù)。同樣,在第二章有所提及。Sigmoid函數(shù)是嚴(yán)格遞增函數(shù),能較好的平衡線性與非線性之間的行為,比較貼近生物神經(jīng)元的工作。相比于其他函數(shù),sigmoid函數(shù)還存在著許多優(yōu)勢(shì),比如光滑性、魯棒性以及它的導(dǎo)數(shù)可以用它自身來(lái)表示。

sigmoid函數(shù)為:

(1)

其中,x為神經(jīng)元凈輸入。

激活函數(shù)導(dǎo)數(shù)為:

(2)

2)卷積層設(shè)計(jì)

圖像經(jīng)過(guò)卷積核對(duì)特征圖進(jìn)行卷積,之后再經(jīng)過(guò)sigmoid函數(shù)處理在卷積層得到特征映射圖。特征映射圖相比于原圖像,其特征更為明顯突出。

卷積運(yùn)算其實(shí)就是一個(gè)加權(quán)求和的過(guò)程。離散卷積是本文所選取的方法,規(guī)定卷積核在水平和豎直兩個(gè)方向每次都是移動(dòng)一個(gè)像素,即卷積的步長(zhǎng)為1。

3)下采樣層的設(shè)計(jì)

根據(jù)圖像局部相關(guān)性這一原理,為了降低網(wǎng)絡(luò)的學(xué)習(xí)維度、減少需要處理的數(shù)據(jù)量且保留圖像的有用信息,可以對(duì)卷積后的圖像進(jìn)行下采樣。這里,我們采取的是取卷積層4個(gè)像素點(diǎn)平均值為下采樣層的一個(gè)像素點(diǎn)的方法。這樣可以降低網(wǎng)絡(luò)規(guī)模。

2.3 網(wǎng)絡(luò)總體結(jié)構(gòu)CNN-0

根據(jù)LeNet-5結(jié)構(gòu),再結(jié)合上文中的對(duì)輸入層、輸出層、中間層的設(shè)計(jì),完成了如圖3-1所示的基本網(wǎng)絡(luò)結(jié)構(gòu):

相比于LeNet-5,CNN-0做了一些修改,并非完全按照LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)模型。Sigmoid函數(shù)是本網(wǎng)絡(luò)中的激活函數(shù),選擇這個(gè)函數(shù)的好處在于可以讓所有層得到的輸出都在區(qū)間[-1,1]之內(nèi)。網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率固定值為1或者是衰減的學(xué)習(xí)速率。經(jīng)過(guò)卷積后的一維向量與輸出層沒(méi)有沿用LeNet-5的徑向基函數(shù)網(wǎng)絡(luò),而是采取全連接方式,省去了F6層。

3.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程

在模式識(shí)別中,學(xué)習(xí)網(wǎng)絡(luò)有無(wú)指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)與有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)兩個(gè)類(lèi)別。無(wú)指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)一般是用來(lái)進(jìn)行聚類(lèi)分析,本文采取的是有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)。

卷積神經(jīng)網(wǎng)絡(luò)其實(shí)就是從輸入到輸出的一種映射,它可以學(xué)量的映射關(guān)系,只需要用現(xiàn)有的模式對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)就能具備映射能力。而不需要輸入與輸出之間的精確的關(guān)系。

訓(xùn)練算法與傳統(tǒng)的BP算法相差無(wú)幾(BP算法在第二章有做概述),主要可分為四個(gè)步驟,而這四個(gè)步驟可以歸為向前傳播階段與向后傳播階段:相前傳播:

1)隨機(jī)的從樣本集中獲取一個(gè)樣本(A, ),然后將A輸入至網(wǎng)絡(luò)中;

2)根據(jù)公式(3)計(jì)算出實(shí)際輸出:

(3)

向后傳播:

1)計(jì)算和理想輸出之間的差;

2)根據(jù)極小化誤差方法調(diào)整權(quán)值矩陣。

結(jié)語(yǔ)

在手寫(xiě)數(shù)字識(shí)別這一塊,相對(duì)來(lái)說(shuō)比較有難度的應(yīng)該就是脫機(jī)自由手寫(xiě)字符識(shí)別了,不過(guò)本文所研究的并不是這一系統(tǒng),本設(shè)計(jì)是一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)數(shù)字識(shí)別系統(tǒng),因卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和降采樣以及權(quán)值共享、隱性特征提取等優(yōu)點(diǎn),它在圖像識(shí)別領(lǐng)域得到了非常廣泛的應(yīng)用。此程序是在Caffe這個(gè)框架上進(jìn)行運(yùn)行的,操作系統(tǒng)為L(zhǎng)inux系統(tǒng)ubuntu14.04版本。Caffe是一個(gè)開(kāi)源的深度學(xué)習(xí)框架,也可以說(shuō)是一個(gè)編程框架或者模板框架,它提供一套編程機(jī)制。因此,本文所需要實(shí)際的卷積神經(jīng)網(wǎng)絡(luò)就可以根據(jù)這個(gè)框架來(lái)進(jìn)行構(gòu)建。

參考文獻(xiàn):

[1]張偉,王克儉,秦臻.基于神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別的研究[J].微電子學(xué)與計(jì)算,2006年第23卷第8期.

卷積神經(jīng)網(wǎng)絡(luò)方法范文第3篇

關(guān)鍵詞: 列車(chē)車(chē)號(hào); 車(chē)號(hào)識(shí)別; 卷積神經(jīng)網(wǎng)絡(luò); LeNet?5

中圖分類(lèi)號(hào): TN911.73?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)13?0063?04

Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.

Keywords: train license; license recognition; convolutional neural network; LeNet?5

0 引 言

目前貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別系統(tǒng)[1?2]主要是基于RFID技術(shù)實(shí)現(xiàn)的,但是,由于該系統(tǒng)的準(zhǔn)確性依賴(lài)于列車(chē)底部安裝的RFID標(biāo)簽,而RFID標(biāo)簽容易損壞、丟失,因此,此類(lèi)系統(tǒng)無(wú)法保證車(chē)號(hào)識(shí)別的準(zhǔn)確性。為此,研究者開(kāi)發(fā)了基于圖像的貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別系統(tǒng),系統(tǒng)根據(jù)視頻采集到的圖像,利用模糊集合論[1?2]、人工神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)[4]以及隱馬爾可夫模型[4]等技術(shù)進(jìn)行車(chē)號(hào)字符的識(shí)別。但是,由于貨運(yùn)列車(chē)車(chē)號(hào)存在因噴涂方式而導(dǎo)致的單個(gè)字符斷裂,或者列車(chē)長(zhǎng)期的野外運(yùn)行導(dǎo)致的車(chē)廂污損,車(chē)號(hào)字符的殘缺等現(xiàn)象,這使得目前的基于圖像的貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別系統(tǒng)的魯棒性與識(shí)別率還有待進(jìn)一步提高。

LeNet?5[5?7]是由YannLecun等人提出的一種專(zhuān)門(mén)用于二維圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)避免了人工提取特征依賴(lài)于主觀意識(shí)的缺點(diǎn),只需要將歸一化大小的原始圖像輸入網(wǎng)絡(luò),該網(wǎng)絡(luò)就可以直接從圖像中識(shí)別視覺(jué)模式。LeNet?5把特征提取和識(shí)別結(jié)合起來(lái),通過(guò)綜合評(píng)價(jià)和學(xué)習(xí),并在不斷的反向傳播過(guò)程中選擇和優(yōu)化這些特征,將特征提取變?yōu)橐粋€(gè)自學(xué)習(xí)的過(guò)程,通過(guò)這種方法找到分類(lèi)性能最優(yōu)的特征。LeNet?5已經(jīng)成功應(yīng)用于銀行對(duì)支票手寫(xiě)數(shù)字的識(shí)別中。

為此,本文將卷積神經(jīng)網(wǎng)絡(luò)LeNet?5應(yīng)用于列車(chē)車(chē)號(hào)字符的識(shí)別中,為了使之適用于列車(chē)車(chē)號(hào)字符的識(shí)別需求,去除掉了LeNet?5中的一些針對(duì)手寫(xiě)字符識(shí)別而特別設(shè)計(jì)的連接方式及參數(shù),并在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。

1 LeNet?5的改進(jìn)

卷積神經(jīng)網(wǎng)絡(luò)可以從很多方面著手改進(jìn)。諸如多層前饋網(wǎng)絡(luò),可以考慮在誤差函數(shù)中增加懲罰項(xiàng)使得訓(xùn)練后得到趨向于稀疏化的權(quán)值,或者增加一些競(jìng)爭(zhēng)機(jī)制使得在某個(gè)特定時(shí)刻網(wǎng)絡(luò)中只有部分節(jié)點(diǎn)處在激活狀態(tài)等。本文主要從卷積神經(jīng)網(wǎng)絡(luò)的層次化以及局部鄰域等結(jié)構(gòu)上的特點(diǎn)入手,考慮卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小對(duì)網(wǎng)絡(luò)訓(xùn)練過(guò)程及識(shí)別結(jié)果的影響。

以LeNet?5結(jié)構(gòu)為基礎(chǔ),去除掉LeNet?5中的一些針對(duì)手寫(xiě)字符識(shí)別而特別設(shè)計(jì)的連接方式及參數(shù),得到改進(jìn)后的神經(jīng)網(wǎng)絡(luò)。在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。定義一種新的網(wǎng)絡(luò)模型,將其命名為L(zhǎng)eNet?5.1,該網(wǎng)絡(luò)結(jié)構(gòu)與LeNet?5基本相同,主要做出以下改變:

(1) 將原先LeNet?5所采用的激活函數(shù)由雙曲正切函數(shù)修改為Sigmoid函數(shù),此時(shí),網(wǎng)絡(luò)中所有層的輸出值均在[0,1]區(qū)間內(nèi),輸出層的最終結(jié)果也將保持在[0,1]區(qū)間內(nèi)。

(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(shù)(RBF)網(wǎng)絡(luò)結(jié)構(gòu)。

(3) 簡(jiǎn)化原LeNet?5中的學(xué)習(xí)速率。原LeNet?5網(wǎng)絡(luò)中采用的學(xué)習(xí)速率為一個(gè)特殊的序列,而在本網(wǎng)絡(luò)中將學(xué)習(xí)速率固定為0.002。

(4) 輸入數(shù)據(jù)原始尺寸為28×28,采取邊框擴(kuò)充背景像素的方法將圖像擴(kuò)充至32×32。

之所以做以上相關(guān)改動(dòng),是因?yàn)樵嫉腖eNet?5就是專(zhuān)門(mén)為手寫(xiě)字符識(shí)別任務(wù)而特殊設(shè)計(jì)的,這就造成了LeNet?5網(wǎng)絡(luò)中相關(guān)的預(yù)處理及參數(shù)的選擇過(guò)程或多或少均帶有一些針對(duì)特定問(wèn)題的先驗(yàn)知識(shí)。例如激活函數(shù)中參數(shù)的選擇,學(xué)習(xí)速率定的速率序列以及數(shù)據(jù)預(yù)處理殊的填充方式等,這些特定的設(shè)計(jì)使得LeNet?5在其他任務(wù)的識(shí)別過(guò)程中并不一定適用,或者需要進(jìn)行長(zhǎng)期的觀察實(shí)驗(yàn)以選得一組針對(duì)特定任務(wù)的較好的值,造成了LeNet?5不能快速的應(yīng)用于除手寫(xiě)字符外其他的識(shí)別任務(wù)中。

2 改進(jìn)后的網(wǎng)絡(luò)對(duì)列車(chē)車(chē)號(hào)字符的識(shí)別

車(chē)號(hào)經(jīng)過(guò)分割之后為一個(gè)個(gè)的單字符圖像,采用邊框擴(kuò)充背景像素的方法將其歸一化為32×32,如圖1所示。

由圖1中可以看出,待識(shí)別的字符圖像質(zhì)量不高,有的數(shù)字字符出現(xiàn)殘缺、斷裂或者嚴(yán)重變形。這都給識(shí)別任務(wù)提出了一定的挑戰(zhàn)。

本文采集到的車(chē)號(hào)圖像來(lái)自于不同型號(hào)的貨運(yùn)列車(chē)。從中選取400幅圖像作為訓(xùn)練集,另外選取400幅圖像作為測(cè)試集。用上一節(jié)提出的LeNet?5.1網(wǎng)絡(luò)進(jìn)行訓(xùn)練,誤分類(lèi)率曲線如圖2所示??梢钥闯觯贚eNet?5.1訓(xùn)練過(guò)程中,訓(xùn)練MCR(Misclassification Rate)和測(cè)試MCR的變化過(guò)程相對(duì)穩(wěn)定,驗(yàn)證了改進(jìn)后網(wǎng)絡(luò)結(jié)構(gòu)的合理性。在經(jīng)過(guò)16次的迭代之后,測(cè)試MCR降至最低(5.75%),之后基本保持穩(wěn)定,即16次迭代之后,網(wǎng)絡(luò)達(dá)到了當(dāng)前的最佳訓(xùn)練效果,達(dá)到了收斂狀態(tài)。這時(shí),訓(xùn)練MCR為0.5%,測(cè)試MCR是5.75%。

訓(xùn)練過(guò)程中的誤分類(lèi)率曲線

而針對(duì)相同的數(shù)據(jù),采用原始的LeNet?5進(jìn)行訓(xùn)練和測(cè)試后,誤分類(lèi)率如圖3所示。從圖3中可以看出,LeNet?5經(jīng)過(guò)了18次的迭代后,測(cè)試MCR才達(dá)到相對(duì)穩(wěn)定的狀態(tài),降至6%,最終的訓(xùn)練MCR為1%。相比之下,經(jīng)過(guò)簡(jiǎn)化和改進(jìn)的LeNet?5.1,由于改進(jìn)了原始的LeNet?5中專(zhuān)門(mén)為手寫(xiě)字符識(shí)別任務(wù)而特殊設(shè)計(jì)的一些預(yù)處理及函數(shù)選擇等固定模式,并且精簡(jiǎn)了網(wǎng)絡(luò)結(jié)構(gòu),使得LeNet?5.1在列車(chē)車(chē)號(hào)的識(shí)別方面具有了更快的訓(xùn)練速度和收斂速度,另外,最終達(dá)到的準(zhǔn)確度也有所提升。

在證明了改進(jìn)后的LeNet?5.1網(wǎng)絡(luò)的合理性之后,增加訓(xùn)練圖像的規(guī)模,采用10 000幅車(chē)號(hào)數(shù)字字符圖像用來(lái)訓(xùn)練,5 000幅用來(lái)測(cè)試。為了與其他方法進(jìn)行比較,采用相同的訓(xùn)練數(shù)據(jù)對(duì)車(chē)號(hào)識(shí)別中常用的三層BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,這里采用的BP網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)量為450,學(xué)習(xí)速率采用0.01。實(shí)驗(yàn)結(jié)果比較如表1所示。從表1可以看出,改進(jìn)后的LeNet?5.1網(wǎng)絡(luò)的識(shí)別率比BP網(wǎng)絡(luò)的識(shí)別率高出4.62個(gè)百分點(diǎn),在識(shí)別速度方面,LeNet?5.1也明顯優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。

3 針對(duì)車(chē)型號(hào)字母識(shí)別而改進(jìn)的神經(jīng)網(wǎng)絡(luò)及其結(jié)果

貨運(yùn)列車(chē)車(chē)號(hào)的組成是由車(chē)型號(hào)與車(chē)號(hào)共同組成的,因此還需要對(duì)車(chē)型號(hào)進(jìn)行識(shí)別,車(chē)型號(hào)中除了有阿拉伯?dāng)?shù)字字符之外,還有很多表示車(chē)種及車(chē)廂材質(zhì)等屬性的英文字母,這些英文字母同樣采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別。由于車(chē)型號(hào)很多,初期針對(duì)若干常用型號(hào)的列車(chē)進(jìn)行識(shí)別,以測(cè)試網(wǎng)絡(luò)的性能,后期對(duì)全車(chē)型進(jìn)行識(shí)別。

3.1 常用列車(chē)車(chē)型的識(shí)別

在試運(yùn)行階段主要識(shí)別的車(chē)型局限于7種主要的車(chē)型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車(chē)種都為敞篷車(chē)(第一個(gè)大寫(xiě)字母C),主要對(duì)后面代表該車(chē)型載重量的兩位數(shù)字以及最后代表車(chē)廂材質(zhì)等屬性的字母進(jìn)行識(shí)別??紤]到車(chē)型號(hào)字符串的固定模式,如圖4所示,可以分別建立兩個(gè)不同的卷積神經(jīng)網(wǎng)絡(luò)分別用來(lái)識(shí)別數(shù)字和字母,由于之前已經(jīng)解決了數(shù)字的識(shí)別問(wèn)題,接下來(lái)主要進(jìn)行字母的識(shí)別。要識(shí)別的代表車(chē)廂材質(zhì)的字母共有6個(gè):K,H,A,E,A和B,為了盡可能的避免因字母分割問(wèn)題而導(dǎo)致的識(shí)別錯(cuò)誤,把AK和BK分別作為一個(gè)整體來(lái)識(shí)別,那么需要識(shí)別的字符組合變?yōu)椋篕,H,A,E,AK和BK。由于識(shí)別種類(lèi)的減少,可以對(duì)網(wǎng)絡(luò)模型LeNet?5.1進(jìn)行相應(yīng)的簡(jiǎn)化,命名該模型為L(zhǎng)eNet?5.2。

LeNet?5.2是在LeNet?5.1的基礎(chǔ)上進(jìn)行改動(dòng)而得到的:

(1) 卷積層C1的特征圖由6個(gè)減少為4個(gè),相應(yīng)地,S2層的特征圖也由6個(gè)減少為4個(gè)。

(2) 卷積層C3的特征圖由16個(gè)減少為11個(gè),相應(yīng)地,S4層的特征圖也由16個(gè)減少為11個(gè)。

(3) 卷積層C5的特征圖個(gè)數(shù)由120個(gè)減少為80個(gè)。

(4) 輸出分類(lèi)的數(shù)目由10個(gè)減少為6個(gè)。

另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。

表2的連接方式采用與表1相同的思想,每一列都說(shuō)明了C3層中的一個(gè)特征圖是由S2中的那幾個(gè)特征圖結(jié)合而成。卷積層C3中第0個(gè)至第5個(gè)特征圖分別與次抽樣層S2中的兩個(gè)特征圖相連接,一共6種組合。C3中的這6個(gè)特征圖負(fù)責(zé)抽取上一層中某兩個(gè)特征圖所潛在的特征。C3層中第6個(gè)至第9個(gè)特征圖中每個(gè)特征圖分別對(duì)應(yīng)上一層中的3個(gè)特征圖的組合,而C3層中最后一個(gè)特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個(gè)特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級(jí),同時(shí),相對(duì)于輸入數(shù)據(jù),C3層相比S2層具有更好的對(duì)位移、扭曲等特征的不變性。

相比LeNet?5.1,LeNet?5.2將網(wǎng)絡(luò)層中的特征圖數(shù)量做了相應(yīng)的削減,減少了網(wǎng)絡(luò)中可訓(xùn)練參數(shù)的數(shù)量。

實(shí)驗(yàn)數(shù)據(jù)來(lái)自以上提到的7類(lèi)常用車(chē)型。經(jīng)過(guò)前面過(guò)程的定位和分割之后,將分割之后代表車(chē)廂材質(zhì)等屬性的字母圖像收集起來(lái)。本實(shí)驗(yàn)中,共收集到6種代表不同車(chē)廂材質(zhì)屬性的字母共800幅,其中400幅用作訓(xùn)練數(shù)據(jù),另外400幅用作測(cè)試數(shù)據(jù)。

圖5為L(zhǎng)eNet?5.2使用以上數(shù)據(jù)訓(xùn)練過(guò)程中得到的MCR曲線圖。由圖5中可以看出,在經(jīng)過(guò)13次迭代之后,測(cè)試MCR達(dá)到最低的3.25%,并且在隨后的迭代過(guò)程中基本保持穩(wěn)定,而對(duì)應(yīng)的訓(xùn)練MCR為0.75%。

3.2 全車(chē)型識(shí)別

經(jīng)過(guò)對(duì)鐵道行業(yè)標(biāo)準(zhǔn)《鐵路貨車(chē)車(chē)種車(chē)型車(chē)號(hào)編碼》(TB2435?93)里面包含的所有車(chē)型號(hào)進(jìn)行統(tǒng)計(jì),除了10個(gè)阿拉伯?dāng)?shù)字外,包括了除O,R,V,Z四個(gè)字母外所有的大寫(xiě)英文字母,總共有32類(lèi)字符。

訓(xùn)練過(guò)程中的誤分類(lèi)率曲線

針對(duì)車(chē)型號(hào)的識(shí)別需求,本文在LeNet?5.1的基礎(chǔ)上提出了一種新的網(wǎng)絡(luò)模型,稱(chēng)之為L(zhǎng)eNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎(chǔ)上對(duì)網(wǎng)絡(luò)中各層的特征圖數(shù)量進(jìn)行擴(kuò)充:

(1) 卷積層C1的特征圖由6個(gè)增加至8個(gè),相應(yīng)地,S2層的特征圖也由6個(gè)增加至8個(gè)。

(2) 卷積層C3的特征圖由16個(gè)增加至24個(gè),相應(yīng)地,S4層的特征圖也由16個(gè)增加至24個(gè)。

(3) 卷積層C5的特征圖個(gè)數(shù)由120個(gè)增加至240個(gè)。

(4) 輸出層神經(jīng)元的個(gè)數(shù)由10個(gè)增加至32個(gè)。

其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個(gè)特征圖的主要組合。

與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類(lèi)別,各層的特征圖數(shù)量也做了相應(yīng)的增加,以增加整個(gè)網(wǎng)絡(luò)的識(shí)別性能。為了驗(yàn)證改進(jìn)后的LeNet?5.3的性能,收集了大量真實(shí)列車(chē)車(chē)廂圖片,經(jīng)過(guò)車(chē)號(hào)定位和分割之后,將單個(gè)的數(shù)字字符或者大寫(xiě)字母字符圖像尺寸依次歸一化為32×32,分別建立訓(xùn)練圖像庫(kù)和測(cè)試圖像庫(kù)。

由于LeNet?5.1各層的特征圖數(shù)量多,因此該網(wǎng)絡(luò)涉及到的可訓(xùn)練參數(shù)也大大增加,這也意味著需要更多的數(shù)據(jù)樣本用于網(wǎng)絡(luò)訓(xùn)練。若訓(xùn)練集和測(cè)試集規(guī)模依然采用跟前面實(shí)驗(yàn)中一樣的各400幅,訓(xùn)練過(guò)程中的誤分類(lèi)率曲線如圖6所示,圖6中的曲線變化非常不穩(wěn)定,波動(dòng)較大。測(cè)試MCR達(dá)到最低點(diǎn)后又突然升高,不能獲得穩(wěn)定的分類(lèi)結(jié)果,訓(xùn)練過(guò)程無(wú)法收斂。

網(wǎng)絡(luò)訓(xùn)練過(guò)程中無(wú)法收斂的主要原因在于相比網(wǎng)絡(luò)中過(guò)多的需要訓(xùn)練確定的權(quán)值,數(shù)據(jù)集規(guī)模過(guò)小,已然不能滿足學(xué)習(xí)的要求。從特征圖角度來(lái)看,網(wǎng)絡(luò)無(wú)法通過(guò)不充足的訓(xùn)練樣本學(xué)習(xí)到穩(wěn)定而有效的特征圖組合,從而導(dǎo)致了網(wǎng)絡(luò)不收斂。要解決這個(gè)問(wèn)題需要加大測(cè)試樣本的數(shù)量。

為了訓(xùn)練和測(cè)試LeNet?5.3,對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)充:訓(xùn)練圖像庫(kù)包含字符圖像4 000幅,測(cè)試圖像庫(kù)包含字符圖像2 000幅。訓(xùn)練過(guò)程中的誤分類(lèi)率曲線如圖7所示。從圖7中可以看出,經(jīng)過(guò)32次迭代之后網(wǎng)絡(luò)趨于收斂,并且達(dá)到了較好的識(shí)別率。

4 結(jié) 語(yǔ)

本文針對(duì)貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別的難題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)LeNet?5改進(jìn)后的識(shí)別方法,主要對(duì)卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小進(jìn)行了改進(jìn)。且與傳統(tǒng)的BP網(wǎng)絡(luò)進(jìn)行了比較,從實(shí)驗(yàn)結(jié)果可以看出,改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)無(wú)論在魯棒性還是識(shí)別率以及識(shí)別速度上都優(yōu)于BP網(wǎng)絡(luò),可以很好地勝任列車(chē)車(chē)號(hào)識(shí)別任務(wù)。

參考文獻(xiàn)

[1] 宋敏.鐵路車(chē)輛車(chē)號(hào)自動(dòng)識(shí)別系統(tǒng)的研究和開(kāi)發(fā)[D].天津:河北工業(yè)大學(xué),2011:1?5.

[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.

[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.

[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.

[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.

[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.

卷積神經(jīng)網(wǎng)絡(luò)方法范文第4篇

1.神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來(lái)越復(fù)雜。感知和翻譯等大多數(shù)神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來(lái)越復(fù)雜,遠(yuǎn)非此前簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)所能比。特別需要注意的是,神經(jīng)網(wǎng)絡(luò)正與不同的技術(shù)(如LSTMs、自定義目標(biāo)函數(shù)等)相混合。

神經(jīng)網(wǎng)絡(luò)是多數(shù)深度學(xué)習(xí)項(xiàng)目的根基。深度學(xué)習(xí)基于人腦結(jié)構(gòu),一層層互相連接的人工模擬神經(jīng)元模仿大腦的行為,處理視覺(jué)和語(yǔ)言等復(fù)雜問(wèn)題。這些人工神經(jīng)網(wǎng)絡(luò)可以收集信息,也可以對(duì)其做出反應(yīng)。它們能對(duì)事物的外形和聲音做出解釋?zhuān)€可以自行學(xué)習(xí)與工作。

2.長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTMs)。當(dāng)你閱讀本文時(shí),你是在理解前面詞語(yǔ)的基礎(chǔ)上來(lái)理解每個(gè)詞語(yǔ)的。你的思想具有連續(xù)性,你不會(huì)丟棄已知信息而從頭開(kāi)始思考。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一大缺陷便無(wú)法做到這一點(diǎn),而遞歸神經(jīng)網(wǎng)絡(luò)能夠解決這一問(wèn)題。

RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))擁有循環(huán)結(jié)構(gòu),可以持續(xù)保存信息。過(guò)去幾年里,RNN在語(yǔ)音識(shí)別和翻譯等許多問(wèn)題上取得了難以置信的成功,而成功的關(guān)鍵在于一種特殊的RNN――長(zhǎng)短期記憶網(wǎng)絡(luò)。

3.“注意力模型”?!白⒁饬Α笔侵干窠?jīng)網(wǎng)絡(luò)在執(zhí)行任務(wù)時(shí)知道把焦點(diǎn)放在何處。我們可以讓神經(jīng)網(wǎng)絡(luò)在每一步都從更大的信息集中挑選信息作為輸入。例如,當(dāng)神經(jīng)網(wǎng)絡(luò)為一張圖片生成標(biāo)題時(shí),它可以挑選圖像的關(guān)鍵部分作為輸入。

4.神經(jīng)圖靈機(jī)依然有趣,但還無(wú)法勝任實(shí)際工作。當(dāng)你翻譯一句話時(shí),并不會(huì)逐詞進(jìn)行,而會(huì)從句子的整體結(jié)構(gòu)出發(fā)。機(jī)器難以做到這一點(diǎn),這一挑戰(zhàn)就被稱(chēng)為“強(qiáng)耦合輸出整體估計(jì)”。

神經(jīng)圖靈機(jī)就是研究者們?cè)诠杵兄噩F(xiàn)人類(lèi)大腦短期記憶的嘗試。它的背后是一種特殊類(lèi)型的神經(jīng)網(wǎng)絡(luò),它們可以適應(yīng)與外部存儲(chǔ)器共同工作,這使得神經(jīng)網(wǎng)絡(luò)可以存儲(chǔ)記憶,還能在此后檢索記憶并執(zhí)行一些有邏輯性的任務(wù)。

5.深度學(xué)習(xí)讓計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理不再是孤島。卷積神經(jīng)網(wǎng)絡(luò)最早出現(xiàn)在計(jì)算機(jī)視覺(jué)中,但現(xiàn)在許多自然語(yǔ)言處理(NLP)系統(tǒng)也會(huì)使用。LSTMs與遞歸神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)最早出現(xiàn)在NLP中,但現(xiàn)在也被納入計(jì)算機(jī)視覺(jué)神經(jīng)網(wǎng)絡(luò)。

此外,計(jì)算機(jī)視覺(jué)與NLP的交匯仍然擁有無(wú)限前景。

6.符號(hào)微分式越來(lái)越重要。隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)及其目標(biāo)函數(shù)變得日益復(fù)雜,手動(dòng)推導(dǎo)出“反向傳播”的梯度也變得更加困難而且容易出錯(cuò)。谷歌的TensorFlow等最新的工具包已經(jīng)可以超負(fù)荷試驗(yàn)符號(hào)微分式,能夠自動(dòng)計(jì)算出正確的微分,以確保訓(xùn)練時(shí)誤差梯度可被反向傳播。

7.神經(jīng)網(wǎng)絡(luò)模型壓縮的驚人成果。多個(gè)團(tuán)隊(duì)以不同方法大幅壓縮了訓(xùn)練一個(gè)良好模型所需的素材體量,這些方法包括二值化、固定浮點(diǎn)數(shù)、迭代修剪和精細(xì)調(diào)優(yōu)步驟等。

這些技術(shù)潛在的應(yīng)用前景廣闊,可能將會(huì)適應(yīng)在移動(dòng)設(shè)備上進(jìn)行復(fù)雜模型的訓(xùn)練。例如,不需要延遲就可以得到語(yǔ)音識(shí)別結(jié)果。此外,如果運(yùn)算所需要的空間和時(shí)間極大降低,我們就可以極高幀率(如30 FPS)查詢(xún)一個(gè)模型,這樣,在移動(dòng)設(shè)備上也可以運(yùn)用復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,近乎實(shí)時(shí)地完成計(jì)算機(jī)視覺(jué)任務(wù)。

8.深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)繼續(xù)交匯。在“端對(duì)端”機(jī)器人等領(lǐng)域出現(xiàn)了令人激動(dòng)的進(jìn)展,現(xiàn)在機(jī)器人已經(jīng)可以一起運(yùn)用深度和強(qiáng)化學(xué)習(xí),從而將原始感官數(shù)據(jù)直接轉(zhuǎn)化為實(shí)際動(dòng)作驅(qū)動(dòng)。我們正在超越“分類(lèi)”等簡(jiǎn)單工作,嘗試將“計(jì)劃”與“行動(dòng)”納入方程。

卷積神經(jīng)網(wǎng)絡(luò)方法范文第5篇

關(guān)鍵詞:圖像復(fù)原;盲復(fù)原;逆濾波;神經(jīng)網(wǎng)絡(luò)復(fù)原

1 圖像退化及復(fù)原模型

1.1 圖像降質(zhì)的數(shù)學(xué)模型

圖像復(fù)原處理的關(guān)鍵問(wèn)題在于如何建立退化模型。假定輸入圖像f(x,y)經(jīng)過(guò)某個(gè)退化系統(tǒng)后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對(duì)圖像的影響一般作為加性噪聲考慮,這也與許多實(shí)際應(yīng)用情況一致,如圖像數(shù)字化時(shí)的量化噪聲、隨機(jī)噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對(duì)數(shù)方式將其轉(zhuǎn)化為相加形式。原始圖像f(x,y) 經(jīng)過(guò)一個(gè)退化算子或系統(tǒng)H(x,y) 的作用,然后和噪聲n(x,y)進(jìn)行疊加,形成退化后的圖像g(x,y)。圖像退化的過(guò)程可以用數(shù)學(xué)表達(dá)式寫(xiě)成如下的形式:

g(x,y)=H[f(x,y)]+n(x,y)

n(x,y)是一種統(tǒng)計(jì)性質(zhì)的信息下圖表示退化過(guò)程的輸入和輸出的關(guān)系,其中H(x,y)包含了退化系統(tǒng)的物理過(guò)程,即所要尋找的退化數(shù)學(xué)模型。

1.2 圖像的退化恢復(fù)模型

數(shù)字圖像的圖像恢復(fù)問(wèn)題可以看作是:根據(jù)退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過(guò)程去求解原始圖像f(x ,y), 或者說(shuō)逆向地尋找原始圖像的最佳近似估計(jì)。

2 研究背景與意義

圖像復(fù)原是數(shù)字圖像處理技術(shù)的一個(gè)重要研究方向,在現(xiàn)實(shí)生活中,有著非常廣闊的應(yīng)用前景和市場(chǎng)。數(shù)字圖像處理研究很大部分是服務(wù)于數(shù)字圖像復(fù)原的,而運(yùn)動(dòng)模糊圖像的復(fù)原又是圖像復(fù)原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對(duì)衛(wèi)星所拍攝的圖像進(jìn)行復(fù)原,因?yàn)樾l(wèi)星相對(duì)地球是運(yùn)動(dòng)的,所拍出的圖像是模糊的(當(dāng)然衛(wèi)星所拍攝圖像的模糊原因不僅僅是相對(duì)運(yùn)動(dòng)而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國(guó)的噴氣推進(jìn)實(shí)驗(yàn)室(JPL)對(duì)徘徊者飛行器發(fā)回的月球照片進(jìn)行了圖像恢復(fù)處理。傳統(tǒng)的圖像恢復(fù)方法可以很好地恢復(fù)出來(lái)原始圖像,但是需要事先知道系統(tǒng)的先驗(yàn)知識(shí)(例如系統(tǒng)的點(diǎn)擴(kuò)散函數(shù))。在先驗(yàn)知識(shí)不足的情況下,如何恢復(fù)出來(lái)原始圖像?這就需要模糊圖像盲恢復(fù)技術(shù)。根據(jù)不同的應(yīng)用背景和先驗(yàn)知識(shí),大致可以?xún)煞N方法恢復(fù)兩種類(lèi)型的模糊圖像,以滿足不同的應(yīng)用要求。

第一種方法:如何快速恢復(fù)模糊圖像,進(jìn)行適時(shí)性圖像處理?這個(gè)技術(shù)在實(shí)際生活中有著廣泛應(yīng)用。

第二種方法:如何在事先不能確定模糊系統(tǒng)點(diǎn)擴(kuò)散函數(shù)的情況下,恢復(fù)模糊圖像,改善圖像的質(zhì)量,這就是圖像盲恢復(fù)的問(wèn)題。

3 國(guó)際國(guó)內(nèi)研究發(fā)展和現(xiàn)狀

從歷史上來(lái)看,數(shù)字圖像處理研究有很大部分是在圖像恢復(fù)方面進(jìn)行的,包括對(duì)算法的研究和針對(duì)特定問(wèn)題的圖像處理程序的編寫(xiě)。數(shù)字圖像處理中很多值得注意的成就就是在這兩方面取得的。

在六十年代中期,去卷積(逆濾波)開(kāi)始被廣泛地應(yīng)用于數(shù)字圖像恢復(fù)。這一階段對(duì)模糊圖像的研究主要是把因相對(duì)運(yùn)動(dòng)而拍攝的模糊圖像復(fù)原過(guò)來(lái),從而增強(qiáng)人們的判讀能力。早期做圖像復(fù)原研究,主要強(qiáng)調(diào)盡可能使模糊圖像復(fù)原到原貌,增加它的判讀性,在此發(fā)展了很多的復(fù)原方法,諸如:差分復(fù)原、維納濾波等.這些方法各有特點(diǎn),較好的解決了運(yùn)動(dòng)模糊圖像的判讀問(wèn)題,但是在應(yīng)用上均有一定的限制。

雖然經(jīng)典的圖象復(fù)原方法不少,但歸納起來(lái)大致可分為逆濾波法,或稱(chēng)相關(guān)變換法( inv ersefiltering or t ransfo rm related techniques) 和代數(shù)方法( alg ebraic techniques) 兩種。

3.1 傳統(tǒng)復(fù)原法

3.1.1 逆濾波方法

逆濾波法大致有經(jīng)典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經(jīng)典逆濾波的變換函數(shù)是引起圖象失真的變換函數(shù)的逆變換,其雖在沒(méi)有噪聲的情況下,可產(chǎn)生精確的復(fù)原圖象,但在有噪聲時(shí),將對(duì)復(fù)原圖象產(chǎn)生嚴(yán)重的影響,雖然濾波函數(shù)經(jīng)過(guò)修改,有噪聲的圖象也能復(fù)原,但它僅適用于極高信噪比條件下的圖象復(fù)原問(wèn)題; 維納濾波法是通過(guò)選擇變換函數(shù),同時(shí)使用圖象和噪聲的統(tǒng)計(jì)信息來(lái)極小化均方復(fù)原誤差,這雖然在一定程度上克服了逆濾波法的缺點(diǎn),但是維納濾波法需要較多有關(guān)圖象的先驗(yàn)知識(shí),如需要對(duì)退化圖象進(jìn)行滿足廣義平穩(wěn)過(guò)程的假設(shè),還需要知道非退化圖象的相關(guān)函數(shù)或功率譜特性等等,而在實(shí)際應(yīng)用中,要獲得這些先驗(yàn)知識(shí)有較大的困難,為此,Ozkan 等人在研究圖象序列的復(fù)原問(wèn)題時(shí),提出了一種解決空間和時(shí)間相關(guān)性的多幀維納濾波法,是近年來(lái)維納濾波法的新發(fā)展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩(wěn)圖象的復(fù)原,但是因計(jì)算量過(guò)大,而限制了其實(shí)際應(yīng)用的效果。 Wu 和Kundu 又對(duì)卡爾曼濾波方法進(jìn)行了改進(jìn),不僅提高了速度,并考慮了應(yīng)用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對(duì)卡爾曼濾波方法進(jìn)行了改進(jìn),提出了塊卡爾曼濾波方法; Koch 等提出了擴(kuò)展卡爾曼濾波( extended Kalmam filter) 復(fù)原方法,該方法可以較好地復(fù)原模糊類(lèi)型不相似的退化圖象.除了上述的逆濾波方法外,還有參數(shù)估計(jì)濾波法,它實(shí)質(zhì)上是維納濾波法的變種. 20 世紀(jì)90 年代初,又提出了基于遞歸圖象濾波的自適應(yīng)圖象復(fù)原方法及合成濾波方法,它代表了濾波方法新的發(fā)展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進(jìn)行了改進(jìn),即在代價(jià)函數(shù)中增加了空間自適應(yīng)正則化項(xiàng),從而很好地抑制了噪聲,并減少了振鈴現(xiàn)象,較好實(shí)現(xiàn)了在低SNR 條件下的盲圖象復(fù)原. 2001 年,Eng 等人結(jié)合模糊集的概念,提出了自適應(yīng)的軟開(kāi)關(guān)中值濾波方法,它能在有效地去掉脈沖噪聲的同時(shí),很好地保存圖象的細(xì)節(jié),是一種值得重視的新的圖象復(fù)原方法。

3.1 2 代數(shù)方法

Andrews 和Hunt 提出了一種基于線性代數(shù)的圖象復(fù)原方法。這種方法可能比較適合那些相對(duì)于積分運(yùn)算,則更喜歡矩陣代數(shù),而相對(duì)于分析連續(xù)函數(shù),又更喜歡離散數(shù)學(xué)的人的口味。它為復(fù)原濾波器的數(shù)字計(jì)算提供了一個(gè)統(tǒng)一的設(shè)計(jì)思路。代數(shù)方法可分為偽逆法、奇異值分解偽逆法、維納估計(jì)法和約束圖象復(fù)原方法等。 其中,偽逆法,實(shí)質(zhì)上是根據(jù)圖象退化的向量空間模型來(lái)找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計(jì)算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進(jìn)行分解,由于簡(jiǎn)化了計(jì)算,從而有利于模糊矩陣的估計(jì)計(jì)算,但在有噪聲存在時(shí),經(jīng)常會(huì)出現(xiàn)不穩(wěn)定的現(xiàn)象; 維納估計(jì)法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機(jī)過(guò)程,且已知其期望和協(xié)方差的情況。前面的方法僅把圖象看成是數(shù)字的陣列,然而一個(gè)好的復(fù)原圖象應(yīng)該在空間上是平滑的,其在幅度值上是正的,而約束圖象復(fù)原方法就是將這些因素作為約束條件,如基于維納估計(jì)法和回歸技術(shù)而提出的圖象復(fù)原方法就是一種約束圖象復(fù)原方法,而且通過(guò)選取不同的約束參數(shù)和回歸方法可以得到不同的圖象復(fù)原算法。傳統(tǒng)的圖象復(fù)原算法或面臨著高維方程的計(jì)算問(wèn)題,或要求恢復(fù)過(guò)程滿足廣義平穩(wěn)過(guò)程的假設(shè),這就是,使得具有廣泛應(yīng)用價(jià)值的圖象復(fù)原問(wèn)題沒(méi)有得到圓滿的解決的根本原因。

3.2 神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的方法

神經(jīng)網(wǎng)絡(luò)圖象復(fù)原方法的發(fā)展方向自從神經(jīng)網(wǎng)絡(luò)圖象復(fù)原首次提出十多年來(lái),其研究在不斷地深入和發(fā)展,描述它的現(xiàn)狀已屬不易,展望它的未來(lái)更是困難,況且科學(xué)研究具有不確定性. 據(jù)筆者判斷,如下諸方面是亟待解決的問(wèn)題,或研究活動(dòng)已有向這些方面集中的趨勢(shì)。

3. 2.1小波神經(jīng)網(wǎng)絡(luò)用于圖象復(fù)原將是研究的重點(diǎn)

自1992 年Zhang 提出小波神經(jīng)網(wǎng)絡(luò)以來(lái),如今已提出了各種類(lèi)型的小波網(wǎng)絡(luò),且小波與神經(jīng)網(wǎng)絡(luò)的結(jié)合成了一個(gè)十分活躍的研究領(lǐng)域。通過(guò)學(xué)者們的理論分析和模擬實(shí)驗(yàn)表明: 由于小波神經(jīng)網(wǎng)絡(luò)具有逼近能力強(qiáng)、可顯著降低神經(jīng)元的數(shù)目、網(wǎng)絡(luò)學(xué)習(xí)收斂的速度快、參數(shù)( 隱層結(jié)點(diǎn)數(shù)和權(quán)重) 的選取有理論指導(dǎo)、能有效避免局部最小值問(wèn)題等優(yōu)點(diǎn),因此將其用于圖象復(fù)原是一個(gè)值得研究的方向。將小波的時(shí)頻域局部性、多分辨性等性質(zhì),與神經(jīng)網(wǎng)絡(luò)的大規(guī)模并行性、自學(xué)習(xí)特性等優(yōu)點(diǎn)結(jié)合起來(lái),不僅將使用于圖象復(fù)原的小波神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)分辨性,也將使正則化參數(shù)的選取更具有自適應(yīng)能力. 最終使復(fù)原圖象既能保持圖象的細(xì)節(jié),又能很好地抑制圖象中的各種噪聲。

3.2.2細(xì)胞神經(jīng)網(wǎng)絡(luò)、BP 網(wǎng)絡(luò)、自組神經(jīng)網(wǎng)絡(luò)

值得進(jìn)一步研究細(xì)胞神經(jīng)網(wǎng)絡(luò)( CNN ) 由于其具有易于硬件實(shí)現(xiàn)的特點(diǎn),因而具有很強(qiáng)的商業(yè)價(jià)值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細(xì)胞神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)的進(jìn)一步完善及在此基礎(chǔ)上建立細(xì)胞神經(jīng)網(wǎng)絡(luò)中鄰域系統(tǒng)的概念; 與圖象數(shù)據(jù)局部相關(guān)性等概念結(jié)合起來(lái)研究,以建立新的圖象復(fù)原理論,形成新的圖象復(fù)原技術(shù)。BP 網(wǎng)絡(luò)對(duì)受污染或帶噪聲的訓(xùn)練樣本,不僅能進(jìn)行正確的映射,且與其純樣本仍相似。 正是BP 網(wǎng)絡(luò)的泛化能力強(qiáng),使它在解決圖象復(fù)原問(wèn)題時(shí),可能比其他神經(jīng)網(wǎng)絡(luò)具有更好的潛在性能。 將BP 網(wǎng)絡(luò)用于圖象復(fù)原是很值得進(jìn)一步研究的.大家知道,人腦的學(xué)習(xí)方式是“自主的”,即有自組織和自適應(yīng)的能力的,即人腦能在復(fù)雜、非平穩(wěn)和有“干擾”的環(huán)境及其變化的情況下,來(lái)調(diào)整自己的思維和觀念,還能根據(jù)對(duì)外界事物的觀察和學(xué)習(xí),找到其內(nèi)在的規(guī)律和本質(zhì)屬性,并能在一定的環(huán)境下,估計(jì)到可能出現(xiàn)的情況以及預(yù)期會(huì)遇到和感覺(jué)到的各種內(nèi)容及情況。 自組織神經(jīng)網(wǎng)絡(luò)(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數(shù)據(jù)中,揭示出它們之間內(nèi)在關(guān)系的能力,因此將其用于“盲圖象”的復(fù)原將是非常有利的。

3.2.3 需要提出更適合圖象復(fù)原的新神經(jīng)網(wǎng)絡(luò)模型

小波神經(jīng)網(wǎng)絡(luò)是為逼近任意非線性函數(shù)而提出來(lái)的,但為了圖象復(fù)原的需要,可考慮針對(duì)圖象復(fù)原的特殊情況,提出新的神經(jīng)網(wǎng)絡(luò)模型。 如,因?yàn)榇蠖鄶?shù)圖象是由平滑區(qū)域和輪廓細(xì)節(jié)組成的,其圖象數(shù)據(jù)在平滑區(qū)域雖具有較強(qiáng)的相關(guān)性,但與輪廓細(xì)節(jié)相鄰的數(shù)據(jù)應(yīng)極不相關(guān),所以,提出一種專(zhuān)用于圖象復(fù)原的“相關(guān)性神經(jīng)網(wǎng)絡(luò)模型”是必然的期待; 再有,因?yàn)槎囗?xiàng)式具有較廣的擬合性和較好的收斂性,所以應(yīng)提出的“多項(xiàng)式神經(jīng)網(wǎng)絡(luò)”,將它們用于圖象復(fù)原也是值得研究的。

3.2.4 神經(jīng)網(wǎng)絡(luò)與其他理論的結(jié)合

研究是尋求新模型、新方法的重要途徑目前神經(jīng)網(wǎng)絡(luò)的研究正由單純的神經(jīng)計(jì)算轉(zhuǎn)向計(jì)算智能,并結(jié)合腦科學(xué)的研究向生物智能方向發(fā)展。 為此,神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的研究也應(yīng)考慮吸收模糊、分形、混沌、進(jìn)化計(jì)算、信息融合等交叉學(xué)科的研究成果。 與模糊系統(tǒng)的結(jié)合將是一個(gè)重要的研究方向,因?yàn)?,神?jīng)網(wǎng)絡(luò)與模糊系統(tǒng)有如下很多的相同之處: ( 1) 它們?cè)谔幚砗徒鉀Q問(wèn)題時(shí),無(wú)需建立對(duì)象的精確數(shù)學(xué)模型,而只需要根據(jù)輸入的采樣數(shù)據(jù)去估計(jì)其要求的決策; ( 2) 在對(duì)信息的加工處理過(guò)程中,均表現(xiàn)出了很強(qiáng)的容錯(cuò)能力; ( 3) 它們都可以用硬件來(lái)實(shí)現(xiàn). 由此可見(jiàn),將神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)結(jié)合,用于圖象復(fù)原將是有意義的研究工作。

4 未來(lái)展望

圖像恢復(fù)發(fā)展到現(xiàn)在,已經(jīng)有了許多成熟的算法,但是還是存在許多問(wèn)題,等待著我們?nèi)ソ鉀Q。目前圖像恢復(fù)的最新發(fā)展有:

1. 非穩(wěn)圖像復(fù)原,即空間可變圖像復(fù)原。

2. 退化視頻信號(hào)的復(fù)原問(wèn)題,以及攝像機(jī)拍照?qǐng)D像復(fù)原,這是一個(gè)需要進(jìn)一步研究的領(lǐng)域。

3. 運(yùn)動(dòng)補(bǔ)償時(shí)空復(fù)原濾波,同時(shí)將時(shí)間相關(guān)應(yīng)用到運(yùn)動(dòng)補(bǔ)償中。

4. “Telemedicine“的出現(xiàn),遠(yuǎn)程診斷極大的依賴(lài)于遠(yuǎn)程接受的圖像質(zhì)量,圖像恢復(fù)在醫(yī)學(xué)領(lǐng)域中有相當(dāng)重要的作用。

5. 模糊 PSF 的 Identification 仍然是一個(gè)困難的問(wèn)題,尤其在空間可變的 PSF 的估計(jì)中。

6. 空間可變恢復(fù)方法,可以利用 Wavelets 和 Markov 隨機(jī)場(chǎng)等方法進(jìn)行復(fù)圖像恢復(fù),這是一個(gè)具有發(fā)展?jié)摿Φ难芯糠较颉?/p>

參考文獻(xiàn)

1 馮久超,黃海東. 基于神經(jīng)網(wǎng)絡(luò)的盲圖象恢復(fù)[ J ] . 計(jì)算機(jī)科學(xué),2000,27( 1) : 67~68.

2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.