日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 智能硬件 > 機(jī)器視覺
[導(dǎo)讀] 近日,Dishashree Gupta 在 AnalyTIcsvidhya 上發(fā)表了一篇題為《Architecture of ConvoluTIonal Neural Networks (CNN

近日,Dishashree Gupta 在 AnalyTIcsvidhya 上發(fā)表了一篇題為《Architecture of ConvoluTIonal Neural Networks (CNNs) demysTIfied》的文章,對用于圖像識別和分類的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)作了深度揭秘;作者在文中還作了通盤演示,期望對 CNN 的工作機(jī)制有一個(gè)深入的剖析。
 

引言

先坦白地說,有一段時(shí)間我無法真正理解深度學(xué)習(xí)。我查看相關(guān)研究論文和文章,感覺深度學(xué)習(xí)異常復(fù)雜。我嘗試去理解神經(jīng)網(wǎng)絡(luò)及其變體,但依然感到困難。

接著有一天,我決定一步一步,從基礎(chǔ)開始。我把技術(shù)操作的步驟分解開來,并手動執(zhí)行這些步驟(和計(jì)算),直到我理解它們?nèi)绾喂ぷ?。這相當(dāng)費(fèi)時(shí),且令人緊張,但是結(jié)果非凡。

現(xiàn)在,我不僅對深度學(xué)習(xí)有了全面的理解,還在此基礎(chǔ)上有了好想法,因?yàn)槲业幕A(chǔ)很扎實(shí)。隨意地應(yīng)用神經(jīng)網(wǎng)絡(luò)是一回事,理解它是什么以及背后的發(fā)生機(jī)制是另外一回事。

今天,我將與你共享我的心得,展示我如何上手卷積神經(jīng)網(wǎng)絡(luò)并最終弄明白了它。我將做一個(gè)通盤的展示,從而使你對 CNN 的工作機(jī)制有一個(gè)深入的了解。

在本文中,我將會討論 CNN 背后的架構(gòu),其設(shè)計(jì)初衷在于解決圖像識別和分類問題。同時(shí)我也會假設(shè)你對神經(jīng)網(wǎng)絡(luò)已經(jīng)有了初步了解。

1. 機(jī)器如何看圖?

人類大腦是一非常強(qiáng)大的機(jī)器,每秒內(nèi)能看(捕捉)多張圖,并在意識不到的情況下就完成了對這些圖的處理。但機(jī)器并非如此。機(jī)器處理圖像的第一步是理解,理解如何表達(dá)一張圖像,進(jìn)而讀取圖片。

簡單來說,每個(gè)圖像都是一系列特定排序的圖點(diǎn)(像素)。如果你改變像素的順序或顏色,圖像也隨之改變。舉個(gè)例子,存儲并讀取一張上面寫著數(shù)字 4 的圖像。

基本上,機(jī)器會把圖像打碎成像素矩陣,存儲每個(gè)表示位置像素的顏色碼。在下圖的表示中,數(shù)值 1 是白色,256 是最深的綠色(為了簡化,我們示例限制到了一種顏色)。

一旦你以這種格式存儲完圖像信息,下一步就是讓神經(jīng)網(wǎng)絡(luò)理解這種排序與模式。

2. 如何幫助神經(jīng)網(wǎng)絡(luò)識別圖像?

表征像素的數(shù)值是以特定的方式排序的。

假設(shè)我們嘗試使用全連接網(wǎng)絡(luò)識別圖像,該如何做?

全連接網(wǎng)絡(luò)可以通過平化它,把圖像當(dāng)作一個(gè)數(shù)組,并把像素值當(dāng)作預(yù)測圖像中數(shù)值的特征。明確地說,讓網(wǎng)絡(luò)理解理解下面圖中發(fā)生了什么,非常的艱難。

即使人類也很難理解上圖中表達(dá)的含義是數(shù)字 4。我們完全丟失了像素的空間排列。

我們能做什么呢?可以嘗試從原圖像中提取特征,從而保留空間排列。

案例 1

這里我們使用一個(gè)權(quán)重乘以初始像素值。

現(xiàn)在裸眼識別出這是「4」就變得更簡單了。但把它交給全連接網(wǎng)絡(luò)之前,還需要平整化(flatten) 它,要讓我們能夠保留圖像的空間排列。

案例 2

現(xiàn)在我們可以看到,把圖像平整化完全破壞了它的排列。我們需要想出一種方式在沒有平整化的情況下把圖片饋送給網(wǎng)絡(luò),并且還要保留空間排列特征,也就是需要饋送像素值的 2D/3D 排列。

我們可以嘗試一次采用圖像的兩個(gè)像素值,而非一個(gè)。這能給網(wǎng)絡(luò)很好的洞見,觀察鄰近像素的特征。既然一次采用兩個(gè)像素,那也就需要一次采用兩個(gè)權(quán)重值了。

希望你能注意到圖像從之前的 4 列數(shù)值變成了 3 列。因?yàn)槲覀儸F(xiàn)在一次移用兩個(gè)像素(在每次移動中像素被共享),圖像變的更小了。雖然圖像變小了,我們?nèi)阅茉诤艽蟪潭壬侠斫膺@是「4」。而且,要意識到的一個(gè)重點(diǎn)是,我們采用的是兩個(gè)連貫的水平像素,因此只會考慮水平的排列。

這是我們從圖像中提取特征的一種方式。我們可以看到左邊和中間部分,但右邊部分看起來不那么清楚。主要是因?yàn)閮蓚€(gè)問題:

1. 圖片角落左邊和右邊是權(quán)重相乘一次得到的。
2. 左邊仍舊保留,因?yàn)闄?quán)重值高;右邊因?yàn)槁缘偷臋?quán)重,有些丟失。

現(xiàn)在我們有兩個(gè)問題,需要兩個(gè)解決方案。

案例 3

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀
關(guān)閉