|
![]()
開發(fā)基于相機(jī)的檢測系統(tǒng)需要進(jìn)行迭代,了解采樣和清晰度對圖像質(zhì)量的影響,并使用數(shù)據(jù)集來評估系統(tǒng)性能。 WELINKIRT DaoAI科學(xué)家鄧志偉
設(shè)計(jì)基于攝像頭的檢測系統(tǒng)的復(fù)雜任務(wù)可能會因諸如使用低成本和資源受限的架構(gòu)等要求而變得復(fù)雜。為了管理這種復(fù)雜性,使用視覺系統(tǒng)開始算法開發(fā)的實(shí)踐應(yīng)包括導(dǎo)航復(fù)雜性的開發(fā)方法,圖像質(zhì)量特征的起點(diǎn)以及設(shè)計(jì)和評估方法。
從視覺系統(tǒng)開始很重要,原因有兩個(gè)。首先,算法性能受限于視覺系統(tǒng)產(chǎn)生的圖像質(zhì)量。盡管增加算法的能力是可能的,但在某些時(shí)候它的性能受到圖像質(zhì)量的限制。其次,視覺系統(tǒng)很復(fù)雜,跨多個(gè)組件具有許多相互作用的參數(shù),因此在開發(fā)周期后期更改參數(shù)非常昂貴。
WELINKIRT DaoAI科學(xué)家 ZhiWei Deng說,用戶可以通過DaoAI稀疏聚合深度卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵架構(gòu)來設(shè)計(jì)算法,計(jì)算機(jī)視覺內(nèi)部跳過連接的模式,用于聚集較早層的輸出以供較深層使用。這種聚合對于以端到端的方式促進(jìn)非常深層網(wǎng)絡(luò)的訓(xùn)練至關(guān)重要。這是殘余網(wǎng)絡(luò)得到廣泛采用的主要原因,殘余網(wǎng)絡(luò)通過累積求和來匯總輸出。在隨后的工作中研究替代聚合操作(例如,級聯(lián))時(shí),微鏈機(jī)器人認(rèn)知系統(tǒng)將重點(diǎn)放在一個(gè)正交問題上:該輸出在網(wǎng)絡(luò)的特定點(diǎn)處進(jìn)行聚合。微鏈機(jī)器人認(rèn)知系統(tǒng)提出了一種新的內(nèi)部連接結(jié)構(gòu),該結(jié)構(gòu)僅聚合任何給定深度的一組稀疏的先前輸出。微鏈科技的實(shí)驗(yàn)表明,這種簡單的設(shè)計(jì)更改提供了具有更少參數(shù)和更低計(jì)算需求的性能。此外,微鏈機(jī)器人認(rèn)知系統(tǒng)證明了稀疏聚合可以使網(wǎng)絡(luò)更穩(wěn)健地?cái)U(kuò)展到1000層以上,從而為訓(xùn)練長期運(yùn)行的視覺過程打開了未來的途徑。
在本文中,基于攝像機(jī)的檢測系統(tǒng)包括圖1所示的以下組件:場景中的目標(biāo)對象;場景成像的環(huán)境;視覺系統(tǒng)(圖像傳感器,鏡頭和光源);捕獲的數(shù)字化場景,包括感興趣的對象;以及識別場景內(nèi)感興趣對象的算法。
![]()
圖1:本文引用的基于攝像機(jī)的檢測系統(tǒng)包括場景中的關(guān)注對象;場景成像的環(huán)境;視覺系統(tǒng)(圖像傳感器,鏡頭,光源);捕獲的數(shù)字化場景,包括感興趣的對象;以及識別場景內(nèi)感興趣對象的算法。
建立,衡量,學(xué)習(xí)–一種開發(fā)方法
在開發(fā)之初,通常存在一個(gè)“雞還是蛋”問題:檢測算法的能力將驅(qū)動視覺系統(tǒng)要求,而視覺系統(tǒng)產(chǎn)生的圖像質(zhì)量將驅(qū)動檢測算法要求。成功的設(shè)計(jì)是視覺系統(tǒng)和檢測算法的功能協(xié)調(diào)一致,從而達(dá)到業(yè)務(wù)目標(biāo)的設(shè)計(jì)。在開發(fā)過程中,必須同時(shí)考慮算法和視覺系統(tǒng)。為了做到這一點(diǎn),需要有效的迭代。
一種靈活的,迭代的方法,稱為“構(gòu)建-測量-學(xué)習(xí)”循環(huán),它基于精益啟動原理,為通過集中學(xué)習(xí)進(jìn)行有效迭代提供了框架。要使用此方法,請?jiān)诿看蔚_始時(shí)問以下三個(gè)問題:
1.我們需要學(xué)習(xí)什么?這應(yīng)該基于以前的經(jīng)驗(yàn)。
2.要了解這一點(diǎn),我們需要測量什么?
3.要衡量這一點(diǎn),我們需要構(gòu)建什么?然后,僅構(gòu)建所需學(xué)習(xí)所需的內(nèi)容。
例如,我們將構(gòu)建測量學(xué)習(xí)循環(huán)方法應(yīng)用于低成本,基于攝像頭的線性條形碼讀取器的設(shè)計(jì),該讀取器可以在單個(gè)圖像捕獲中的較大視場中解碼盡可能多的條形碼。想象一下動態(tài)變化很大的環(huán)境,條形碼閱讀器可以在任何方向快速移動。在整個(gè)環(huán)境中,不同大小的條形碼以各種角度和距條形碼讀取器的距離處于隨機(jī)位置。
使用構(gòu)建測量學(xué)習(xí)循環(huán)方法,步是學(xué)習(xí)圖像傳感器和鏡頭所需的“類別”,這將設(shè)置基線硬件成本目標(biāo)(圖2)。為了了解這一點(diǎn),我們測量了基準(zhǔn)攝像機(jī)使用解碼精度作為度量標(biāo)準(zhǔn)來生成高質(zhì)量圖像的能力。為了衡量這一點(diǎn),我們使用了現(xiàn)成的鏡頭和圖像傳感器開發(fā)套件來構(gòu)建相機(jī)。收集了一個(gè)小的數(shù)據(jù)集,并使用現(xiàn)成的模塊開發(fā)了個(gè)修訂算法。
![]()
圖2:實(shí)際的build-measure-learn循環(huán)顯示了設(shè)計(jì)低成本,基于相機(jī)的線性條形碼閱讀器的示例。
次迭代學(xué)習(xí)不僅獲得了所需的圖像傳感器和鏡頭,還獲得了基線相機(jī)成本估算。我們還了解到運(yùn)動模糊是限制檢測準(zhǔn)確性的主要噪聲源。
我們將這些學(xué)習(xí)進(jìn)行到第二次迭代中,并專注于解決運(yùn)動模糊問題。為了了解這一點(diǎn),我們測量了相機(jī)在快速運(yùn)動場景中產(chǎn)生高質(zhì)量圖像的能力。利用從迭代1中學(xué)到的知識,我們設(shè)計(jì)了一種使用較短的曝光時(shí)間和全局快門圖像傳感器來減少運(yùn)動模糊的方法。使用現(xiàn)成的組件和全局快門傳感器構(gòu)建了新的相機(jī)。收集了另一個(gè)數(shù)據(jù)集,對算法進(jìn)行了修改,并對圖像質(zhì)量和算法性能進(jìn)行了評估。
從第二次迭代中獲得的主要經(jīng)驗(yàn)是,全局快門方法有效,并且進(jìn)一步提高算法功能將可以使用成本更低的圖像傳感器。隨著更多迭代的進(jìn)行,更多的學(xué)習(xí)指導(dǎo)了成功的設(shè)計(jì)決策,包括具有定制鏡頭系統(tǒng),現(xiàn)成鏡頭,全局快門圖像傳感器和高性能算法的成功設(shè)計(jì)。使用這種構(gòu)建度量學(xué)習(xí)循環(huán)方法有助于保持對下一個(gè)重要學(xué)習(xí)的關(guān)注,并減少了非增值調(diào)查。它提高了迭代的效率,并導(dǎo)致設(shè)計(jì)達(dá)到了業(yè)務(wù)目標(biāo),使視覺系統(tǒng)的功能與算法的功能保持了一致。
采樣和清晰度–起點(diǎn)
空間分辨率可以說是影響力的圖像質(zhì)量特征,因此在設(shè)計(jì)基于相機(jī)的檢測系統(tǒng)時(shí),這是一個(gè)合理的起點(diǎn)。空間分辨率定義了可以在圖像中檢測到的最小可能特征或?qū)ο蟮拇笮。⑶铱梢苑譃閮蓚€(gè)部分:采樣和清晰度。
采樣是給定區(qū)域上的像素?cái)?shù),通常以每英寸像素或每毫米像素表示。由于它是光學(xué)系統(tǒng)放大倍數(shù)的函數(shù),因此隨物距的變化而變化。采樣不足會減少區(qū)分細(xì)節(jié),并增加混疊失真。為了確定系統(tǒng)的采樣要求,必須知道區(qū)別特征的物理尺寸,檢測距離以及準(zhǔn)確檢測所需的像素?cái)?shù)。
為了適應(yīng)具有挑戰(zhàn)性的情況,請?jiān)诘臋z測距離(放大倍率)下,以4-5個(gè)像素的像素?cái)?shù)開始區(qū)別特征。通常,一開始,不清楚區(qū)別特征是什么或?qū)⑹鞘裁矗貏e是在應(yīng)用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)時(shí)。首先,在采樣時(shí)過沖,因?yàn)榭梢员仍谲浖性黾硬蓸痈菀椎販p少采樣,從而允許使用算法進(jìn)行實(shí)驗(yàn)以確定等效的最小采樣r 。
使用薄透鏡方程,可以很容易地將采樣要求驅(qū)動回視覺系統(tǒng)參數(shù)。對于具有最小失真的光學(xué)堆疊尤其如此。最終,采樣要求將驅(qū)動圖像傳感器像素?cái)?shù),圖像傳感器像素大小和鏡頭焦距。關(guān)于薄透鏡方程式的令人興奮的事情是,在購買圖像傳感器或透鏡組件之前,可以在紙上計(jì)算和評估這些參數(shù)。DaoAI使用這些薄透鏡方程式創(chuàng)建了一個(gè)Excel工作表(圖3)以進(jìn)行快速迭代。
![]()
圖3: DaoAI使用薄透鏡方程式創(chuàng)建了一個(gè)Excel工作表以進(jìn)行快速迭代
如果光學(xué)系統(tǒng)的畸變率約為5%或更高,則薄透鏡方程式無法對系統(tǒng)進(jìn)行精確建模。將采樣驅(qū)動回視覺系統(tǒng)參數(shù)變得更具挑戰(zhàn)性–需要手頭的組件和實(shí)驗(yàn)室測量。
清晰度是圖像空間頻率的度量。通常,具有區(qū)別性的細(xì)節(jié)將具有高空間頻率的內(nèi)容。在評估影響銳度的視覺系統(tǒng)參數(shù)時(shí),最容易從兩種不同的情況下進(jìn)行觀察:靜態(tài),固定和動態(tài)。
在靜態(tài)情況下,清晰度的前三個(gè)影響因素是環(huán)境,鏡頭和圖像傳感器:
環(huán)境中的霧氣,灰塵和微粒會使圖像模糊,因此請?jiān)谙到y(tǒng)中解決這些問題設(shè)計(jì)。
劣質(zhì)鏡頭和鏡頭在圖像傳感器上的聚焦會引入模糊。其他因素包括溫度和制造–由于制造而造成的模糊隨溫度的變化以及透鏡之間的變化變異。
圖像傳感器通過像素串?dāng)_引入模糊。這隨光譜波長而變化,大多數(shù)圖像傳感器供應(yīng)商將在請求。
當(dāng)有運(yùn)動時(shí),運(yùn)動速度與曝光時(shí)間共同決定圖像中的模糊程度。為了減少模糊,請限制運(yùn)動速度和/或最小化曝光時(shí)間,這將影響許多其他視覺系統(tǒng)參數(shù),例如圖像亮度,照明強(qiáng)度以及更多。
評估系統(tǒng)性能
建立好系統(tǒng)后,評估數(shù)據(jù)集性能的一種好方法就是使用數(shù)據(jù)集。數(shù)據(jù)集用于訓(xùn)練機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,當(dāng)設(shè)計(jì)傳統(tǒng)的計(jì)算機(jī)視覺算法時(shí),它們可用于提供見解。數(shù)據(jù)集還可以對系統(tǒng)性能進(jìn)行頻繁和高效的評估,并提供有關(guān)解決方案是否按預(yù)期運(yùn)行的寶貴見解。
DaoAI使用一種稱為算法開發(fā)框架的工具來收集數(shù)據(jù),管理和處理數(shù)據(jù)以及有效地開發(fā)和評估。該框架分為五個(gè)部分,包括:視覺系統(tǒng),數(shù)據(jù)集收集,地面實(shí)況或標(biāo)簽,算法開發(fā)和性能評估,如圖4所示
![]()
圖4: DaoAI使用一種稱為算法開發(fā)框架的工具,該工具使他們能夠收集數(shù)據(jù),管理和處理數(shù)據(jù)以及有效地開發(fā)和評估。
行準(zhǔn)確的系統(tǒng)評估,必須在具有代表性的環(huán)境中使用具有代表性的視覺系統(tǒng)收集數(shù)據(jù)集。理想情況下,視覺系統(tǒng)的最終版本應(yīng)用于收集數(shù)據(jù)集。如果無法做到這一點(diǎn),請?jiān)谠O(shè)計(jì)視覺系統(tǒng)時(shí)收集具有代表性組件的小型初步數(shù)據(jù)集。
該算法應(yīng)與數(shù)據(jù)集一起產(chǎn)生的答案是評估的關(guān)鍵。這被稱為基本事實(shí)或標(biāo)簽。通常,地面實(shí)況調(diào)查需要人工解釋,而且通常是一個(gè)昂貴的步驟。但是,具有基本事實(shí)的數(shù)據(jù)集可以成為使產(chǎn)品發(fā)展的專有資產(chǎn)。
開發(fā)算法后,將使用數(shù)據(jù)集和基本事實(shí)來評估系統(tǒng)性能。性能評估需要定義一個(gè)度量來衡量系統(tǒng)性能。使用預(yù)先記錄的數(shù)據(jù)集評估系統(tǒng)性能可以加快開發(fā)速度,但是,解決方案的信心取決于數(shù)據(jù)集的內(nèi)容。因此,將數(shù)據(jù)集設(shè)計(jì)為代表應(yīng)用空間非常重要。
使用數(shù)據(jù)集評估系統(tǒng)性能就像軟件世界中的黑盒測試一樣。但是,有時(shí)必須執(zhí)行較低級別的“單元”測試。一種方法是通過對信號路徑進(jìn)行建模以了解噪聲源及其對圖像質(zhì)量的影響。圖5顯示了基于攝像機(jī)的檢測系統(tǒng)的主要組件。每個(gè)組件受不同噪聲源的影響,并且每個(gè)噪聲源在捕獲的圖像質(zhì)量中都起著一定的作用。在每個(gè)步驟應(yīng)用的來自每個(gè)組件的不同傳遞函數(shù)或噪聲源都會影響原始信號。
![]()
圖5:對信號路徑進(jìn)行建模有助于開發(fā)人員了解噪聲源及其對圖像質(zhì)量的影響。
對信號路徑進(jìn)行建模可以深入了解非明顯的噪聲源以及它們是否具有適當(dāng)?shù)慕鉀Q方案。它還可以幫助確定哪些噪聲源需要進(jìn)一步研究或?qū)嶒?yàn)。
當(dāng)您從事設(shè)計(jì)基于嵌入式攝像頭的檢測系統(tǒng)的復(fù)雜任務(wù)時(shí),請使用實(shí)踐來啟動視覺系統(tǒng)的算法開發(fā)。并記住要使用迭代開發(fā)方法,首先要獲得的圖像質(zhì)量特征(采樣和清晰度),并使用數(shù)據(jù)集來評估系統(tǒng)性能。
|