导航菜单

首页 >  文章 >  2020入坑圖像分割,我該從哪兒入手?

2020入坑圖像分割,我該從哪兒入手?

图片说明:2020入坑圖像分割,我該從哪兒入手?,。

選自medium作者:Jakub Czakon機器之心編譯參與:小舟、Racoon、張倩作為計算機視覺的一個熱門方向,每年都會有很多同學入坑圖像分割。這一領域已經有瞭哪些研究成果、資源?目前面臨什麼困境?還有哪些問題值得研究?本文將重點討論這些問題。初識圖像分割顧名思義,圖像分割就是指將圖像分割成多個部分。在這個過程中,圖像的每個像素點都和目標的種類相關聯。圖像分割方法主要可分為兩種類型:語義分割和實例分割。語義分割會使用相同的類標簽標註同一類目標(下圖左),而在實例分割中,相似的目標也會使用不同標簽進行標註(下圖右)。圖源:Anurag Arnab, Shuai Zheng et. al 2018「Conditional Random Fields Meet Deep Neural Networks for Semantic Segmentation」圖像分割模型的基本架構包括編碼器與解碼器。編碼器通過卷積核提取圖像特征。解碼器負責輸出包含物體輪廓的分割蒙版。圖源:Vijay Badrinarayanan et. al 2017「SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation」大多數圖像分割架構都具有這樣的結構或是其變體,比如以下幾種:U-NetU-Net 最初是一個用於分割生物醫學圖像的卷積神經網絡。它的架構由兩部分組成,左側是提取路徑,右側是擴展路徑。提取路徑用來捕獲上下文,擴展路徑用來精準定位。提取路徑由兩個 3*3 的卷積組成。卷積後經過 ReLU 激活和用於降采樣的 2*2 最大池化計算。圖源:Olaf Ronneberger et. al 2015「U-net architecture image segmentation」FastFCN——快速全連接網絡在快速全連接網絡(FastFCN)架構中,聯合金字塔上采樣(Joint Pyramid Upsampling, JPU)模型代替瞭消耗大量存儲空間和時間的擴張卷積。該架構在核心部分使用瞭全連接網絡,並應用 JPU 進行上采樣。JPU 將低分辨率特征圖上采樣為高分辨率特征圖。圖源:Huikai Wu et.al 2019「FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation」Gated-SCNNGated-SCNN 架構包括一個雙流卷積神經網絡結構。在該模型中,使用一個單獨的分支來處理圖像的形狀信息。該形狀流被用來處理邊界信息。圖源:Towaki Takikawa et. al 2019「Gated-SCNN: Gated Shape CNNs for Semantic Segmentation」DeepLab在 DeepLab 架構中,帶有上采樣濾波器的卷積被用於密集預測型任務。多尺度的物體分割是通過空洞空間金字塔池化(atrous spatial pyramid pooling)完成的。最後,使用 DCNN 來提升物體邊界的定位精準度。通過在上采樣濾波器過程中插入 0 或對輸入特征圖稀疏采樣,來實現空洞卷積。圖源:iang-Chieh Chen et. al 2016「DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs」Mask R-CNN在 Mask R-CNN 架構中,使用邊界框和將圖片分割成一系列像素點的語義分割來對物體進行分類和定位。每個興趣區域會得到一個分割蒙版。最終還會輸出類標簽和邊界框。圖源:Kaiming He et. al 2017「Mask R-CNN」。下圖為在 COCO 測試集上實現的分割效果。圖源:Kaiming He et. al 2017「Mask R-CNN」圖像分割的損失函數、數據集、框架語義分割模型在訓練過程中通常使用簡單的跨類別熵損失函數。但是,如果你想獲得圖像的細節信息,則需要更高級的損失函數。損失函數1.Focal 損失該損失是對標準的交叉熵評價函數的改進。通過對其變形實現,以使分配給分好類別樣本的損失是低權重的。最終,這確保瞭沒有分類失衡。在該損失函數中,隨著正確類別置信度的增加,交叉熵損失隨比例因子逐漸衰減為零。比例因子會在訓練時自動降低簡單樣本的貢獻,更註重復雜的樣本。2.Dice 損失Dice 損失通過計算平滑的 dice 系數函數得到。該損失是分割問題中最常用的損失函數之一。3.IoU-平衡損失IoU-平衡分類損失旨在增加高 IoU 樣本的梯度同時減少低 IoU 樣本的梯度。通過這種方法,提升機器學習模型的定位準確率。4. 邊界損失邊界損失的一種變體被用於高度不平衡的分割任務。這種損失的形式是一種空間輪廓而非區域的距離度量。此方式解決瞭高度不平衡任務中區域損失帶來的問題。5. 加權交叉熵在交叉熵的一種變體中,所有正向的樣本都按一定的系數加權,用於類不平衡的情況下。6.Lovász-Softmax 損失該損失基於凸 Lovasz 擴展的子模塊損失,直接優化神經網絡中的平均 IoU。另外還有幾種值得註意的損失:TopK 損失:用來確保網絡在訓練過程中專註於復雜樣例;距離懲罰 CE 損失:用在那些難以分割的區域為網絡提供指引;靈敏度-特異性(SS)損失:計算特異性和靈敏度均方差的加權和;Hausdorff 距離(HD)損失:通過卷積神經網絡估計 Hausdorff 距離。數據集圖像分割可能用到的數據集有:Common Objects in COntext—Coco DatasetPASCAL Visual Object Classes (PASCAL VOC)The Cityscapes DatasetThe Cambridge-driving Labeled Video Database—CamVid框架在圖像分割領域,可用的框架有如下幾種:FastAI 庫:給出一張圖像,該庫能為圖像中的物體創建蒙版;Sefexa 圖像分割工具:Sefexa 是一個用於圖像分割、圖像分析、創造基本事實的免費的半自動工具;Deepmask:Facebook 研究中心的 Deepmask 是 DeepMask 和 SharpMask 的 Torch 實現;MultiPath:它是一個來自「用於對象檢測的多路徑網絡」的目標檢測網絡的 Torch 實現;OpenCV:一個有超過 2500 種的優化算法的開源計算機視覺庫;MIScnn:一個醫學圖像分割的開源庫。它僅需數行代碼就能用 SOTA 卷積神經網絡和深度學習模型建立路徑;Fritz:Fritz 提供瞭包括移動設備中的圖像分割工具在內的幾種計算機視覺工具。路在何方?作為一個新入坑的小白,如果以上內容你都掌握瞭,那恭喜你可以進入下一階段。但在進階過程中,有人表示自己遇到瞭問題:在這個問題的討論區,我們可以看到關於「語義分割」這一研究方向的討論,問題、出路都有人指出,可以為入坑圖像分割的小白提供一些洞見。綜合來看,大傢認為語義分割目前存在以下問題:研究進展趨緩,甚至已進入瓶頸期,提升 0.5 mIoU 都非常困難;數據集受限,少有的幾個數據集已經刷到接近天花板;算力消耗大,學界和一些小型業界團隊往往被算力掣肘;領域內卷,研究同質化嚴重,很容易被審稿人 diss,不容易中頂會那麼,問題這麼多,還有哪些方向值得努力呢?對此,港中文信息工程系助理教授周博磊等資深研究者給出瞭自己的觀點。周博磊認為,大傢之所以覺得語義分割遇到瞭瓶頸,很大程度上是因為沒找對問題。除瞭一些已經被廣泛研究的問題之外,「如何去進行小樣本物體檢測與分割,如何檢測和分割小件物體等都是目前語義分割和物體檢測需要去克服的難題。之所以大傢沒有註意到這些本質問題,是因為現有的數據庫把這些問題都規避掉瞭。」其他答主也指出瞭一些尚待研究的方向,比如輕量級語義分割、點雲分割、實時分割、如何更有效地利用數據等。喜歡挑戰的同學還可以去啃全監督語義分割,但需要豐富的機器資源。對於致力於深耕圖像分割的同學,機器之心之前也報道過一些學習資料,大傢可以點擊鏈接查看:在參加瞭 39 場 Kaggle 比賽之後,有人總結瞭一份圖像分割煉丹的「奇技淫巧」9102 年瞭,語義分割的入坑指南和最新進展都是什麼樣的用 Attention 玩轉 CV,一文總覽自註意力語義分割進展

 >  本文声明:

本文内容不代表正在播放无码av_无码AV视频在线_国产高清av视频--蜜桃圈APP视频立场,本站仅作整理、存档及学习之用,文章版权归属于原作者所有。

部分原创内容欢迎收藏、学习、交流、转载,但请保留文章出处及链接。

文章名称:2020入坑圖像分割,我該從哪兒入手?

文章地址:http://www.jubranz.com/article/44.html
有关热门【2020入坑圖像分割,我該從哪兒入手?】的标签