首頁 > 人工智能 > 正文

CVPR 2019 提前看:工業界與學術界的深度融合專題

2019-06-17 11:23:29  來源:機器之心

摘要:2019 年對于人工智能領域的發展是關鍵的一年。一方面,許多趁著 AI 的風口展開的項目紛紛慘淡收場;另一方面,也有不少人工智能產品通過了市場的檢驗,并獲得了寶貴的經驗數據以進一步打磨產品。
關鍵詞: 人工智能
  2019 年對于人工智能領域的發展是關鍵的一年。一方面,許多趁著 AI 的風口展開的項目紛紛慘淡收場;另一方面,也有不少人工智能產品通過了市場的檢驗,并獲得了寶貴的經驗數據以進一步打磨產品。人工智能研究的發展離不開產業界的支持,研究成果又可以反過來推動產業升級。而人工智能產品的落地除了算法本身以外,更離不開商業上的場景適配及優秀的工程實現等支持,因此學界和業界關注點的差別是巨大的。
 
  本次對于 CVPR2019 接收論文的探討筆者想專注于學術研究于業界的貢獻——以從業者的角度,討論怎樣的研究對于工業產品有更高的借鑒價值。當然,從產品角度看來有些「無用」的研究仍然是十分重要、需要投入資源的,只不過已經有大量關于學術會議的文章集中于討論此類基礎、創新的研究,因此筆者不妨「另辟蹊徑」。
 
  對于一位工程師來講,應用于產品的算法需要明確應用范圍、使用的損失函數/正則化手段等超參數需要高效且有合理的理由、算法開發應當盡可能自動化。本篇文章從這三個方面各選取了 1-2 篇文章進行討論。所選的文章的作者大都與工業界有些聯系,希望能夠從恰當的方面提升人工智能產品的表現,并且一定程度上保證算法落地的簡單性。
 
  論文討論
 
  1. Direct Object Recognition Without Line-of-Sight Using Optical Coherence
 
  鏈接:https://arxiv.org/pdf/1903.07705.pdf
 
  本文一作 Xin Lei 來自合刃科技,這是一家專注于全息全頻機器視覺系統研發的公司。曾經榮獲機器之心評選的 2017 年中國 10 大最具潛力早期 AI 公司。
 
  可能由于作者來自工業界,文章的出發點十分實際——目前的機器視覺算法主要集中研究有直接視線(direct line-of-sight)的物體,即傳感器(相機、雷達、激光等)直接作用于物體成像。這些算法所取得的表現已經十分優秀,但在某些產品的實際應用中,我們往往希望算法即使在沒有直接視線的時候也能夠至少有一定的表現。比如在自動駕駛中,汽車如果能夠識別拐角處的行人或障礙物,就能提前做出應對。
 
  早于 2014 年, Singh 等人就提出過利用全息圖像來達到無視線直接可視化物體的方法,不過,全息技術要在工業界產品中應用具有一定的挑戰性?;诖?,作者直接利用激光——在工業界的應用廣泛得多的傳感器——在墻面上的散射光來復原無直接視線的物體。
 
  光不僅有強度(intensity)信息,更包含了相位信息。普通光源發出的是非相干光(incoherent light),據此獲得的照片將會丟失相位信息。而根據激光等相干光的拍攝的照片強度依賴于反射光源的物體的幾何形狀和相對于圖像的位置,因此,拍攝具有復雜表面幾何形狀的物體折射的相干光,圖像上會呈現復雜的、看似隨機的干涉圖案,即散斑圖案。相位信息由散斑圖案中的光強度的明暗分布表示。
 
  本質上,該方法和全息圖像利用的都是激光的相干性,只是作者將實驗設置簡化成為只利用一束激光,這樣之后在產品上的部署會更簡單。
\
圖 1.1: 左:手寫數字的散斑圖案模擬;右:人體姿勢的散斑圖案模擬
 
  上圖左給出了一個例子——模擬手寫數字的散斑圖案。頂行中的圖像是來自 MNIST 數據集的手寫數字的原始圖像,而底行中的圖像是與頂行中的數字相對應的散斑圖案。在人眼看來,上圖中的底行圖像未免有些嘈雜,并且沒有明顯的模式。作者在本文中證明了深度神經網絡可以有效的學習散斑團中包含的對象信息并且執行對象識別。實際上,相位信息往往是十分重要的。雖然目前普遍的研究方法是將許多傳感器信號直接轉化為一般圖像——如將聲音信號轉化為時頻譜(spectrogram)然后使用 cnn 識別,這種方法的好處是更加直觀——筆者在參與的研發項目中發現使用復數卷積將傅立葉變換后的雷達信號的虛數部分也納入神經網絡中能夠帶來準確率的大幅提升。
 
  此外,從上圖右可以看出,不僅僅不同的數字、姿勢等模式可以形成不同的散斑圖案,不同的人體折射的激光也會形成不同的散斑圖案,因為不同人的身材等特征不同。這會給識別任務造成一定的困難。
 
  作者一共提供了 4 種實驗情況,分別是 1. 以墻壁阻擋物體和相機之間的直接視線,激光位于物體一側; 2. 以墻壁阻擋物體和相機之間的直接視線,激光位于相機一側;3. 以旋轉的墻壁阻擋物體和相機之間的直接視線,激光位于物體一側;4. 以墻壁兩次阻擋物體和相機之間的直接視線,激光位于物體一側。見下圖示意:
\
圖 1.2: 實驗的 4 種設置
 
  作者使用了兩種神經網絡——simpleNet(由 4 個卷積層和一個全連接層)和 Resnet18,前者用于手寫數字的識別,后者則用于人體姿勢的識別。最終的模型表現如下:
\
表 1.1:神經網絡識別手寫數字散斑圖案結果
 
  表中提供的結果有基于實驗的,也有基于仿真的,為什么做出這樣的選擇作者沒有做出解釋??傮w來說模型的準確率非常高,全部高于 90%,相對于目前手寫數字識別準確率可以達到 99% 以上的表現也沒有差很多。這里值得注意的是模型在實驗設置 1、2、4 的模擬數據上表現完全一樣,筆者本來期待的準確率是實驗設置 1>2>4,因為光強度在經過墻壁漫反射后應該會降低,從而導致信噪比低得多,識別精度也應該相應降低。這里沒有出現這種情況筆者猜測是實驗環境比較理想,加上距離較近,在幾次反射中也沒有損失太多信息。
\
圖 1.3:神經網絡識別人體姿勢散斑模擬圖案結果
 
  圖 3 顯示了神經網絡(resnet-18)識別人體姿勢散斑模擬圖案結果,這里的結果全部是基于仿真得到的結果,且僅使用了第一種實驗設置,因此可以預見在實驗數據上準確度應該還會進一步下降。10 個姿勢的平均識別準確率為 78.18%,最高可以達到 91%,最低則只有 56%,相對于手寫數字識別的表現來說是一個比較大的下降。不過,如果使用的神經網絡經過更細致的調優,這部分準確率的損失也許能夠被彌補。
 
  這里作者使用的數據質量已經是在相當理想的情況下才可能獲得的——無背景、僅有檢測目標且需識別的動作也較明顯。另外一些離落地還較遠的點有:在大部分實驗場景中作者將激光設置在物體一側而非相機一側;實驗場景較小,激光離物體和墻壁都非常近——作者也提到未來可以使用邊緣發光二極管激光器等能夠發射發散光束的激光器來增加面積。
 
  但本文提出的方法也有其他突出優點——因為相干源是單色的神經網絡僅需要使用灰度圖像,這可以減小模型大小并加快運行速度;圖像中的每個區域都包含被拍攝物體的全部信息,即便部分圖案被遮擋也不影響算法的工作,相對來說不像一般的 CNN 那么依賴成像的質量,同時也可以減小參數的數量。
 
  總體來看,筆者認為目前該算法在作者舉例的自動駕駛等場景中得到應用的可能性暫時還比較小——僅考慮相機需要拍攝到被折射的激光所形成的散斑圖案就已經是一個很大的問題——但在一些單調的場景中也許已經可以找到用武之地。
 
  2. Precise Detection in Densely Packed Scenes
 
  鏈接:https://arxiv.org/pdf/1904.00853.pdf
 
  本文一作 Eran Goldman 來自 Trax retail,是一名高級研發工程師。專門開發大規模細粒度結構化分類解決方案,以及在擁擠場景中進行物體檢測。
 
  本文也是在 Eran Goldman 所專注的領域——擁擠場景——下所做出的研究,這些場景通常是人造的,例如貨架上密集拜訪的商品、交通和城市景觀圖像。盡管在現實世界存在著大量此類環境,但它們在目前常用的神經網絡訓練/檢測數據集中卻較少被收錄。因此,現有模型的表現往往在這種數據集上大幅下降。這一點也是筆者在前文中提到的,目前很多工程師都詬病深度學習使用的數據集仍然與產品真正面對的情況相去甚遠——大部分物體識別的圖片都以目標識別物為前景,圖片內容干凈,即便圖片是基于真實世界場景,它們所展現的也是一個「更好版本的世界」。
 
  為了解決這類問題,作者提出了使用 Soft-IoU 層學習 Jaccard 指數,然后將 IoU 分數轉換為高斯混合分布(MoG),利用期望最大化(EM)求解并將重疊檢測合并為單一檢測。下圖圖示了整個神經網絡的運作流程。
\
圖 2.1:檢測系統圖示。(a)輸入圖像;(b)基礎網絡,帶有邊界框(BB)和 objectness (Obj.) heads,以及 Soft-IoU 層;(c)利用 EM 算法(EM-Merge)將 Soft-IoU 轉換為 Gaussian heat-map;(d)被多個重疊邊界框檢測到的對象;(e)合并重疊檢測。
 
  作者也使用了 Resnet 作為神經網絡的主干,然后連接了三個 FPN (Feature Pyramid Network) 來檢測對象,一個為 detection head(圖 2.1 中的 BB),為每個對象生成一個 4 元組邊界框,(x,y,h,w),分別為邊界框的中心坐標、邊界框高度和寬度;另一個為 classification head(圖 2.2 中的 objectness (Obj.) heads),用于預測表示有無檢測目標的標簽 c;最后一個即是作者提出的 Soft-IoU。
 
  IoU,即 Jaccard index,用于衡量回歸檢測框和對象位置的重合程度,在目標檢測中十分常見。這里筆者僅簡單給出文中的定義——給定 N 個預測,預測的邊界框$b_i$,i∈{1..N} 與實際邊界框$\hat{b_i}$之間的 IoU 定義為:
\
  作者從概率角度理解上式,并用交叉熵(binary cross-entropy loss)讓 Soft-IoU 層學習該 IoU 值。Soft-IoU 層的預測則被稱為 Soft-IoU 得分,$c^{iou}∈[0, 1]$。
 
  網絡的損失函數則由三部分組成,即 detection head 的回歸損失,classification head 的分類損失,以及 Soft-IoU 的交叉熵。
 
  接下來的部分作者稱其為 EM-Merger 單元——現在,給定測試圖像,網絡會輸出 N 個預測的邊界框位置,每個位置都有其對應的檢測目標標簽 c 和 Soft-IoU 得分$c^{iou}$。
 
  作者將網絡生成的 N 個邊界框視為一組二維高斯分布:
\
  其中p為 2D 圖像坐標,因此,第 i 個檢測的 4 元組邊界框,(x_i,y_i,h_i,w_i),中的框的中心點 (x_i,y_i) 可以由$\mu_i$表示,框的大小 (h_i,w_i) 則可以由協方差矩陣$\Sigma_i = [(h_i/4)^2, 0; 0, (w_i/4)^2] 表示。
 
  將這些高斯分布結合起來,則可以用一個高斯混合分布(MoG) 表達:
\
  其中混合系數$\alpha_i = \frac{c^{iou}}{\sum_{k=1}^N c^{iou}_k}$由模型給出,故與實際邊界框重合更多的預測會被分配更多權重。
\
圖 2.2:可視化 EM-Merger 單元的輸出。
 
  圖 2.2 將高斯混合分布(MoG) 轉換為 heat map 進行了可視化,可以達到像素精度,每個檢測區域的高斯混合分布密度由累積的 Soft-IoU 加權計算得出。
 
  接下來,作者將問題定義為找到一組由 k 個高斯分布組成的混合高斯分布來逼近上文中得出的 N 個高斯分布組成的混合高斯分布,其中 k 應該遠小于 N。即,給出高斯混合分布:
\
  我們希望兩個高斯混合分布之間的 KL 散度盡可能的?。?/div>
\
  上述優化問題可以用 EM 算法求解,E-step 將每個邊界框分配到最近的邊界框集群,其中邊界框相似性由相應高斯分布之間的 KL 距離定義;M-step 隨后對模型的參數($\beta$, $\mu$, $\Sigma$)重新進行估計。
 
  雖然這樣做模型多了一定計算量,但由于作者使用的是 EM 算法,該算法在 2D 空間的矩陣計算十分快,并且由于檢測框是軸對齊的,協方差矩陣是對角協方差(diagonal covariances),可以進一步提高計算速度。
\
表 2.1:檢測運行時比較
\
表 2.2:檢測精度比較
 
  作者還對所提出的方法進行了 runtime 分析,與目前運行較快的目標檢測神經網絡進行了分析,表 2.1 中報告了每秒平均幀數(FPS)和每秒檢測數(DPS)?;€方法是基于 RetinaNet 所以兩者的運行時間是相同的,可以看到,添加 Soft-IoU 層不會影響表現。添加了 EM-Merger 單元后基線方法的 FPS 和 DPS 直接降低了一半,運行速度有明顯下降,作者認為這是因為 GPU 和 CPU / RAM 之間需要進行內存交換,并且說明其 GPU 優化版本幾乎與基線方法一樣快,但文中并沒有看到具體數據。
 
  文章所提出的方法相較 faster-rcnn 和 yolo9000 在運行速度上仍然有明顯的差距,不過其檢測精度大大優于后兩個網絡。模型的 precision 和 recall 并沒有比 RetinaNet 高很多,但 MAE 和 RMSE 小了很多,說明模型預測的每一個檢測框幾乎都更準確的檢測到了目標(RetinaNet 有很多多余的檢測框),在其后報告的計數任務上的表現也證明了模型在這方面的能力。
 
  筆者個人很欣賞這篇文章的算法設計,引入的 Soft-IoU 和 M-Merger 單元及其簡單精巧的求解,但模型表現的提升仍有些不夠驚艷,不過這也說明了這些密集的場景仍然是未來工作的一個挑戰性前沿。另外,筆者認為在這類場景中傳統計算機視覺算法也許能夠取得不錯的結果——如從灰度圖像的邊緣/線條檢測出發——如果能夠看到模型與這類傳統模型的表現和運行速度的比較就更好了。
 
  3. RegularFace: Deep Face Recognition via Exclusive Regularization
 
  鏈接:http://mftp.mmcheng.net/Papers/19cvprRegularFace.pdf
 
  作者個人主頁:http://kaizhao.net/cn/
 
  本文一作趙凱,目前是南開大學博士生,導師是程明明教授。趙凱在上海大學完成了本科和碩士學業,研究興趣主要在計算機視覺,統計學習和強化學習。
 
  損失函數的設計和正則化對深度學習算法的表現有著極大的影響,筆者在此前的文章中也探討過這方面的論文。本篇論文以人臉識別為背景,通過懲罰同一性與其最近鄰居之間的角度, 明確區分身份, 從而形成判別面的表示。本文筆者想討論的是不同損失函數對算法表現的影響。
 
  對于分類任務來說,傳統上我們使用 softmax 來引導 cnn 將輸入數據轉化為可分的特征,但由于特征的類內方差較大,會出現某些類內距離大于類間距離的情況,造成分類困難。學習辨別性特征(discriminative feature)是準確識別不同類別的關鍵。類間分散程度 (inter-class separability) 與類內緊湊程度 (intra-class compactness) 是具有辨別性的兩個重要因素:屬于同一類的特征應當在表示空間中更接近,而屬于不同類的特征在表示空間中則應該比較疏遠。
 
  本文中作者主要比較了幾個損失函數的效果:Softmax loss,Angular softmax loss,Center loss,SphereFace 以及作者提出的 RegularFace。
 
  softmax 這里筆者不過多贅述,僅給出定義。
\
  1(.) 是一個指標函數,當條件為真時值為 1,否則值為 0。y_i 為輸入數據對應的標簽,C 是標簽類的數量。然后我們將偏置歸零并歸一化 W 的每一列以推導角度 Angular softmax loss,給定的向量 x_i 屬于類 c 的 xi 的后驗是:
\
  在上式中,是$\phi_{i,j}$是 x_i 特征和權重向量 W_j 之間的角度。顯然,最小化 softmax loss 相當于最小化$\phi_{i,y_i}$。因此,權重向量 W_j 可以被視為所有 y_i = j 的 xi 的聚類中心。由于偏置 b 為 0,權重的模為 1,決策邊界的角度現在只取決于角度,可以大大簡化問題。
 
  SphereFace 本質上使用的就是 Angular softmax loss,但其在決策邊界引入了角度余量,以便在超球面空間中壓縮相同類別的特征表示。
\
  其中 m 是超參數,來控類別之間的 angular margin。當 m = 1 時,上式完全等價于 Angular softmax loss 的后驗分布。
 
  筆者認為這個思想和 svm 的設計有些相像:面對一系列能夠區分來自不同的類的特征的決策邊界,svm 試圖找到能夠最大化到不同類的例子的距離的決策邊界。并且由于 svm 可以將訓練數據映射到更高維的空間內,找到合適的決策邊界的難度也大大降低了。
 
  Center loss 的思想則有些類似 k-means 算法。它的特征與其相應中心之間的歐幾里德距離,目的是在表示空間中強加類內緊湊性:
\
  其中 x_i 是樣本 i 的對應特征,c_{yi} 則是相應的中心。
 
  作者認為,利用數據可視化將訓練數據對應的特征在低維空間(2D 或 3D)中表示的方法實際上是有誤導性的——由于在這種情況下,數據標簽的類別大于表示維度,聚類算法傾向于拉伸數據以減少分類錯誤。這樣會造成聚類中心少在某種程度上均勻地分布在特征空間中的錯覺,并認為在這些聚類中心附近有更好的可分性——顯然,如果中心點均勻的分布在特征空間中,距離其他中心點距離最遠的就是該中心點。然而,在實際訓練中,我們往往在維度遠大于數據標簽的類別的空間中表示數據,作者認為這種情況下集群中心可能分布不是很均勻。
 
  為了證明這一觀點,作者使用將特征映射到標簽置信度的分類矩陣 W ∈ R^{K×C} 來定量評估類間可分性。W_i 是 W 的第 i 列,其表示第 i 個標簽類的權重向量,K 是特征向量的維度。則類間可分性可以定義為:
\
  其中$\phi_{i,j}$是 W_i 和_Wj 之間的角度。理想情況下,聚類中心應該是均勻分布的,并且盡可能遠離其他聚類中心,因此,cos 值應當較小。換句話說,Sep 的平均值和標準差應該盡可能小。下表列出了用不同損失函數訓練的模型的定量比較。模型使用的網絡和數據集都是一樣的。
\
表 3.1:不同不同損失函數的類間可分性?!鸽S機」表示模型參數是從均勻分布中提取的。
 
  表 3.1 的統計數據證明了以上方法的聚類中心分布不是很好。不過,從上述數據也很難看出這種區別是否具有統計顯著性。另外,SphereFace 的數據實際上不錯,將偏置歸零并將權重能夠明顯減小方差,angular margin 的引入則能減小均值。
 
  回歸到作者提出的損失函數,作者從另一角度出發,不是增加類內的緊湊性,而是增加類間的分散程度。前文提到,在 angular softmax loss 中,權重向量 W_j 可以被視為所有 x_i 在 y_i = j 上的聚類中心。為了為了增加來自不同類的樣本之間的角度距離,作者引入了正則化函數:
\
  實際上就是將作者提出的類間可分性指標作為正則化。
 
  下圖 3.1 對上文提到的損失函數進行了可視化表示。
\
圖 3.1: 可視化不同損失函數的決策邊界,點代表數據對應的特征,不同顏色表示不同類別。
 
  可以看到,Softmax loss 僅學習可分離的決策邊界;Angular softmax loss 和 Softmax loss 本質上是等價的,但學習的是角度可分離的決策邊界; Center loss 將屬于同一類的特征表示「拉」到其中心,以便獲得緊湊和有辨別力的表示;SphereFace 將數據點的外邊界「推遠」; RegularFace 將數據點的中心「推遠」。
 
  在實際應用中,將這一正則化與 Angular softmax loss——或其他損失函數——加在一起,就是完整的 RegularFace。這樣,Angular softmax loss 將樣本 x_i 對應的特征拉向其聚類中心 W_{yi}。同時,正則化項將推動不同的聚類中心分離。
 
  作者還在多個數據集上進行了測試,使用 RegularFace 幾乎都取得了最優結果,特別是 RegularFace 結合 SphereFace??磥怼鸽p管齊下」還是有效果的。
 
  從這篇文章其實可以看到,目前很多神經網絡研究的思路和過去幾十年學者優化傳統統計模型的思路還有相似之處。如果這樣,不妨也研究一下如何將 svm 等傳統模型應用在海量數據上,特別是二階矩陣運算所帶來的限制。此外,本文中損失函數的設計其實和笛卡爾坐標系和極坐標系之間的轉換很相似,在許多問題中,如信號處理,坐標的選擇也十分重要,「換個角度看世界」,可能問題就簡單許多。
 
  4. Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
 
  鏈接:https://arxiv.org/pdf/1901.02985.pdf
 
  作者個人主頁:https://www.cs.jhu.edu/~cxliu/
 
  文章作者 Chenxi Liu 是 Johns Hopkins University 大學的博士生,師從 Alan Yuille,Chenxi Liu 此前于加州大學洛杉磯分校取得碩士學位,清華大學取得本科學位。他還曾在谷歌,Adobe,豐田技術學院,多倫多大學和萊斯大學展開過研究。Chenxi Liu 的研究領域在于計算機視覺和自然語言處理,特別是它們的交集。
 
  神經網絡結構搜索 (NAS) 一直是一個值得關注的研究領域,和 auto-ML 的愿景一樣,NAS 領域的研究者希望能夠最大化的降低深度學習算法構建對人的依賴性。圖像分類是 NAS 的一個很好的起點,因為它是最基礎和最被充分研究的識別任務。并且,CIFAR-10 和 MNIST 等小圖像基準數據集的存在便于展開探索性研究。
 
  在本文中,作者試圖將 NAS 的應用延伸到語義圖像分割任務中。但這樣做首先面臨著分辨率變化帶來的問題——NAS 在圖像分類任務中的搜索一般是在低分辨率圖像上進行的,而高分辨率對語義分割的準確率是相當重要的。因此,作者提出兩個要求:(1)更寬松和通用的搜索空間來捕捉更高分辨率帶來的架構變化,以及(2)更高效的架構搜索技術,因為更高的分辨率會帶來更大的計算量。
 
  作為一個搜索問題,自然的,執行任務之前需要對搜索空間定義。在 NAS 任務中,神經架構搜索空間是定義的子空間,通過對一般的神經架構施加約束來定義可能的神經架構,并且形成一個有限的運算空間。搜索空間可以分為兩類:全局搜索空間 和 cell-based 搜索空間。
 
  由于目前取得優秀表現的神經架構幾乎都基于重復的固定結構,然后由這個固定結構堆疊起來形成神經網絡的大概架構。因此,神經架構搜索可以對這樣的固定結構——一般稱為單元(cell)——進行搜索。而全局搜索空間中假設有一個架構模版,用于限制搜索架構時可以選擇的運算,整體來說,自由度較大。對于 NAS 的更多介紹,可以參考機器之心的這篇文章:神經架構搜索方法知多少。
 
  回到本文中,作者沒有像現有的工作一樣僅集中在搜索可重復的單元結構,他們的算法同時試圖在一定程度上搜索全局搜索空間。
 
  首先看作者對 cell-based 搜索空間的定義:作者將一個單元定義為一個小的卷積模塊,更具體地,單元是由 B 個模塊組成的有向無環圖。每個模塊是雙分支結構,從 2 個輸入張量映射到 1 個輸出張量。單元 l 中的模塊 i 可以定義為 5 元組(I_1,I_2,O_1,O_2,C),其中 I_1,I_2 是輸入張量,O_1,O_2 是應用于相應輸入張量的層的類型,C 是用于組合這個模塊的兩個分支的輸出,以形成該模塊的輸出張量 H_i^l 的方法。則單元的輸出張量 H^l 就是每個模塊的輸出張量 H_1^l,..., H_B^l 的串聯。
 
  從數學上,可以定義為每個模塊的輸出張量 H_i^l 都連接到輸入 I_i^l 中的所有隱藏狀態:
\
  這里 O_{j→I} 可以用它的連續松弛?j→i 近似:
\
  其中:
\
  換句話說,α_{j→i}^k 是與每個運算符 O^k 相關聯的歸一化標量,容易實現為 softmax,從而容易對備選的層類型做出選擇。在一個單元內,所有張量都具有相同的 shape,這使得方程中的(加權)總和成為可能。
 
  單元 l 中的模塊 i 的輸入張量 I_i^l 的集合包括前一個單元 H^{l-1} 的輸出,前前一個單元 H^{l-2} 的輸出,以及當前單元中的此前的模塊的輸出 {H_1^l, ..., H_i^l}。因此,隨著模塊的增加,下一個模塊的輸入張量集合會不斷增加。作者定義了 8 個常見的運算符組成可能的層類型集合 O:
\
圖 4.1: 層類型集合 O
 
  由于 H^{l-1} 和 H^{l-2} 總是包含在 I_i^l 中,并且 H^l 是 {H_1^l,..., H_B^l} 的串聯。結合此前的數學表達,單元的更新方程可以表達為:
\
  可能的組合運算符 C 的集合則僅包括元素添加(element-wise addition)。
 
  全局搜索空間方面,網絡的搜索起點總是一個兩層「骨干」神經網絡,用于將分辨率降低兩倍。此后,神經網絡可以最多有 L 層,每層可以下采樣或維持目前的分辨率,最終分辨率可以被降低 4-32 倍。下圖給出了這個搜索思路的圖示,搜索目標是在這個 L 層的空間中找到合適的路徑。
\
圖 4.2: NAS 搜索策略圖示
 
  圖 4.2 中的左側圖解了全局搜索空間,灰色節點表示固定的「骨干」神經網絡,沿藍色節點的路徑表示候選神經架構?;疑^代表了標量β,用于控制網絡整體架構。網絡的更新方程為:
\
  其中 s=4,8,16,32,即下采樣倍數,l=1,2,...,L。因此,藍色節點連接的三個箭頭代表著該層之后神經網絡應該下采樣、維持分辨率不變或上采樣,分別對應上式的三個部分。
 
  標量β需要被歸一化,以保證β也容易實現為 softmax:
\
  網絡的更新方程實際上顯示了本文中兩個層次(單元層次和全局層析)的連續松弛如何能夠組合在一起。引入這種連續松弛是必要的,它使得標量$\alpha,\beta$變得可微,便于優化。從作用上看,β控制外部網絡級別,因此取決于空間大小和層索引。β中的每個標量控制整組α,而α指定既不依賴于空間大小也不依賴于層索引的結構。
 
  圖 4.2 中的右圖表明在搜索過程中,單元(cell)之間是密集連接的結構。每個黃色箭頭與α_{j→i} 相關聯。concat 之后的三個箭頭分別與β_{s/2→s}^l,β_{s→s}^l,β_{2s→s}^l 相關聯。
 
  雖然筆者起初感覺這種全局搜索的設計有些「人工」,但令人驚訝的是,該設計的表示能力非常強大。
\
圖 4.3: 目前流行的網絡設計用文中的搜索空間表達
 
  目前 U-net 等需要和前 n 層連接的網絡結構還不能被表示,但通過對搜索策略的簡單更改就可以實現這一操作,作者也提到在未來他們計劃進一步放寬這個搜索空間。
 
  作者在 Cityscapes, PASCAL VOC 2012 和 ADE20K 數據上匯報了搜索到的最佳神經網絡架構的表現,并與其他網絡進行了對比。神經網絡架構的搜索以語義分割的準確率為損失函數進行訓練。在 Cityscapes 上,搜索到的架構準確率比 FRNN-B 等模型高出 8.6%,在 PASCAL VOC 2012 和 ADE20K 上,Auto-DeepLab 也優于多個基于 ImageNet 預訓練的模型。
 
  不過,筆者實際上更期待作者能夠給出與基于其他搜索方法的模型表現對比?;趶娀瘜W習和進化算法的優化策略也是 NAS 研究中常用的手段,強化學習通過獎勵函數的設置可以帶來較強的引導性,而進化算法依賴的變異等操作不依賴梯度,在對搜索空間的探索上有優勢。但缺點是效率太低。而作者在文章中強調 Auto-DeepLab 的優勢之一就是搜索非常有效——在 Cityscapes 數據集上的搜索只需要大約 3 P100 GPU days。如果能夠看到與目前效果比較好搜索方案的表現和耗時比較就更好了。
 
  筆者個人非常喜歡這篇文章,也很期待 NAS 的進一步發展。NAS 研究的突破必然能夠提高人工智能工業產品的開發速度。不過,從目前的發展水平來看,當前的 NAS 設計仍然非常局限于任務范圍,或者說研究僅在有限種類的任務上進行。并且即使確定了搜索空間,在實際運用中仍然有許多需要人工確定的搜索條件,比如特征核的數量。這篇文章的亮點主要在于作者通過人工的搜索策略設計所能夠達到驚艷的表示能力、將$\alpha,\beta$設計為可以輕易轉換為 softmax 的設計、以及連續松弛帶來的梯度優化。
 
  小結
 
  總體來看,筆者認為目前的人工智能研究陷入了一個看似「矛盾」的狀態:一方面,人工智能的熱度仍然熱度很高,獲得了學界和業界的密切關注;另一方面,唱衰人工智能的聲音也隨處可見,許多認為人工智能的寒冬已經近了。筆者認為,與其說人工智能的能力有限,不妨說簡單的、入門的任務已經解決的差不多了。比如目前許多研究使用的神經網絡主干都相似(resnet 等),然后在其上做一些適配修改,就可以在許多基準任務上取得還不錯的結果。而更復雜的任務仍然十分困難,面對真實世界的嘈雜數據,神經網絡仍然很難取得令人滿意的結果,如上文 Precise Detection in Densely Packed Scenes 中取得的 average precision 也不過是 50% 左右。在這些任務上,仍然需要有突破性的創新,才可能解決真正的困難。
 
  這種「矛盾」也適用于業界的人才的要求——一方面,數據爆發、知識增加,使得人們精通一門學科/研究越來越難;另一方面,跨學科的知識融合越來越重要。這似乎有些困難,不過筆者相信,熱愛這份工作的人一定會對面對的困難感到興奮,同時在新知識的學習中找到樂趣。畢竟在工作中能夠自由地、名正言順地探索、試錯、測驗自己的想法的機會并不多 :p
 
  作者簡介:YUANYUAN LI:幾次轉行,本科國際貿易,研究生轉向統計,畢業后留在歐洲,選擇從事農用機械研發工作,主要負責圖像處理,實現計算機視覺算法的落地。欣賞一切簡單、優雅但有效地算法,試圖在深度學習的簇擁者和懷疑者之間找到一個平衡。我追求生活的寬度,這也是為什么在工作之外,我也是機器之心的一名兼職分析師。希望在這里通過分享自己的拙見、通過思想的碰撞可以拓寬自己的思路。
 
  機器之心個人主頁:https://www.jiqizhixin.com/users/a761197d-cdb9-4c9a-aa48-7a13fcb71f83

第二十八屆CIO班招生
法國布雷斯特商學院MBA班招生
法國布雷斯特商學院碩士班招生
法國布雷斯特商學院DBA班招生
責編:baiyl
日本熟妇色在线视频