下面是一些由DeepMask繪制,并由SharpMask提煉的一些例子。為了使這些可視化結(jié)果簡(jiǎn)單易懂,我們只展示了其中極好地匹配了實(shí)際物體的一些預(yù)測(cè)掩碼圖像(人工注解)。請(qǐng)注意,這個(gè)系統(tǒng)還不是完美的,圖中具有紅色邊界的物體正是那些由人工標(biāo)注,但被DeepMask忽視掉了的物體。
物體分類
DeepMask對(duì)某個(gè)特定的物體類別一無(wú)所知,因此它雖然能勾畫出一只狗和一只羊,但無(wú)法區(qū)分它們。而且,DeepMask也不會(huì)精挑細(xì)選,對(duì)無(wú)關(guān)緊要的局部也會(huì)生成掩碼圖像。因此,我們?cè)趺纯s小相關(guān)掩碼圖像范圍,識(shí)別實(shí)際呈現(xiàn)之物?
正如你所期待的,我們?cè)僖淮吻笾谏疃壬窠?jīng)網(wǎng)絡(luò)(deep neural network)。給定一個(gè)由DeepMask產(chǎn)生的掩碼圖像,我們訓(xùn)練了另外一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)物體的掩碼圖像進(jìn)行分類(“無(wú)法分類”也是一個(gè)有效答案。)。
這里,我們遵循了一個(gè)基本的模式叫做 Rigion-CNN,或者縮寫為RCNN,(這個(gè)領(lǐng)域的開(kāi)路先鋒Ross Girshick現(xiàn)在也是FAIR的一員了。)RCNN分兩個(gè)階段:第一個(gè)階段是將注意力吸引到某些特定的圖像區(qū),第二個(gè)階段使用一個(gè)深度網(wǎng)絡(luò)來(lái)確認(rèn)呈現(xiàn)的物體。
開(kāi)發(fā)RCNN時(shí),第一階段的處理還非常原始,通過(guò)使用DeepMask來(lái)作為RCNN的第一階段,同時(shí)開(kāi)發(fā)深度神經(jīng)網(wǎng)絡(luò)的能力,我們?cè)跈z測(cè)的準(zhǔn)確性上獲得了顯著的提升,也獲得了對(duì)物體進(jìn)行分割的能力。
為了進(jìn)一步提高性能,我們把精力集中在一個(gè)特別的神經(jīng)網(wǎng)絡(luò)構(gòu)架上來(lái)對(duì)掩碼圖像進(jìn)行分類(RCNN的第二個(gè)階段)。如我們所討論的,真實(shí)世界的圖片里包含了物體的各種尺度,各種背景,各種雜亂,各種隱藏。標(biāo)準(zhǔn)的深度網(wǎng)絡(luò)在這種情況下就有困難了。為了解決這個(gè)問(wèn)題,我們搭建了一個(gè)改良的神經(jīng)網(wǎng)絡(luò),叫做MultiPathNet(多路徑網(wǎng)絡(luò))。
就像它的名字,MultiPathNet允許信息從網(wǎng)絡(luò)的多個(gè)路徑流通,使得它可以在不同的尺度和不同的環(huán)境背景下找到信息。
總而言之,我們的物體檢測(cè)系統(tǒng)遵循三步走程序:DeepMask產(chǎn)生最初的物體掩碼圖像,SharpMask 細(xì)化這些掩碼圖像,最終MultiPathNet 確認(rèn)由各個(gè)掩碼圖像勾畫的物體。
以下是幾個(gè)我們整套系統(tǒng)產(chǎn)生的輸出例子:
不完美也不寒磣。要知道,幾年前實(shí)現(xiàn)這些功能的技術(shù)根本不存在!
相關(guān)評(píng)論