Facebook開源機(jī)器視覺工具 帶你從像素點(diǎn)中發(fā)現(xiàn)規(guī)律

2016-09-01
編輯:summer
瀏覽:
評論

在臉書的人工智能研究中心(Facebook AI Research, FAIR),我們正在將計(jì)算機(jī)視覺技術(shù)推向一個(gè)全新的階段——我們的目標(biāo)是讓計(jì)算機(jī)能像人類一樣,從像素的水平去分析圖像和物體。

  下面是一些由DeepMask繪制,并由SharpMask提煉的一些例子。為了使這些可視化結(jié)果簡單易懂,我們只展示了其中極好地匹配了實(shí)際物體的一些預(yù)測掩碼圖像(人工注解)。請注意,這個(gè)系統(tǒng)還不是完美的,圖中具有紅色邊界的物體正是那些由人工標(biāo)注,但被DeepMask忽視掉了的物體。

游俠網(wǎng)

  物體分類

  DeepMask對某個(gè)特定的物體類別一無所知,因此它雖然能勾畫出一只狗和一只羊,但無法區(qū)分它們。而且,DeepMask也不會精挑細(xì)選,對無關(guān)緊要的局部也會生成掩碼圖像。因此,我們怎么縮小相關(guān)掩碼圖像范圍,識別實(shí)際呈現(xiàn)之物?

  正如你所期待的,我們再一次求助于深度神經(jīng)網(wǎng)絡(luò)(deep neural network)。給定一個(gè)由DeepMask產(chǎn)生的掩碼圖像,我們訓(xùn)練了另外一個(gè)深度神經(jīng)網(wǎng)絡(luò)來對物體的掩碼圖像進(jìn)行分類(“無法分類”也是一個(gè)有效答案。)。

  這里,我們遵循了一個(gè)基本的模式叫做 Rigion-CNN,或者縮寫為RCNN,(這個(gè)領(lǐng)域的開路先鋒Ross Girshick現(xiàn)在也是FAIR的一員了。)RCNN分兩個(gè)階段:第一個(gè)階段是將注意力吸引到某些特定的圖像區(qū),第二個(gè)階段使用一個(gè)深度網(wǎng)絡(luò)來確認(rèn)呈現(xiàn)的物體。

  開發(fā)RCNN時(shí),第一階段的處理還非常原始,通過使用DeepMask來作為RCNN的第一階段,同時(shí)開發(fā)深度神經(jīng)網(wǎng)絡(luò)的能力,我們在檢測的準(zhǔn)確性上獲得了顯著的提升,也獲得了對物體進(jìn)行分割的能力。

  為了進(jìn)一步提高性能,我們把精力集中在一個(gè)特別的神經(jīng)網(wǎng)絡(luò)構(gòu)架上來對掩碼圖像進(jìn)行分類(RCNN的第二個(gè)階段)。如我們所討論的,真實(shí)世界的圖片里包含了物體的各種尺度,各種背景,各種雜亂,各種隱藏。標(biāo)準(zhǔn)的深度網(wǎng)絡(luò)在這種情況下就有困難了。為了解決這個(gè)問題,我們搭建了一個(gè)改良的神經(jīng)網(wǎng)絡(luò),叫做MultiPathNet(多路徑網(wǎng)絡(luò))。

  就像它的名字,MultiPathNet允許信息從網(wǎng)絡(luò)的多個(gè)路徑流通,使得它可以在不同的尺度和不同的環(huán)境背景下找到信息。

  總而言之,我們的物體檢測系統(tǒng)遵循三步走程序:DeepMask產(chǎn)生最初的物體掩碼圖像,SharpMask 細(xì)化這些掩碼圖像,最終MultiPathNet 確認(rèn)由各個(gè)掩碼圖像勾畫的物體。

  以下是幾個(gè)我們整套系統(tǒng)產(chǎn)生的輸出例子:

游俠網(wǎng)

  不完美也不寒磣。要知道,幾年前實(shí)現(xiàn)這些功能的技術(shù)根本不存在!

提示:支持鍵盤“← →”鍵翻頁
0

相關(guān)評論

VR最熱資訊

關(guān)于游俠 | 廣告合作 | 人才招聘 | 投訴建議 | 聯(lián)系我們 | 網(wǎng)站地圖 | 版權(quán)保護(hù)投訴指引
Copyright @ 1999-2018 ALi213.Net All Right Reserved 蘇ICP備2023007791號-1
游俠網(wǎng) 版權(quán)所有