大范圍的應(yīng)用
視覺識(shí)別技術(shù)應(yīng)用范圍很廣。在此基礎(chǔ)上,計(jì)算機(jī)可以識(shí)別圖片中的物體,比如,無須為每張照片加上標(biāo)簽,即可更容易地搜索某些圖片。失去視覺的人們也可以理解他們的朋友所分享的圖片中的內(nèi)容,因?yàn)闊o論圖片是否配有說明文字,系統(tǒng)都可以告訴他們。
最近,我們演示了為盲人用戶開發(fā)的技術(shù):評(píng)估照片,描述其內(nèi)容。目前,視覺障礙的用戶在臉書新信息推送中遇到圖片時(shí),只能聽到照片發(fā)送者的名字,以及“圖片”這個(gè)詞。而我們的目的是提供更加豐富的描述,比如“圖片包含海灘,樹,和三個(gè)微笑的人”。
更進(jìn)一步,放大我們正在開發(fā)的技術(shù),我們的目標(biāo)是更加沉浸式的虛擬體驗(yàn):當(dāng)用戶用手指掃過圖片時(shí),系統(tǒng)為他們描述所觸摸的內(nèi)容,這樣用戶好像真的“看”到了照片一樣。
繼續(xù)前行,我們會(huì)繼續(xù)改善檢測(cè)和分割算法。你可以設(shè)想這種圖像檢測(cè)、分割、確認(rèn)能力應(yīng)用在商業(yè)、健康等其他增強(qiáng)現(xiàn)實(shí)領(lǐng)域的那一天。
另外,我們的下一個(gè)挑戰(zhàn)是將這些技術(shù)應(yīng)用在視頻中。在視頻中,物體是移動(dòng)的,交互的,隨時(shí)間變化的。對(duì)于觀看視頻,對(duì)其中的物體進(jìn)行實(shí)時(shí)理解和分類,我們已經(jīng)在計(jì)算機(jī)視覺方面取得了一些進(jìn)展。實(shí)時(shí)分類能幫助發(fā)現(xiàn)相關(guān)和重要的直播視頻,而應(yīng)用更好的技術(shù)來檢測(cè)場(chǎng)景、物體、時(shí)間和空間上的動(dòng)作會(huì)使得實(shí)時(shí)解說在某一天成為現(xiàn)實(shí)。對(duì)于持續(xù)推進(jìn)這些技術(shù),為每個(gè)人提供更好的Facebook體驗(yàn),我們非常興奮。
相關(guān)評(píng)論