所謂的“預(yù)見未來”并不像極具玄幻色彩的水晶球、塔羅牌那樣,Vestri只是一個好學(xué)的“孩子”,它通過用各種能想到的方式“把玩”面前的物品,并通過攝像頭采集視頻信息,Vestri會記下每次移動物體時的路線。當(dāng)Vestri面對了一個新的物品,不用再動手玩耍,Vestri也會知道采取哪種方式移動,物體的位置將發(fā)生哪種變化。
也許你會有點失望,Vestri并不是你想象中的人類先知那樣能預(yù)見世事,但對于目前的機器人來說,這確實算是一項超凡的能力了。Vestri擁有如此超凡能力的原因,來源于伯克利AI實驗室研發(fā)的一項深度學(xué)習(xí)新技術(shù)——視覺預(yù)見。這是一項什么樣的技術(shù)?是誰研發(fā)了它?這項技術(shù)對機器人行業(yè)將有怎樣的影響呢?
![]() |
據(jù)伯克利AI實驗室公布的視頻可以看到,Vestri擁有一條紅色的機械手臂和一臺顯示面部表情的顯示器組成。手臂的終端有兩半抓取鉗組成。從外觀上看,Vestri并不像人形機器人那么討喜,也沒有工業(yè)機器人龐大的身軀。
但這并不阻礙Vestri成為聰明的機器人,從視頻上我們可以看到,Vestri像人類嬰兒一樣,擺弄著眼前的玩具。這樣一個機器人到底有什么稀奇的呢?
1、Vestri兩大特點
區(qū)別于以往機器人,Vestri具有完全自學(xué)執(zhí)行任務(wù)和可預(yù)測行動結(jié)果兩大特點。
(1)完全自學(xué)執(zhí)行任務(wù)
許多常見的機器人只會按照給定的程序處理物體,沒有“自己的想法”,和機器無異。但Vestri看到眼前的物體后,會生成自己的判斷和想法,并據(jù)此不斷探索如何去“把玩”,整個過程完全不需要人類的監(jiān)督,可以說是“自學(xué)成才”了。
Vestri的研發(fā)者之一,加州伯克利大學(xué)分校的助理教授Sergey Levine說“雖然這種機器人的能力還很有限,但它完全是自動學(xué)習(xí)技能的,Vestri根據(jù)已記錄的交互模式(這些交互模式來自它之前自主學(xué)習(xí)的過程)來預(yù)測與未見過的新物體進行復(fù)雜物理交互時,選擇不同的方式分別會產(chǎn)生哪種結(jié)果。”
(2)可預(yù)測行動結(jié)果
常見的機器人都是按照事先預(yù)設(shè)好的指令代碼進行執(zhí)行,它們只理會“做”或者“不做”動作,并不會考慮這些動作是否會帶來不好的結(jié)果。
Vestri可以在執(zhí)行特定動作之前,就預(yù)測到這種動作將會產(chǎn)生怎樣的結(jié)果。當(dāng)然它能實現(xiàn)這種“特異功能”,得益于它在之前“擺弄”物體時,通過自帶攝像頭收集到了大量的數(shù)據(jù)。這些圖像數(shù)據(jù)信息就存儲在Vestri的系統(tǒng)內(nèi),預(yù)測圖像的像素將如何從一幀移動到下一幀。
2、Vestri背后的新技術(shù)
Vestri機器人本身并無特別之處,而它兩大特點,其實都基于一項最新的技術(shù)——“視覺預(yù)見”(visual foresight)。
該項技術(shù)由伯克利AI實驗室研發(fā),其技術(shù)核心是基于卷積循環(huán)視頻預(yù)測(convolutional recurrent video prediction)或動態(tài)神經(jīng)平流(簡稱DNA)(dynamic neural advection)的深度學(xué)習(xí)技術(shù)。
![]() |
這項即將改變?nèi)斯ぶ悄苁澜绲膶W(xué)習(xí)技術(shù),背后有研究員們辛勤的努力。目前Vestri運用的只是這項技術(shù)的早期的原型,只是教會機器人如何自主學(xué)習(xí)一些獨立的手工技能。雖然目前的技術(shù)只能使機器人預(yù)測幾秒鐘時間,但足以讓他們計算如何躲避障礙,成功地移動桌子上的物體。
視覺預(yù)見技術(shù)來自加州伯克利大學(xué)AI實驗室,而這項技術(shù)與以下兩位息息相關(guān)。
1、Sergey Levine
Sergey Levine是UC Berkeley電氣工程和計算機科學(xué)系的助理教授。目前他主要在兩大研究中心活動:伯克利AI實驗室(簡稱BAIR)和加州大學(xué)社會利益信息技術(shù)研究中心人與機器人部門(簡稱CPAR)。
2009年Sergey Levine同時獲得斯坦福大學(xué)計算機科學(xué)學(xué)士和碩士學(xué)位,并于2014年獲得斯坦福大學(xué)計算機科學(xué)博士學(xué)位。2016年秋季他加入UC Berkeley電氣工程與計算機科學(xué)系,主要研究用于決策和控制的機器學(xué)習(xí)技術(shù),重點研究深入學(xué)習(xí)和強化學(xué)習(xí)算法。工作的應(yīng)用包括自動機器人和車輛,以及計算機視覺和圖形。
他的研究包括開發(fā)結(jié)合感知和控制的深度神經(jīng)網(wǎng)絡(luò)策略中的端到端訓(xùn)練算法、逆向強化學(xué)習(xí)可伸縮算法、深度強化學(xué)習(xí)算法等。2016年他與Chelsea合作發(fā)表了“視覺預(yù)見”技術(shù)論文。此外,他還入選2016年MIT35歲以下科技創(chuàng)新者評選前35名。
2、Chelsea Finn
Chelsea Finn是Levine實驗室的一名博士研究生,她發(fā)明了最初的DNA模型。
2014年Chelsea Finn畢業(yè)于麻省理工大學(xué)電氣工程與計算機科學(xué)學(xué)院,2014年進入UC Berkeley攻讀PHD(學(xué)術(shù)研究型博士),主要研究機器人感知與控制。在進入BAIR之前,Chelsea Finn還曾在Consyl、Google和Sandia國家實驗室工作過。
2016年Chelsea Finn以第一作者的身份發(fā)表論文《面向機器人運動規(guī)劃的深度視覺預(yù)見》,該論文在2017年3月更新了第二版。
![]() |
UC Berkeley成立于1868年,全美排名21,該校有130個專業(yè)排名前10,其中土木工程、環(huán)境工程、生態(tài)學(xué)、化學(xué)、計算機相關(guān)專業(yè)均位列全美第一。 此外,該校有許多知名校友如戈登·摩爾、朱棣文、丘成桐等。國際知名的科學(xué)獎項如諾貝爾獎、菲爾茲獎、圖靈獎等也讓伯克利的校友們拿到手軟。UC Berkeley成立了70多個研究中心和實驗室,伯克利AI實驗室(簡稱BAIR)就是其中之一。
伯克利AI實驗室有目前有24名教師和100多名研究生,主要研究領(lǐng)域有計算機視覺、機器學(xué)習(xí)、自然語言處理和機器人。
2016年,實驗室博客BAIR開博,BAIR 博文的作者們包括在校學(xué)生、博士后及教職員工。博客內(nèi)容不僅面向?qū)I(yè)人員,還面向普通讀者們,并為他們及時提供實驗室的研究動態(tài)。
伯克利AI實驗室的研究成果也是層出不窮,之前其實驗室負(fù)責(zé)人Pieter Abbeel就曾與OpenAI的同事合作建立了初創(chuàng)公司“Embodied Intelligence”,開發(fā)出一款用AR訓(xùn)練機器人的軟件。本月2號,其實驗室還發(fā)布了最新的研究論文《基于模型的無模型精調(diào)深度強化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)動力學(xué)》,可以使機器人17分鐘就學(xué)會軌跡跟蹤。
就在12號BAIR博客上又更新了一條消息,他們研發(fā)了用于機械系統(tǒng)控制( MSC)的機器人安全交互系統(tǒng),該系統(tǒng)將保障人類在人機協(xié)作過程中的安全。
“視覺預(yù)見”技術(shù),運用的是機器人自己收集到的視頻信息,這就使得這項技術(shù)具有了普遍適用的基礎(chǔ)。
與傳統(tǒng)計算機視覺需要人類標(biāo)注成千上百萬的圖像不同,構(gòu)建視頻預(yù)測模型只需要機器人自己采集到的視頻而無需標(biāo)注。事實上,視頻預(yù)測模型也已經(jīng)被應(yīng)用于從人類活動到駕駛的各種數(shù)據(jù)集,并且取得了令人信服的結(jié)果。
Vestri集成的這項技術(shù)可以被用于自動駕駛系統(tǒng),目前,自動駕駛是十分熱門的領(lǐng)域,各大公司都在爭相研發(fā)無人駕駛車輛。使車輛在路上跑起來并不是大問題,最重要的問題是車輛如何躲避障礙以及突然出現(xiàn)的障礙物。視覺預(yù)見技術(shù)將能夠通過預(yù)測突發(fā)障礙物的行動軌跡,為自動駕駛汽車規(guī)劃最佳的躲避路線,從而保障了駕駛的安全。
除了用于自動駕駛,視覺預(yù)見技術(shù)還能用于研發(fā)更加智能的家庭機器人助理。尤其對有老人和小孩的家庭來說,集成視覺預(yù)見技術(shù)的機器人將可預(yù)測摔倒等危險情況的發(fā)生,并及時采取措施防患于未然。
不過,目前這一技術(shù)還不夠完善,它只能預(yù)測未來幾秒內(nèi)的動作,并且這些預(yù)測的依據(jù)也是機器人在之前自主學(xué)習(xí)過程中收集過的視頻信息。伯克利AI實驗室的研究員們說將繼續(xù)開發(fā)更復(fù)雜的方法,使機器人可收集更集中的視頻數(shù)據(jù),完成復(fù)雜的任務(wù)。