MIT 協助機器人精確識別重要物體

在整理一個凌亂的廚房時，可能會從滿是醬料包的檯面開始。如果目標是將檯面清理乾淨，可能會將所有醬料包一起掃走。然而，若想先挑出芥末醬包再丟掉其他的，則需要根據醬料類型進行更精細的分類。如果在芥末中有一包 Grey Poupon，尋找這個特定品牌則需要更仔細的搜尋。

麻省理工學院的工程師們開發了一種方法，使機器人能夠做出類似直觀且與任務相關的決策。該團隊的新方法名為 Clio，能讓機器人根據手頭的任務識別場景中重要的部分。透過 Clio，機器人接收用自然語言描述的任務清單，並基於這些任務確定解釋其周圍環境所需的細緻程度，並“記住”場景中相關的部分。

在從凌亂的辦公室到麻省理工學院校園內的五層樓建築的實驗中，該團隊利用 Clio 根據自然語言提示（如“移動雜誌架”和“取急救包”）自動將場景分割為不同的細緻程度。該團隊還在一台四足機器人上實時運行 Clio。當機器人探索一棟辦公樓時，Clio 只識別和繪製與機器人任務相關的場景部分（例如在忽略辦公用品堆的情況下取回狗玩具），使機器人能夠抓取感興趣的物體。

Clio 的名稱源自希臘歷史女神，因其能夠識別和記住與特定任務相關的元素。研究人員預見，Clio 在許多情況和環境中都能發揮作用，幫助機器人快速調查並理解其周圍環境。

“搜尋和救援是這項工作的主要應用，但 Clio 也可以為家庭機器人和在工廠與人類協作的機器人提供支持，”麻省理工學院航空航天系副教授、信息與決策系統實驗室負責人及麻省理工學院 SPARK 實驗室主任 Luca Carlone 表示。“這實際上是幫助機器人理解環境以及它需要記住什麼，以便執行其任務。”

該團隊在今天發表於《機器人與自動化快報》的研究中詳細介紹了他們的成果。Carlone 的共同作者包括 SPARK 實驗室的成員 Dominic Maggio、Yun Chang、Nathan Hughes 和 Lukas Schmid；以及麻省理工學院林肯實驗室的成員 Matthew Trang、Dan Griffith、Carlyn Dougherty 和 Eric Cristofalo。

隨著計算機視覺和自然語言處理領域的巨大進展，機器人能夠識別周圍的物體。但直到最近，機器人僅能在“封閉集”場景中工作，這些場景經過精心策劃和控制，並且機器人只能識別有限數量的預訓練物體。

近年來，研究人員採取了“開放”方法，使機器人能夠在更現實的環境中識別物體。在開放集識別領域，研究人員利用深度學習工具構建神經網絡，處理來自互聯網的數十億張圖像及其相關文本（例如朋友的 Facebook 圖片，配文為“見我的新小狗！”）。

通過數百萬對圖像-文本，神經網絡可以學習並識別場景中某些術語的特徵（例如狗）。然後，機器人可以應用該神經網絡在全新場景中找到狗。然而，如何以對特定任務有用的方式解析場景仍然是一個挑戰。

“典型方法會隨機選擇一個固定的細緻程度來確定如何將場景的部分融合成一個‘物體’，”Maggio 表示。“然而，所謂的‘物體’的細緻程度實際上與機器人必須做的事情有關。如果這個細緻程度是固定的，未考慮任務，則機器人可能會得到一個對其任務無用的地圖。”

利用 Clio，麻省理工學院的團隊旨在使機器人能夠以可以自動調整的細緻程度來解釋其周圍環境。例如，給定將一疊書籍移動到架子上的任務，機器人應能夠確定整疊書籍是與任務相關的物體。同樣，如果任務是僅從堆疊中移動綠色書籍，機器人應將綠色書籍區分為單一目標物體，並忽略其他場景，包括堆疊中的其他書籍。

該團隊的方法結合了最先進的計算機視覺和大型語言模型，這些模型由神經網絡組成，能在數百萬張開源圖像和語義文本之間建立聯繫。他們還整合了映射工具，自動將圖像分割為許多小部分，這些部分可以輸入神經網絡以確定某些部分是否在語義上相似。研究人員利用經典信息理論中的一個概念“信息瓶頸”，以壓縮多個圖像部分，挑選和存儲與特定任務最相關的部分。

“例如，假設場景中有一堆書籍，而我的任務只是取出綠色書籍。在這種情況下，我們將所有有關場景的信息通過這個瓶頸，最終得到一組代表綠色書籍的部分，”Maggio 解釋說。“所有不相關的部分會被分組在一起，我們可以簡單地移除它們。這樣，我們就能得到需要的正確細緻程度的物體，以支持我的任務。”

研究人員在不同的現實環境中展示了 Clio 的應用。“我們認為在我未事先清理的公寓中運行 Clio 是一個非常實際的實驗，”Maggio 表示。該團隊制定了一系列自然語言任務，如“移動衣物堆”，然後將 Clio 應用於 Maggio 的凌亂公寓的圖像。在這些情況下，Clio 能夠快速分割公寓的場景，並通過信息瓶頸算法識別出構成衣物堆的部分。

他們還在波士頓動力公司的四足機器人 Spot 上運行 Clio。給機器人一系列任務後，當機器人探索並繪製辦公樓的內部時，Clio 在安裝在 Spot 上的計算機上實時運行，以挑選與給定任務視覺相關的部分。該方法生成了一個覆蓋地圖，僅顯示目標物體，機器人然後利用該地圖接近已識別的物體並實際完成任務。

“在實時運行 Clio 是團隊的一個重大成就，”Maggio 表示。“許多之前的工作需要幾個小時才能運行。”

展望未來，該團隊計劃調整 Clio，使其能夠處理更高級的任務，並在最近的逼真視覺場景表示方面取得進展。“我們仍然給 Clio 一些相對具體的任務，例如‘找撲克牌’，Maggio 表示。“對於搜尋和救援，您需要給它更高級的任務，例如‘尋找倖存者’或‘恢復電力’。因此，我們希望能夠達到更接近人類的理解，以完成更複雜的任務。”

這項研究部分得到了美國國家科學基金會、瑞士國家科學基金會、麻省理工學院林肯實驗室、美國海軍研究辦公室以及美國陸軍研究實驗室分布式和協作智能系統及技術合作研究聯盟的支持。

B4travel 5G 日本電話卡 9日 10GB 無限上網 / B4travel 5G 台灣電話卡 8日 20GB 無限上網

日本電話卡推介 / 台灣電話卡推介
更多儲值卡評測請即睇：SIM Card 大全
https://www.techritual.com/category/sim-card-review/

MIT 協助機器人精確識別重要物體

推薦內容

關於我們