華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」-愛游戲(ayx)中國官方網站

繼 SAM 之后，華人火鍵威斯康辛麥迪遜、團隊微軟、顛覆港科大等機構的完美研究人員提出 SEEM 模型，通過不同的分割分割視覺提示和語言提示，一鍵分割圖像、切爆全宇視頻。瞬息

Meta 的華人火鍵「分割一切」的橫空出世，讓許多人驚呼 CV 不存在了。團隊

基于這一模型，顛覆眾網友紛紛做了進一步工作，完美比如 Grounded SAM。分割分割

將 Stable Diffusion、切爆全宇Whisper、瞬息ChatGPT 結合使用，華人火鍵就能做到通過語音讓一只狗變成一只猴子。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

而現在，不僅僅是語音，你可以通過多模態提示實現一次性分割所有地方的一切。

具體怎么做？

鼠標點一下，直接選中分割內容。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

張口一句話。

華人團隊顛覆 CV，<strong></strong>SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

隨手一涂，完整的表情包就來了。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

甚至，還能分割視頻。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

最新研究 SEEM 是由威斯康星大學麥迪遜分校、微軟研究院等機構的學者共同完成。

通過 SEEM 使用不同種類的提示，視覺提示（點、標記、框、涂鴉和圖像片段）、以及語言提示（文本和音頻）輕松分割圖像。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

論文地址：https://arxiv.org/ pdf / 2304.06718.pdf

這個論文標題有意思的地方在于，與 2022 年上映的一部美國科幻電影「瞬息全宇宙」（Everything Everywhere All at Once）的名字非常相似。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

英偉達科學家 Jim Fan 表示，奧斯卡最佳論文標題獎頒給「Segment Everything Everywhere All at Once」

擁有一個統一的、多功能的任務規范界面是擴大大型基礎模型規模的關鍵。多模態提示是未來的方向。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

看過論文后，網友表示，CV 現在也要開始擁抱大模型了，研究生未來出路在哪？

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

奧斯卡最佳標題論文

正是受到基于提示的 LLMs 通用接口發展的啟發，研究人員提出了 SEEM。

如圖所示，SEEM 模型可以在沒有提示的開放集中執行任何分割任務，比如語義分割、實例分割和全景分割。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

此外，它還支持任意組合的視覺，文本和引用區域提示，允許多功能和交互式的引用分割。

在模型架構上，SEEM 采用了常見的編碼器-解碼器架構。其獨特的地方在于具有查詢和提示之間復雜的交互。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

特征和提示被相應的編碼器，或采樣器編碼到一個聯合的視覺語義空間。

可學習查詢是隨機初始化，SEEM 解碼器接受可學習查詢、圖像特征和文本提示作為輸入和輸出，包括類和掩碼嵌入，用于掩碼和語義預測。

值得一提的是，SEEM 模型有多輪交互。每一輪都包含一個人工循環和一個模型循環。

在人工循環中，人工接收上一次迭代的掩碼輸出，并通過視覺提示給出下一輪解碼的正反饋。在模型循環中，模型接收并更新未來預測的記憶提示。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

通過 SEEM，給一個擎天柱卡車的圖，就能分割任何目標圖像上的擎天柱。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

通過用戶輸入的文本生成掩模，進行一鍵分割。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

另外，SEEM 通過對引用圖像的簡單點擊，或涂鴉，就能夠對目標圖像上有相似語義的對象進行分割。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

此外，SEEM 非常了解解空間關系。左上行斑馬被涂鴉后，也會分割出最左邊的斑馬。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

SEEM 還可以將圖像引用到視頻掩碼，不需要任何視頻數據訓練，都能完美分割視頻。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

數據集和設置上，SEEM 在三種數據集接受了訓練：全景分割，引用分割和交互式分割。

交互式分割

在交互式分割上，研究者將 SEEM 與最先進的交互式分割模型進行了比較。

作為一個通用模型，SEEM 獲得了 RITM，SimpleClick 等相當的性能。而且與 SAM 取得非常相似的性能，SAM 還多用了 50 個分割數據進行訓練。

值得注意的是，與現有的交互式模型不同，SEEM 是第一個不僅支持經典的分割任務，而且還支持廣泛的多模態輸入，包括文本、點、涂鴉、邊界框和圖像，提供了強大的組合能力。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

通用分割

通過對所有分割任務預先訓練的一組參數，研究者可以直接評估它在通用分割數據集上的性能。

SEEM 實現了比較好的全景視圖，實例和語義分割性能。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

研究人員對 SEEM 有四個期望目標：

1. 多功能性：通過引入多功能提示引擎處理不同類型的提示，包括點、框、涂鴉、遮罩、文本和另一圖像的引用區域；

2. 復合性：通過學習一個聯合視覺-語義空間，為視覺和文本提示組合即時查詢進行推理；

3. 交互性：通過整合可學習的記憶提示，通過掩碼引導的交叉注意力保留對話歷史信息；

4. 語義感知：通過使用文本編碼器對文本查詢和遮罩標簽進行編碼，實現開放詞匯表的分割。

和 SAM 區別

Meta 提出的 SAM 模型，可以在一個統一框架 prompt encoder 內，指定一個點、一個邊界框、一句話，一鍵分割出物體。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

SAM 具有廣泛的通用性，即具有了零樣本遷移的能力，足以涵蓋各種用例，不需要額外訓練，就可以開箱即用地用于新的圖像領域，無論是水下照片，還是細胞顯微鏡。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

研究者就三個分割任務（邊緣檢測、開放集和交互式分割）的交互和語義能力對 SEEM 和 SAM 進行了比較。

在開放集分割上，同樣需要高水平的語義，并且不需要交互。

與 SAM 相比，SEEM 涵蓋了更廣泛的交互和語義層次。

SAM 只支持有限的交互類型，比如點和邊界框，而忽視了高語義任務，因為它本身不輸出語義標簽。

對于 SEEM，研究者點出了兩個亮點：

首先，SEEM 有一個統一的提示編碼器，將所有的視覺和語言提示編碼到一個聯合表示空間中。因此，SEEM 可以支持更通用的用法，它有可能擴展到自定義提示。

其次，SEEM 在文本掩碼和輸出語義感知預測方面做得很好。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

作者介紹

論文一作 Xueyan Zou

她目前是威斯康星大學麥迪遜分校的計算機科學系博士生，導師是 Yong Jae Lee 教授。

在此之前，Zou 在加州大學戴維斯分校度過了三年時光，由同一位導師指導，并與 Fanyi Xiao 博士密切合作。

她在香港浸會大學獲得了學士學位，由 PC Yuen 教授和褚曉文教授指導。

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

Jianwei Yang

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

Yang 是 Redmond 微軟研究院深度學習組的高級研究員，由高劍峰博士指導。

Yang 的研究主要集中在計算機視覺、視覺與語言和機器學習。他主要研究不同層次的結構化視覺理解，以及如何進一步利用它們通過語言和環境的體現與人類進行智能交互。

在 2020 年 3 月加入微軟之前，Yang 在佐治亞理工學互動計算學院獲得了計算機科學博士學位，他的導師是 Devi Parikh 教授，他還與 Dhruv Batra 教授密切合作。

高劍峰

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

高劍峰是微軟研究院的杰出科學家和副總裁，IEEE 會員，以及 ACM 杰出會員。

目前，高劍峰領導著深度學習小組。該小組的任務是推動深度學習的最先進技術及其在自然語言和圖像理解方面的應用，并在對話模型和方法方面取得進展。

研究主要包括，用于自然語言理解和生成的神經語言模型、神經符號計算、視覺語言的基礎和理解、對話式人工智能等等。

2014 年到 2018 年，高劍峰在微軟人工智能與研究部和 Redmond 微軟研究院的深度學習技術中心（DLTC）擔任商業人工智能的合作伙伴研究經理。

2006 年到 2014 年，高劍峰在自然語言處理組擔任首席研究員。

Yong Jae Lee

華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

Lee 是華盛頓大學麥迪遜分校計算機科學系的副教授。

他在 2021 年秋季加入華盛頓大學麥迪遜分校之前，曾在 Cruise 擔任過一年的人工智能客座教師，在此之前，他在加州大學戴維斯分校擔任了 6 年的助理和副教授。

他還曾在卡內基梅隆大學的機器人研究所做了一年的博士后研究員。

他于 2012 年 5 月在德克薩斯大學奧斯汀分校獲得博士學位，師從 Kristen Grauman，并于 2006 年 5 月在伊利諾伊大學厄巴納-香檳分校獲得學士學位。

他還曾作為微軟研究院的暑期實習生與 Larry Zitnick 和 Michael Cohen 一起工作。

目前，Lee 的研究集中在計算機視覺和機器學習。Lee 對創建強大的視覺識別系統格外感興趣，該系統可以在最少的人類監督下理解視覺數據。

目前，SEEM 已經開放了演示 demo：

https://huggingface.co/spaces/xdecoder/SEEM

快上手試試吧。

參考資料：

https://twitter.com/DrJimFan/status/1649835393163091969
https://www.reddit.com/r/MachineLearning/comments/12lf2l3/r_seem_segment_everything_everywhere_all_at_once/
https://t.co/U6so7iuxpv

本文來自微信公眾號：新智元（ID：AI_era）

關于愛游戲(ayx)中國官方網站

產品中心

新聞中心

招商加盟

服務中心

愛游戲(ayx)中國官方網站-華人團隊顛覆 CV，SEEM 完美分割一切爆火，一鍵分割「瞬息全宇宙」

奧斯卡最佳標題論文

交互式分割

通用分割

和 SAM 區別

作者介紹

相關推薦

全國客服服務熱線