曠視出席北京智源大會 探討視覺大模型研究現狀與挑戰

  由北京智源人工智慧研究院主辦的2021北京智源大會於6月1日-6月3日召開,大會邀請了各領域領軍學者圍繞當前AI學術領域迫切需要解決的問題,以及產業落地過程中存在的挑戰,分享重要成果與真知灼見。曠視研究院基礎模型組負責人張祥雨出席大會圓桌論壇,同與會嘉賓一道暢談「視覺大模型研究現狀與挑戰」議題,分享了企業在探索視覺大模型方面的實踐經驗。

  圖:曠視研究院基礎模型組負責人張祥雨(中)受邀出席北京智源大會大會圓桌論壇

  近年來,人工智慧的發展從「大煉模型」逐步邁向「煉大模型」,在視覺領域,學術界和工業界也在探索更具通用性的基礎視覺模型,及依託這類模型實現便捷任務擴展的方法。然而,視覺畢竟不是自然語言,作為基本視覺單元的像素距離高層語義更遠,找不到像「單詞」這樣離散化、符號化的基本語義單元,因此簡單地借鑒預訓練語言模型的實現方法恐怕難以奏效。為此,在本次會議視覺大模型專題論壇上,視覺智能及相關領域的多名專家在「視覺大模型研究現狀與挑戰」的圓桌論壇上就相關議題展開了深入討論,共同尋找視覺大模型研究的破局之道,加快推動視覺大模型的研究與應用。

  在談及視覺大模型為什麼重要,預期視覺大模型可以學習到什麼的問題時,曠視研究院基礎模型組負責人張祥雨表示,目前視覺大模型的研究中,一個非常重要的問題是如何學習高質量的表徵。根據信息瓶頸假設,一個「好」的表徵應該對輸入數據進行充分的壓縮,同時包含足夠的信息以適應下游任務的需求;然而如何實現以上兩點依然沒有確定的答案。目前諸如對比學習(contrastive learning)等基於變換一致性的特徵學習框架在一些實踐中是比較有效的,但同樣在另外一些場景中也有很多失敗的案例。是否存在更好的方案,仍然是一個亟待研究的問題。

  圖:張祥雨在會上分享曠視在視覺大模型方面的探索

  視覺大模型一般包括影片模型和圖像模型。關於影片模型和圖像模型兩者之間的關係,張祥雨提出了一個新穎的觀點,即視覺大模型可能只需要影片模型就可以了,不需要靜態圖像模型。其實在客觀世界中,即使是靜態圖片,從人認知和識別的角度來說它也是一個影片,因為人類會從不同距離、不同視角觀察這張圖片。因此從原理上說,完全可以訓練一個統一的通用影片模型,既可以用它處理圖片數據,也可以處理影片數據。張祥雨及其團隊在嘗試過程中也發現,這樣做出來的模型即使是在靜態圖像上測試,性能通常也會更好。另外,由於影片是一個非常完整的流的序列,生搬硬套圖像的模型並不可取,需要設計一個專門為影片設計的特殊模型,而不是先有圖像大模型再遷移到視覺大模型。

  兩年前張祥雨及其團隊曾經做過一個輕量級模型的架構搜索演算法:基於單路徑超網路的神經網路架構搜索(Single Path One-Shot Neural Architecture Search,SPOS)。在這個過程中,張祥雨得到了許多啟發。首先他表示,不能因為追趕潮流就投入研究,一定要多想為什麼;早期大家做模型架構搜索的時候就曾出現過很多人搶發論文的現象,做出來的不少方法現在看來局限性都很大,白白投入了很多時間和精力,我們需要從中吸取經驗和教訓。其次談及模型搜索在影片大模型中的應用,他認為模型訓練早期的一些狀態很大程度上可以預示後期的收斂特性,所以沿著這個思路或許可以高效解決超大模型的搜索問題;團隊的最新成果如AngleNAS、RLNAS等在這方面進行了一些初步的探索。最後張祥雨還指出,不論是神經網路架構搜索還是視覺大模型的訓練,對顯存的要求都非常高;而曠視開源的深度學習框架「曠視天元」(MegEngine)在最近推出的V1.4版本中,通過引入 DTR 技術,實現了動態圖顯存優化功能。開發者在使用MegEngine時,只需要加兩行代碼,就可以使用這項新功能顯著降低顯存佔用。經曠視天元MegEngine團隊測試,開啟DTR功能後,在2080Ti上,ResNet-50、ShuffleNet等網路的最大 batch size 可以達到原來的3倍以上。

  北京智源大會是「AI內行頂級盛會」,現已連續成功舉辦三屆。本屆大會旨在促進國際交流與合作,打造世界人工智慧學術高地,加強產學研協同,塑造連接世界人工智慧產業與學術資源的中心樞紐。科技部戰略規劃司司長許倞、2018年圖靈獎得主Yoshua Bengio(約書亞·本吉奧)、2017年圖靈獎得主David Patterson(大衛·帕特森)、2017年歐洲大腦獎得主Peter Dayan(彼得·達揚)、微軟亞洲研究院副院長劉鐵岩、清華智能產業研究院首席科學家馬維英等受邀出席會議。

台灣疫情資訊

縣市累計確診人數

相關熱門

綠色永續