Abstract
我們正在邁向一個新的時代:過去依賴狹義機器學習系統與模式辨識技術來建構搜尋、推薦、決策支援與學習工具的方法,正逐漸被超越。新一代的「通用型個人代理(universal personal agents)」正在興起——這些系統能夠跨模態理解使用者、在複雜情境中進行推理,並以高度個人化的方式協助使用者進行資訊探索、學習與決策。
本演講將探討多模態基礎模型(multimodal foundation models)的進展——涵蓋影像、影片、音訊、語言與推理能力——如何重新塑造個人 AI 系統的設計方向。我將討論三個重要趨勢:
1. 朝向具備整合式推理能力的單一多模態模型發展;
2. 個人化、長期記憶(memory)以及使用者對齊(user alignment)成為新的重要研究前沿;
3. 將快速、直覺式的「System 1」反應,與較慢且深思熟慮的「System 2」推理能力融合,進而形成統一的通用型智慧代理(unified universal agent)。
這些發展將重新定義人機互動的方式,並推動下一代個人 AI 助理的誕生。
本演講將探討多模態基礎模型(multimodal foundation models)的進展——涵蓋影像、影片、音訊、語言與推理能力——如何重新塑造個人 AI 系統的設計方向。我將討論三個重要趨勢:
1. 朝向具備整合式推理能力的單一多模態模型發展;
2. 個人化、長期記憶(memory)以及使用者對齊(user alignment)成為新的重要研究前沿;
3. 將快速、直覺式的「System 1」反應,與較慢且深思熟慮的「System 2」推理能力融合,進而形成統一的通用型智慧代理(unified universal agent)。
這些發展將重新定義人機互動的方式,並推動下一代個人 AI 助理的誕生。
Bio
Ed H. Chi 目前擔任 Google DeepMind 副總裁(VP of Research),領導機器學習研究團隊,研究方向涵蓋大型語言模型(從 LaMDA 到後來推出的 Bard/Gemini)以及通用型 AI 助理代理(universal assistant agents)。他擁有 39 項專利與約 200 篇研究論文,也因其在網路與社群媒體使用者行為分析方面的研究而廣為人知。作為 Research Platform Lead,他協助推動 Bard/Gemini 對話式聊天機器人的推出。此外,自 2013 年加入 Google 以來,他的研究成果已實際應用於 YouTube、Google News、Google Ads 與 Google Play Store 等產品,累積超過 1000 次產品功能落地,並帶來顯著的商業收益提升。
在加入 Google 之前,Ed 曾任職於 Xerox Palo Alto Research Center(PARC)的 Augmented Social Cognition Group,擔任 Area Manager 與 Principal Scientist,研究社群運算系統如何協助群體進行記憶、思考與推理。
Ed 在 6.5 年內於 University of Minnesota 完成學士、碩士與博士學位。他曾獲選為 ACM Fellow,並入選 CHI Academy,其資訊視覺化研究亦曾獲得 20-Year Test of Time Award。
他的研究與觀點曾被《The Economist》、《Time Magazine》、《LA Times》以及 Associated Press 等媒體報導與引用。
在工作之餘,他熱愛高爾夫、游泳、攝影與滑雪,同時也是跆拳道黑帶。