中央研究院資訊科技創新研究中心

Abstract

我們正在邁向一個新的時代：過去依賴狹義機器學習系統與模式辨識技術來建構搜尋、推薦、決策支援與學習工具的方法，正逐漸被超越。新一代的「通用型個人代理（universal personal agents）」正在興起——這些系統能夠跨模態理解使用者、在複雜情境中進行推理，並以高度個人化的方式協助使用者進行資訊探索、學習與決策。

本演講將探討多模態基礎模型（multimodal foundation models）的進展——涵蓋影像、影片、音訊、語言與推理能力——如何重新塑造個人 AI 系統的設計方向。我將討論三個重要趨勢：

1. 朝向具備整合式推理能力的單一多模態模型發展；
2. 個人化、長期記憶（memory）以及使用者對齊（user alignment）成為新的重要研究前沿；
3. 將快速、直覺式的「System 1」反應，與較慢且深思熟慮的「System 2」推理能力融合，進而形成統一的通用型智慧代理（unified universal agent）。

這些發展將重新定義人機互動的方式，並推動下一代個人 AI 助理的誕生。

Bio

Ed H. Chi 目前擔任 Google DeepMind 副總裁（VP of Research），領導機器學習研究團隊，研究方向涵蓋大型語言模型（從 LaMDA 到後來推出的 Bard／Gemini）以及通用型 AI 助理代理（universal assistant agents）。

他擁有 39 項專利與約 200 篇研究論文，也因其在網路與社群媒體使用者行為分析方面的研究而廣為人知。作為 Research Platform Lead，他協助推動 Bard／Gemini 對話式聊天機器人的推出。此外，自 2013 年加入 Google 以來，他的研究成果已實際應用於 YouTube、Google News、Google Ads 與 Google Play Store 等產品，累積超過 1000 次產品功能落地，並帶來顯著的商業收益提升。

在加入 Google 之前，Ed 曾任職於 Xerox Palo Alto Research Center（PARC）的 Augmented Social Cognition Group，擔任 Area Manager 與 Principal Scientist，研究社群運算系統如何協助群體進行記憶、思考與推理。

Ed 在 6.5 年內於 University of Minnesota 完成學士、碩士與博士學位。他曾獲選為 ACM Fellow，並入選 CHI Academy，其資訊視覺化研究亦曾獲得 20-Year Test of Time Award。

他的研究與觀點曾被《The Economist》、《Time Magazine》、《LA Times》以及 Associated Press 等媒體報導與引用。

在工作之餘，他熱愛高爾夫、游泳、攝影與滑雪，同時也是跆拳道黑帶。

資訊科技創新研究中心

資訊科技創新研究中心

2030 資通產業系列講座

【2030-資通產業系列講座】個人化通用 AI 助理的未來