Ian Chou's Blog

AI Agents 的演進:從 1.0 到 3.0,以及為什麼我認為不會有全能 AGI

過去兩年,AI Agent 這個詞從小眾術語變成每個 AI 從業者都掛在嘴邊的熱門概念。但「Agent」到底經歷了哪些階段?很多人其實只經歷了其中一兩個階段,就直接跳到喊「AGI 來了」。

這篇文章我想把這幾個階段理清楚,並分享我對未來的看法——Agents 3.0,以及為什麼真正的終局不會是全知全能的單一 AGI。

Agents 1.0:Shallow Loop 的狂歡與幻滅(2023 年春夏)

2023 年 4 月 AutoGPT 一夕爆紅那段時間,就是典型的 Agents 1.0 時代。

核心架構只有一個 while loop:

聽起來很酷,但實際跑起來 90% 的時間都在:

那段時間很多人(包括我)都興奮地以為「AGI 就在下個 commit」,結果發現只是把 prompt engineering 的鏈條拉長而已。這階段的 Context Engineering 非常原始,基本上就是「Prompt Stuffing」(把所有東西塞進去),碰到超過 15 步的任務就幾乎必倒。

Agents 1.5:能力變強,但本質沒變(2023 下半年到 2025 年現在)

當 GPT-4、Claude 3.5、Gemini 1.5 等模型上下文窗變長、推理能力變強之後,很多人以為這就是「真正的 Agent」了。

這階段的特點:

這只是 Agents 1.0 的升級版——模型變聰明,prompt engineering 變得更有效率,架構還是那個淺層 loop,只是現在能撐到 50 步而不是 15 步。目前市面上主流的 Cursor、Claude Projects 其實多數時間仍停留在這個階段。

Agents 2.0:Deep Agents 與 Flow Engineering(2025 年開始)

這部分我必須引用 Phil Schmid 在《Agents 2.0: From Shallow Loops to Deep Agents》的核心觀點,並補充技術落地層面的變化。

Agents 1.0 靠的是「LLM 上下文窗 = 全部狀態」,導致 Context Overflow(塞爆)、Loss of Goal(忘記目標)與 No Recovery(無法回頭)。

Agents 2.0(Deep Agents)則是架構層面的躍進,標誌著開發模式從 Prompt Engineering 轉向 Flow Engineering(流程工程)。技術棧也從單純的 API call 轉向 LangGraphLlamaIndex Workflows 這類具備狀態管理能力的框架。

核心四根支柱:

  1. Explicit Planning:不再隱式 chain-of-thought,而是維護一份可編輯的動態計劃(如 Markdown To-Do list),每一步都 review & update。
  2. Hierarchical Delegation:出現 Orchestrator + Sub-Agent 結構。專門的 Researcher、Coder、Writer 子代理各自擁有乾淨的上下文,只回傳精煉結果。
  3. Persistent Memory:把中間結果寫到外部儲存(檔案系統、Vector DB)。此時的 Context Engineering 進化為設計「記憶結構」(Memory Schema),決定什麼該被記住,什麼該被遺忘。
  4. Extreme Context Engineering:系統 Prompt 不再是一句話,而是包含詳細的狀態機定義:何時該停下來規劃?何時該 Spawn sub-agent?

這套架構讓 Agent 第一次能真正處理「需要好幾小時甚至好幾天」的任務。

Agents 3.0:從數位體現到同理心代理(我的當下研究方向)

在 Agents 2.0 的基礎上,下一個階段是 Embodied Empathetic Agents。這不僅僅是機器人,而是從「數位體現」過渡到「物理/感知體現」。

第一步:數位體現 (Digital Embodiment)

這就是 Claude 3.5 "Computer Use" 或 LAM (Large Action Model) 的概念。Agent 不再只透過 API 互動,而是擁有「眼睛」和「手」,能像人類一樣看懂 GUI、點擊滑鼠、操作那些沒有 API 的舊軟體。這讓 Agent 從「工具呼叫者」變成了真正的「操作者」。

第二步:感官同理 (Sensory Empathy)

這是我認為更有趣的未來。

為什麼我認為不會有全能全知的 AGI

很多人把 Agents 3.0 再往前推,就直接跳到「AGI 一定是一個全知全能的單一超級智能」。

我完全不同意,原因有二:能量定律邊緣運算邏輯

1. 熱力學與經濟學的限制

一個真正「什麼都知道、什麼都會」的實體,需要即時存取人類數百 EB 的知識並隨時保持最高警覺。這需要的能源可能是一個星球級別的資料中心。為了回覆「今天天氣如何」或「幫我訂個鬧鐘」而調動這種等級的算力,在熱力學和經濟學上都是荒謬的。

2. 隱私與延遲 (Latency & Privacy)

如果我們希望 Agent 3.0 能即時讀懂微表情並給予同理回應,這件事不能等待訊號傳回雲端的超級 AGI 再傳回來(延遲太高),也不能把你的私密生活數據全部上傳(隱私風險)。

真正的終局,是 「端雲協同」的分散式生態

結語

從 Agents 1.0 的 Shallow Loop 幻滅,到 2.0 的 Flow Engineering 架構革命,我們正在邁向 3.0 的體現同理時代。

Context Engineering 的本質也從「填空」,變成了「狀態管理」,最後將演變成「環境與情感的建模」。這條路不會通向一個全能的神,而是通向無數專精、節能、且真正懂你的數位夥伴。

這才是我認為真正值得期待,也符合物理現實的 AI 未來。