AI Agents 的演進：從 1.0 到 3.0，以及為什麼我認為不會有全能 AGI

過去兩年，AI Agent 這個詞從小眾術語變成每個 AI 從業者都掛在嘴邊的熱門概念。但「Agent」到底經歷了哪些階段？很多人其實只經歷了其中一兩個階段，就直接跳到喊「AGI 來了」。

這篇文章我想把這幾個階段理清楚，並分享我對未來的看法——Agents 3.0，以及為什麼真正的終局不會是全知全能的單一 AGI。

Agents 1.0：Shallow Loop 的狂歡與幻滅（2023 年春夏）

2023 年 4 月 AutoGPT 一夕爆紅那段時間，就是典型的 Agents 1.0 時代。

核心架構只有一個 while loop：

丟一個大目標給 LLM（例如「幫我開一家年營收千萬美金的公司」）
LLM 自己拆解任務 → 呼叫工具 → 把結果塞回 prompt → 重複

聽起來很酷，但實際跑起來 90% 的時間都在：

重複做一樣的事（無限 loop）
產生一堆沒用的 intermediate files
最後還是需要人手動介入

那段時間很多人（包括我）都興奮地以為「AGI 就在下個 commit」，結果發現只是把 prompt engineering 的鏈條拉長而已。這階段的 Context Engineering 非常原始，基本上就是「Prompt Stuffing」（把所有東西塞進去），碰到超過 15 步的任務就幾乎必倒。

Agents 1.5：能力變強，但本質沒變（2023 下半年到 2025 年現在）

當 GPT-4、Claude 3.5、Gemini 1.5 等模型上下文窗變長、推理能力變強之後，很多人以為這就是「真正的 Agent」了。

這階段的特點：

你給一個明確指令，LLM 能一次生成更長、更結構化的內容（長文、程式碼、圖表）。
工具呼叫變得更可靠，幻覺（hallucination）變少。
但互動模式沒變：本質上還是「一問一答」或「丟一個大任務等它跑完」。

這只是 Agents 1.0 的升級版——模型變聰明，prompt engineering 變得更有效率，架構還是那個淺層 loop，只是現在能撐到 50 步而不是 15 步。目前市面上主流的 Cursor、Claude Projects 其實多數時間仍停留在這個階段。

Agents 2.0：Deep Agents 與 Flow Engineering（2025 年開始）

這部分我必須引用 Phil Schmid 在《Agents 2.0: From Shallow Loops to Deep Agents》的核心觀點，並補充技術落地層面的變化。

Agents 1.0 靠的是「LLM 上下文窗 = 全部狀態」，導致 Context Overflow（塞爆）、Loss of Goal（忘記目標）與 No Recovery（無法回頭）。

Agents 2.0（Deep Agents）則是架構層面的躍進，標誌著開發模式從 Prompt Engineering 轉向 Flow Engineering（流程工程）。技術棧也從單純的 API call 轉向 LangGraph 或 LlamaIndex Workflows 這類具備狀態管理能力的框架。

核心四根支柱：

Explicit Planning：不再隱式 chain-of-thought，而是維護一份可編輯的動態計劃（如 Markdown To-Do list），每一步都 review & update。
Hierarchical Delegation：出現 Orchestrator + Sub-Agent 結構。專門的 Researcher、Coder、Writer 子代理各自擁有乾淨的上下文，只回傳精煉結果。
Persistent Memory：把中間結果寫到外部儲存（檔案系統、Vector DB）。此時的 Context Engineering 進化為設計「記憶結構」（Memory Schema），決定什麼該被記住，什麼該被遺忘。
Extreme Context Engineering：系統 Prompt 不再是一句話，而是包含詳細的狀態機定義：何時該停下來規劃？何時該 Spawn sub-agent？

這套架構讓 Agent 第一次能真正處理「需要好幾小時甚至好幾天」的任務。

Agents 3.0：從數位體現到同理心代理（我的當下研究方向）

在 Agents 2.0 的基礎上，下一個階段是 Embodied Empathetic Agents。這不僅僅是機器人，而是從「數位體現」過渡到「物理/感知體現」。

第一步：數位體現 (Digital Embodiment)

這就是 Claude 3.5 "Computer Use" 或 LAM (Large Action Model) 的概念。Agent 不再只透過 API 互動，而是擁有「眼睛」和「手」，能像人類一樣看懂 GUI、點擊滑鼠、操作那些沒有 API 的舊軟體。這讓 Agent 從「工具呼叫者」變成了真正的「操作者」。

第二步：感官同理 (Sensory Empathy)

這是我認為更有趣的未來。

多模態輸入：視覺、聽覺（語音+聲調情緒），未來甚至包含來自穿戴裝置的生理訊號。
環境建模 (Environment Modeling)：這階段的 Context Engineering 難度最高，因為 AI 需要理解的不是文字，而是「當下的氣氛」。
主動預測：像一個貼心的夥伴。如果你回家時語調低落、步伐沈重，Agent 3.0 不需要你下指令「播放音樂」，它會綜合判斷你需要的是安靜、一杯熱茶的建議，或是適當的輕音樂。

為什麼我認為不會有全能全知的 AGI

很多人把 Agents 3.0 再往前推，就直接跳到「AGI 一定是一個全知全能的單一超級智能」。

我完全不同意，原因有二：能量定律與邊緣運算邏輯。

1. 熱力學與經濟學的限制

一個真正「什麼都知道、什麼都會」的實體，需要即時存取人類數百 EB 的知識並隨時保持最高警覺。這需要的能源可能是一個星球級別的資料中心。為了回覆「今天天氣如何」或「幫我訂個鬧鐘」而調動這種等級的算力，在熱力學和經濟學上都是荒謬的。

2. 隱私與延遲 (Latency & Privacy)

如果我們希望 Agent 3.0 能即時讀懂微表情並給予同理回應，這件事不能等待訊號傳回雲端的超級 AGI 再傳回來（延遲太高），也不能把你的私密生活數據全部上傳（隱私風險）。

真正的終局，是 「端雲協同」的分散式生態：

雲端大模型 (Cloud LLM)：負責複雜推理、科學研究，3 年訓練一次，像是一座圖書館或大學。
專業模型 (Domain Agents)：專精法律、醫學或編碼，6-8 年專業訓練。
個人模型 (Edge/Personal AI)：運行在你的手機或眼鏡上（SLM），即時、低功耗、絕對隱私，只專注於了解你。

結語

從 Agents 1.0 的 Shallow Loop 幻滅，到 2.0 的 Flow Engineering 架構革命，我們正在邁向 3.0 的體現同理時代。

Context Engineering 的本質也從「填空」，變成了「狀態管理」，最後將演變成「環境與情感的建模」。這條路不會通向一個全能的神，而是通向無數專精、節能、且真正懂你的數位夥伴。

這才是我認為真正值得期待，也符合物理現實的 AI 未來。