AI Agents 的演進:從 1.0 到 3.0,以及為什麼我認為不會有全能 AGI
過去兩年,AI Agent 這個詞從小眾術語變成每個 AI 從業者都掛在嘴邊的熱門概念。但「Agent」到底經歷了哪些階段?很多人其實只經歷了其中一兩個階段,就直接跳到喊「AGI 來了」。
這篇文章我想把這幾個階段理清楚,並分享我對未來的看法——Agents 3.0,以及為什麼真正的終局不會是全知全能的單一 AGI。
Agents 1.0:Shallow Loop 的狂歡與幻滅(2023 年春夏)
2023 年 4 月 AutoGPT 一夕爆紅那段時間,就是典型的 Agents 1.0 時代。
核心架構只有一個 while loop:
- 丟一個大目標給 LLM(例如「幫我開一家年營收千萬美金的公司」)
- LLM 自己拆解任務 → 呼叫工具 → 把結果塞回 prompt → 重複
聽起來很酷,但實際跑起來 90% 的時間都在:
- 重複做一樣的事(無限 loop)
- 產生一堆沒用的 intermediate files
- 最後還是需要人手動介入
那段時間很多人(包括我)都興奮地以為「AGI 就在下個 commit」,結果發現只是把 prompt engineering 的鏈條拉長而已。這階段的 Context Engineering 非常原始,基本上就是「Prompt Stuffing」(把所有東西塞進去),碰到超過 15 步的任務就幾乎必倒。
Agents 1.5:能力變強,但本質沒變(2023 下半年到 2025 年現在)
當 GPT-4、Claude 3.5、Gemini 1.5 等模型上下文窗變長、推理能力變強之後,很多人以為這就是「真正的 Agent」了。
這階段的特點:
- 你給一個明確指令,LLM 能一次生成更長、更結構化的內容(長文、程式碼、圖表)。
- 工具呼叫變得更可靠,幻覺(hallucination)變少。
- 但互動模式沒變:本質上還是「一問一答」或「丟一個大任務等它跑完」。
這只是 Agents 1.0 的升級版——模型變聰明,prompt engineering 變得更有效率,架構還是那個淺層 loop,只是現在能撐到 50 步而不是 15 步。目前市面上主流的 Cursor、Claude Projects 其實多數時間仍停留在這個階段。
Agents 2.0:Deep Agents 與 Flow Engineering(2025 年開始)
這部分我必須引用 Phil Schmid 在《Agents 2.0: From Shallow Loops to Deep Agents》的核心觀點,並補充技術落地層面的變化。
Agents 1.0 靠的是「LLM 上下文窗 = 全部狀態」,導致 Context Overflow(塞爆)、Loss of Goal(忘記目標)與 No Recovery(無法回頭)。
Agents 2.0(Deep Agents)則是架構層面的躍進,標誌著開發模式從 Prompt Engineering 轉向 Flow Engineering(流程工程)。技術棧也從單純的 API call 轉向 LangGraph 或 LlamaIndex Workflows 這類具備狀態管理能力的框架。
核心四根支柱:
- Explicit Planning:不再隱式 chain-of-thought,而是維護一份可編輯的動態計劃(如 Markdown To-Do list),每一步都 review & update。
- Hierarchical Delegation:出現 Orchestrator + Sub-Agent 結構。專門的 Researcher、Coder、Writer 子代理各自擁有乾淨的上下文,只回傳精煉結果。
- Persistent Memory:把中間結果寫到外部儲存(檔案系統、Vector DB)。此時的 Context Engineering 進化為設計「記憶結構」(Memory Schema),決定什麼該被記住,什麼該被遺忘。
- Extreme Context Engineering:系統 Prompt 不再是一句話,而是包含詳細的狀態機定義:何時該停下來規劃?何時該 Spawn sub-agent?
這套架構讓 Agent 第一次能真正處理「需要好幾小時甚至好幾天」的任務。
Agents 3.0:從數位體現到同理心代理(我的當下研究方向)
在 Agents 2.0 的基礎上,下一個階段是 Embodied Empathetic Agents。這不僅僅是機器人,而是從「數位體現」過渡到「物理/感知體現」。
第一步:數位體現 (Digital Embodiment)
這就是 Claude 3.5 "Computer Use" 或 LAM (Large Action Model) 的概念。Agent 不再只透過 API 互動,而是擁有「眼睛」和「手」,能像人類一樣看懂 GUI、點擊滑鼠、操作那些沒有 API 的舊軟體。這讓 Agent 從「工具呼叫者」變成了真正的「操作者」。
第二步:感官同理 (Sensory Empathy)
這是我認為更有趣的未來。
- 多模態輸入:視覺、聽覺(語音+聲調情緒),未來甚至包含來自穿戴裝置的生理訊號。
- 環境建模 (Environment Modeling):這階段的 Context Engineering 難度最高,因為 AI 需要理解的不是文字,而是「當下的氣氛」。
- 主動預測:像一個貼心的夥伴。如果你回家時語調低落、步伐沈重,Agent 3.0 不需要你下指令「播放音樂」,它會綜合判斷你需要的是安靜、一杯熱茶的建議,或是適當的輕音樂。
為什麼我認為不會有全能全知的 AGI
很多人把 Agents 3.0 再往前推,就直接跳到「AGI 一定是一個全知全能的單一超級智能」。
我完全不同意,原因有二:能量定律與邊緣運算邏輯。
1. 熱力學與經濟學的限制
一個真正「什麼都知道、什麼都會」的實體,需要即時存取人類數百 EB 的知識並隨時保持最高警覺。這需要的能源可能是一個星球級別的資料中心。為了回覆「今天天氣如何」或「幫我訂個鬧鐘」而調動這種等級的算力,在熱力學和經濟學上都是荒謬的。
2. 隱私與延遲 (Latency & Privacy)
如果我們希望 Agent 3.0 能即時讀懂微表情並給予同理回應,這件事不能等待訊號傳回雲端的超級 AGI 再傳回來(延遲太高),也不能把你的私密生活數據全部上傳(隱私風險)。
真正的終局,是 「端雲協同」的分散式生態:
- 雲端大模型 (Cloud LLM):負責複雜推理、科學研究,3 年訓練一次,像是一座圖書館或大學。
- 專業模型 (Domain Agents):專精法律、醫學或編碼,6-8 年專業訓練。
- 個人模型 (Edge/Personal AI):運行在你的手機或眼鏡上(SLM),即時、低功耗、絕對隱私,只專注於了解你。
結語
從 Agents 1.0 的 Shallow Loop 幻滅,到 2.0 的 Flow Engineering 架構革命,我們正在邁向 3.0 的體現同理時代。
Context Engineering 的本質也從「填空」,變成了「狀態管理」,最後將演變成「環境與情感的建模」。這條路不會通向一個全能的神,而是通向無數專精、節能、且真正懂你的數位夥伴。
這才是我認為真正值得期待,也符合物理現實的 AI 未來。