Ian Chou's Blog

AI Agents 演化史:從 1.0 到 3.0 的物種進化論

過去兩年,AI Agent(人工智慧代理)這個詞變得非常熱門。但大多數人——甚至包括很多 AI 從業者——都把它理解成一個線性的過程:「AI 一直在變聰明,從 GPT-4 到 GPT-5,再到未來的 GPT-6。」

這是錯的。

從 Agent 1.0 到 3.0,我們經歷的不是同一個東西在「升級」,而是完全不同的存在方式。這就像遙控車、無人機、餐廳帶位人員、和會說故事的人——這四者之間的差異,不是「誰比較高級」,而是「它們根本不是同一種物種」。

這篇文章我想帶大家看懂這四個階段,以及為什麼我們正站在 2.0 真正要起飛的時間點。


1.0:遙控車 (The Remote Control Car)

時期:2023 年春夏 (AutoGPT 狂潮)

回想一下小時候玩的遙控車。你按前進它才動,你放手它就停。所有的意志都在你手上,它只有執行的輪子,沒有大腦。

2023 年 AutoGPT 爆紅的時候,大家以為「AGI 就在下個版本」。但實際跑起來才發現:它會陷入無限循環(Loop)、會忘記你要它做什麼、做著做著就崩潰。

為什麼?
因為它沒有自己的「狀態管理(State Management)」。
就像遙控車一樣,你不推它,它就不動;你推錯方向,它就撞牆,然後一直對著牆角空轉。它沒有能力去判斷「我撞牆了,該後退」,它只會執行死板的迴圈。這就是 Agent 1.0 的本質:一個沒有方向感的執行腳本。


1.5:DJI 無人機 (The Drone)

時期:現在 (ChatGPT 5.1, Claude 4.5, Gemini 3.0)

這是我們現在身處的階段。模型變強了,就像一台高階的 DJI 無人機。

它能拍出電影級的畫面、有自動避障、能一鍵返航。產出的東西很漂亮——精美的行程表、結構完整的報告、流暢的程式碼。

但本質上,你不起飛,它就是一個放在桌上的機器。

這是現在大多數人使用 AI 的方式:你問,它答;你要,它給。它是一個反應很快、產出很漂亮的工具。但它沒有自己的目的(Intent),不會主動做任何事。如果你不給 Prompt,它能安靜地在伺服器裡待上一萬年。

很多人覺得這已經很厲害了——確實很厲害。但這不是 Agent。這只是一個非常聽話、非常強大的工具


2.0:餐廳的帶位人員 (The Restaurant Host)

時期:2025 年正在發生的變革 (Deep Agents)

這裡開始不一樣了,我們跨越了「工具」與「代理」的界線。

想像你走進一家高級餐廳。資深的帶位人員看一眼就知道:

關鍵差異在於:沒有人每一步都在指揮他。
老闆不會跟他說:「先看客人,再看位子,再走過去...」。他自己在「讀」現場、做判斷、隨時調整。

這就是 Agent 2.0 的核心能力:動態決策與自我修正(Self-Correction)
如果原本要安排的位子突然被佔了,Agent 1.0 會當機,Agent 1.5 會問你怎麼辦,但 Agent 2.0(帶位人員)會瞬間切換方案:「不好意思,原本的位子在整理,我先帶您去窗邊的雅座,那裡風景更好。」

技術上的本質變化

這就像是對無生命的物件施展了魔法,從「你推它才動」變成了「它自己會動」。


為什麼大多數人還沒感受到 Agent 2.0?

既然 2.0 這麼好,為什麼你的 ChatGPT 還是只會陪聊?

  1. 思維模式的斷層
    大多數程式設計師習慣寫「指令式」程式(你下指令,我執行)。要跳到「設計一個會自己反應的存在(Flow Engineering)」,需要的思維模式完全不同。這不是寫 Code,這是設計「行為」。
  2. 商業價值的隱性
    Agent 1.5 很好賣——「AI 幫你寫文案、做簡報」,產出物一目瞭然。
    但 Agent 2.0 的價值是「過程的消失」。它幫你默默處理完複雜的訂票、比價、排程。這種價值比較隱性,市場還在學習如何定價。

不過,像 ManusDevin 這類公司,已經開始用 2.0 架構處理真實的軟體工程任務。地基已經打好了,大樓即將蓋起。


3.0:睡前說故事的人 (The Bedtime Storyteller)

時期:未來的具身同理代理 (Embodied Empathetic Agents)

這不只是「更會做事」,而是「會讀人」。

想像一個會說睡前故事的人(可能是父母,或未來的 AI 伴侶)。
小朋友今天在學校被欺負了,回家後聲音比較小、眼神有點閃躲。說故事的人察覺到了。他不會照本宣科地念《白雪公主》,他會挑一個關於「勇氣與面對霸凌」的故事,甚至在某個段落停下來,溫柔地問:「你今天是不是也遇到很難的事?」

Agent 3.0 的核心是感知(Perception)與同理(Empathy)

它不只是完成任務。它在觀察你——透過鏡頭看你的表情,透過麥克風聽你的語調。它會主動判斷:

這是從「有生命力」再進一步,到「有內心世界」。


為什麼未來不會有「全知全能的 AGI」?

很多人把 3.0 再往前推,就想像出一個《鋼鐵人》賈維斯那樣,什麼都懂、什麼都會的單一超級 AI。

我不這麼認為。

  1. 熱力學與經濟學限制
    要讓一個 AI 同時懂天文地理(大模型能力),又要懂你家小孩對海鮮過敏(個人記憶),還要二十四小時待命讀懂你的微表情(即時感知)。
    這需要的運算能源大到不合理。殺雞不需要用牛刀,訂餐廳不需要動用全人類的知識庫。
  2. 隱私與延遲
    如果你希望 Agent 3.0 能讀懂你的臉色,這些數據必須在你的手機或眼鏡(Edge 端)即時處理,而不是傳回雲端給大公司看。

未來的終局是分工合作的生態系:

我們不需要一個高高在上的神,我們需要的是一群各有專長、真正理解你的數位夥伴。


結語

從 1.0 到 3.0,這不是一個「AI 越來越聰明」的單線故事。

這是一個從 「遙控車(無腦執行)」 進化到 「無人機(強力工具)」,再演變成 「帶位人員(自主決策)」,最後昇華為 「說故事的人(同理感知)」 的過程。

每一次跨越,都是存在方式的根本改變。
我們正站在 2.0 要起飛、3.0 剛萌芽的時間點。別只盯著聊天機器人看,真正的變革,正在那些「會自己動」的系統中悄悄發生。