近日,谷歌DeepMind的AlphaEvolve項目交出最新成績單:由Gemini驅動的進化式編程智能體,不僅與菲爾茲獎得主陶哲軒合作攻克了數學難題,給Google Willow量子處理器設計了錯誤率降低90%的電路方案,還給谷歌下一代TPU設計出了反直覺但更高效的電路方案,且該方案已被采用。
幾乎同期,Anthropic在Claude開發(fā)者大會上為托管智能體增加了一組新功能。智能體學會了“做夢”,能在兩次工作間隙自動回顧歷史對話、整理記憶、提取規(guī)律。配合自動評分功能和多智能體協(xié)作能力,任務完成率大幅提升。
(資料圖片)
這些進展共同指向一個行業(yè)核心命題:智能體自我進化——AI正從被動等待提示詞的代碼工具,走向學會記憶、自我改進、持續(xù)進化的智能體。
與用戶共同成長
回顧2026年初,OpenClaw(龍蝦)的爆火讓人們看到了個人AI助理普及的可能——你可以在微信或釘釘里直接和它聊天,讓它自己去操作電腦、執(zhí)行任務。
但用戶們很快發(fā)現,龍蝦每天凌晨4點會刷新一次記憶,昨天剛說過的事情、剛糾正過的做法,第二天它就忘了,讓交互體驗大打折扣。
3月到4月,“養(yǎng)馬”開始興起。由硅谷AI實驗室Nous Research開發(fā)的開源智能體Hermes Agent,在海外技術社區(qū)走紅。
它主打持續(xù)學習和自我進化,擁有一套完整的學習閉環(huán)和多層次記憶系統(tǒng),可以在完成復雜任務后自動沉淀經驗、生成可復用的技能,下次遇到同類問題時會直接調用這些技能,并根據新的使用反饋不斷自我改進。
Hermes Agent的口號直白響亮:The agent that grows with you——一個與你共同成長的智能體。
聲網開發(fā)者社區(qū)副總裁楊慧在接受21世紀經濟報道記者采訪時表示,Hermes Agent抓住了智能體最核心的一點:人與智能體的關系,應由模型如何自我成長來定義,由智能體通過自我成長去主動適應人和幫助人,而不是由人單方面地向智能體下達指令。
在以往人與AI的交互中,控制權是單向的——人不斷下達指令,甚至要告訴AI“你記一下”。而Hermes Agent會主動更新自己的SKILL.md,覺得某個節(jié)點需要固化時,就會主動去做,變得“越來越懂”用戶。楊慧指出,包括Kimi在內的模型廠商也在做類似的事情,只是各自嘗試的做法有所不同。
楊慧分享了自己的使用體驗:“我常用Hermes Agent來寫日報和周報,主要是搜索行業(yè)的最新進展并分析生成有設計的長圖。隨著使用時間變長,它變得越來越像我了。因為我不斷跟它補充各種細節(jié),比如它對行業(yè)產品的判斷,主要來源于對技術的理解,而我除了技術理解之外,還對行業(yè)內的老玩家有更深的認識,這中間可能涉及業(yè)務轉型等復雜背景。它會學習和記住我告訴它的這些信息。”
這種持續(xù)學習的過程,本質是將經驗壓縮為可復用、可迭代的知識。它的另一個優(yōu)勢在于,即便用戶更換底層模型,只要沿用同一套框架和技能,就能得到相同預期的輸出。這意味著,用戶可以根據不同任務靈活切換模型,而核心工作流的穩(wěn)定性不會受到影響。
“AI自造AI”加速到來
除了讓智能體在與用戶的真實交互中沉淀經驗、持續(xù)改進外,當前智能體自我進化的另一條主線,正深入到模型層與架構層的自我迭代。
近年來,人工智能已經在算法自動發(fā)現、架構優(yōu)化等方面實現突破,推動行業(yè)從“人設計算法”向“AI輔助發(fā)現算法”演進。
當前,國內外頭部模型廠商正紛紛讓AI參與到自身下一代版本的開發(fā)、訓練或優(yōu)化中。除了前述Anthropic最新發(fā)布的具有自我進化能力的Claude托管智能體、谷歌DeepMind的AlphaEvolve項目外,國內MiniMax在2026年3月發(fā)布了M2.7模型,被其官方稱為“第一個模型深度參與迭代自己的模型”。
據MiniMax介紹,M2.7能夠自行構建復雜的Agent Harness(智能體駕馭系統(tǒng)),并依托Agent Teams(多智能體團隊)、復雜Skills(技能)、Tool Search Tool(工具搜索工具)等能力,完成高度復雜的生產力任務。
例如,在研發(fā)M2.7的過程中,團隊基于模型構建了強化學習Harness中的數十個復雜技能,持續(xù)更新自身記憶,驅動模型自身的強化學習,并根據結果不斷優(yōu)化強化學習流程和Harness,開啟模型的自我進化。
“在M2.7的訓練中,我們的RL pipeline(強化學習流程)里70%到80%的工作已經由‘模型+智能體’完成了。”MiniMax智能體首席架構師阿島此前在一場對談中透露。
Kimi則將多智能體協(xié)作能力作為重點之一。從K2.5開始,Kimi已從單個智能體進化到了智能體集群——K2.5會創(chuàng)建并協(xié)調一群專項智能體并行工作,這些智能體都是它的分身,各自承擔不同角色和子任務,沒有預設規(guī)則,所有的角色分配和任務拆解,都由K2.5現場即時決定。
迭代至K2.6,架構完成擴容和升級,最多可調度300個子智能體并行完成4000個協(xié)作步驟,能夠支持調度不同技能特長的智能體進行互補協(xié)作、組合各項能力。
Kimi創(chuàng)始人楊植麟不久前預判,越來越多的研究工作將由AI主導。未來每個研究員將配備海量的Token,由AI自動合成新任務、構建新環(huán)境、定義最優(yōu)獎勵函數。
“AI自造AI”的進程正在加速。前xAI聯(lián)合創(chuàng)始人Jimmy Ba今年2月曾預測,遞歸自我改進循環(huán)很可能在未來12個月內上線。而Anthropic聯(lián)合創(chuàng)始人Jack Clark近日則在社交媒體上表示,他認為到2028年底,遞歸自我改進發(fā)生的概率有60%。
“也就是說,AI系統(tǒng)可能很快就能自主構建和改進自己,進入自我加速的階段。”Jack Clark表示。

高能環(huán)境(603588.SH):控股
股民提問立訊精密:公司現在
5月26日起京滬、合蚌高鐵公
尋匯SUNRATE服貿解決方案將
微動態(tài)丨倫敦ICE可可期貨漲
吉利熊貓騎士將于9月15日上
增資擴股流程是什么(增資擴
48小時點擊排行

