2025 AI 記憶系統(tǒng)大橫評(píng):從插件到操作系統(tǒng),誰(shuí)在定義下一代Agent Infra?

0 評(píng)論 1467 瀏覽 1 收藏 39 分鐘

AI 記憶系統(tǒng)是智能體核心基礎(chǔ)設(shè)施,歷經(jīng)工程化、結(jié)構(gòu)化、認(rèn)知架構(gòu)三階段發(fā)展,2025 年涌現(xiàn) EverMemOS 等代表性項(xiàng)目,經(jīng)多方評(píng)測(cè)呈現(xiàn)技術(shù)路線差異,未來(lái)將成為 AI 第三大核心組件,朝集成化、OS 化、多模態(tài)等方向演進(jìn)。

如果站在今天回望 AI 的進(jìn)化史,你會(huì)發(fā)現(xiàn)這波浪潮在短短幾年內(nèi)完成了三次躍遷:

  • 2022-2023:模型時(shí)代(The Model Era) GPT-4 的橫空出世,讓機(jī)器第一次具備了通用的語(yǔ)言與推理能力(大腦構(gòu)建完成)。
  • 2024-2025:智能體時(shí)代(The Agentic Era) RAG 與工具調(diào)用(Tool Use)的普及,讓 AI 擁有了手和眼,開(kāi)始具備執(zhí)行復(fù)雜任務(wù)的能力。
  • 2026-:認(rèn)知時(shí)代(The Cognitive Era / Memory Era) AI 開(kāi)始擁有“長(zhǎng)期記憶”與“連貫人格”。這是從“工具”到“伙伴”的終極跨越——未來(lái)的 AI 不再是閱后即焚的聊天窗口,而是有歷史、有偏好、真正懂你的“第二大腦”。

這不是一個(gè)小升級(jí),而是范式轉(zhuǎn)換:

未來(lái)的 AI,不是問(wèn)一句答一句的聊天機(jī)器人,而是有歷史、有偏好、有世界模型的智能體(AI Agent)。

于是,一個(gè)全新的基礎(chǔ)設(shè)施賽道突然爆發(fā):

AI Memory System(AI 記憶系統(tǒng))

它們?cè)噲D解決同一個(gè)核心問(wèn)題:

如何讓 AI 記住過(guò)去,從而理解未來(lái)?

2023–2025 之間,全球出現(xiàn)了十幾種完全不同的 Memory 技術(shù)路線。但究竟哪種路線能最終滿足我們的使用需求,目前各條路線進(jìn)展如何?我們還無(wú)法形成直觀的評(píng)價(jià)。

在AI領(lǐng)域,我們經(jīng)常用基準(zhǔn)測(cè)試(benchmark)去衡量技術(shù)性能的高低。在記憶方面,比較常用的測(cè)試集有LoCoMo、LongMemEval等。但記憶領(lǐng)域的評(píng)測(cè)并不是一件非常容易的事,評(píng)測(cè)方法、所用模型、版本都會(huì)造成評(píng)測(cè)結(jié)果的分歧。前些時(shí)候,Mem0和Letta就在彼此的評(píng)測(cè)分值上有過(guò)分歧(參見(jiàn)《Benchmarking AI Agent Memory: Is a Filesystem All You Need?》)。

我們查閱了記憶領(lǐng)域近10個(gè)團(tuán)隊(duì)的評(píng)測(cè)官方分?jǐn)?shù)、發(fā)布情況和橫向比較,看到三家橫向評(píng)測(cè)完整度是比較高的,在此嘗試進(jìn)行分析解讀。

1、Mem360橫向評(píng)測(cè):

發(fā)布時(shí)間:2025-9-24

2、MemOS橫向評(píng)測(cè):

發(fā)布時(shí)間:2025-11-6

3、EverMind(EverMemOS研發(fā)團(tuán)隊(duì))橫向評(píng)測(cè):

注:Full-context為將完整的對(duì)話歷史無(wú)截?cái)唷o(wú)篩選地直接輸入給大型語(yǔ)言模型(LLM),讓模型僅依賴自身的上下文窗口和注意力機(jī)制處理信息、生成輸出,消耗token較多,但可以作為性能的baseline。

發(fā)布時(shí)間:2025-11-26

同時(shí),我們也整理了各團(tuán)隊(duì)在LoCoMo測(cè)試集上官方報(bào)告的結(jié)果:

接下來(lái),我們結(jié)合這些評(píng)測(cè)的解讀分析來(lái)進(jìn)一步了解Memory領(lǐng)域的技術(shù)進(jìn)展。

為什么所有 Memory 項(xiàng)目都說(shuō)自己是 SOTA?

首先,我們比較發(fā)現(xiàn)上述三家公布的橫向評(píng)測(cè)結(jié)果,總體上還是相對(duì)一致的(比如對(duì)MemU的評(píng)測(cè),三家復(fù)現(xiàn)結(jié)果都很相近),多數(shù)項(xiàng)目的相對(duì)高低也是一致的,但在個(gè)別分值上結(jié)果相差很大(比如Zep的分值,EverMind的評(píng)分明顯高于其他兩家,并且略高于Zep官方Claim的結(jié)果)。

仔細(xì)分析會(huì)發(fā)現(xiàn),這些測(cè)評(píng)數(shù)據(jù)的差異主要來(lái)自這幾個(gè)方面:

① 評(píng)測(cè)對(duì)象不同

不同的評(píng)測(cè)報(bào)告中,對(duì)于同一記憶系統(tǒng),有的評(píng)測(cè)了 web API 版,有的評(píng)測(cè)了開(kāi)源版。例如EverMind的橫評(píng)中標(biāo)注EverMemOS使用了開(kāi)源版,其他產(chǎn)品使用了性能更好的web API 版,因此基本代表了各家產(chǎn)品的最新最佳表現(xiàn)。

在關(guān)于評(píng)測(cè)是否可復(fù)現(xiàn)的爭(zhēng)議中,也有相當(dāng)一部分來(lái)自開(kāi)源版本提供的數(shù)據(jù)和代碼并不充分。多家記憶系統(tǒng)都曾在Github上用”web API版有更多優(yōu)化”回應(yīng)復(fù)現(xiàn)疑問(wèn),可以認(rèn)為大家更推薦web API版本。

② 版本更迭

各家記憶系統(tǒng)大都在持續(xù)更新,包括升級(jí)和版本迭代中的小失誤。

Zep自官方Claim的LoCoMo測(cè)試結(jié)果發(fā)布之后,已經(jīng)從v2升級(jí)到了v3,EverMind的評(píng)測(cè)中,則使用了Zep的V3版本,這可能是EverMind橫評(píng)中Zep得分高于其他家評(píng)測(cè)結(jié)果,甚至高于Zep官方此前匯報(bào)的結(jié)果的原因。

在記憶召回中有特殊價(jià)值的”時(shí)間戳”定義上,Mem0 最新的版本中出現(xiàn)了一些定義混淆,這個(gè) issue 在Github上也有討論,或許對(duì)其效果有一定的影響。MemOS在橫向評(píng)測(cè)中提到對(duì)Mem0的測(cè)評(píng)結(jié)果無(wú)法復(fù)現(xiàn),或與此有關(guān)。

③ 測(cè)評(píng)模型及方法

目前只有 MemOS 和 EverMemOS 兩家公開(kāi)了完整的橫向測(cè)評(píng)方法,二者在評(píng)測(cè)所用的語(yǔ)言模型及評(píng)測(cè)方法上略有不同。

從模型角度,MemOS 統(tǒng)一用 gpt-4o-mini 作為回答模型,EverMind統(tǒng)一用新一代的 gpt-4.1-mini作為問(wèn)答模型,都做到了統(tǒng)一標(biāo)準(zhǔn)。

從方法角度,在對(duì) Zep 的評(píng)測(cè)上,MemOS 提供了三版不同的結(jié)果,最終選用了通用回答提示詞生成的結(jié)果,EverMind選用了 Zep 原生回答提示詞。對(duì)此,我們?yōu)g覽了各方評(píng)測(cè)的結(jié)果文件,發(fā)現(xiàn)Zep在存儲(chǔ)記憶的時(shí)候,對(duì)于時(shí)間戳的定義和主流有所不同,導(dǎo)致使用通用提示詞會(huì)造成預(yù)期外的準(zhǔn)確率下降。這可能是Mem360和MemOS對(duì)Zep的評(píng)分顯著低于Zep官方報(bào)告分?jǐn)?shù)的重要原因。我們推測(cè)EverMind對(duì)Zep的評(píng)分或更接近Zep在線服務(wù)的真實(shí)水平。

由此可見(jiàn),在記憶系統(tǒng)的評(píng)測(cè)結(jié)果中,在公布評(píng)測(cè)成績(jī)的同時(shí),必須提供評(píng)測(cè)條件,包括評(píng)測(cè)的具體時(shí)間、版本,使用的模型和提示詞等,并且在統(tǒng)一外部條件下進(jìn)行橫向比較,才能達(dá)到評(píng)測(cè)的目的,便于客觀比較和加深理解。

從 Mem0 與 Letta 的測(cè)評(píng)復(fù)現(xiàn)之爭(zhēng)可以看出,橫向測(cè)評(píng)外部系統(tǒng)是一件不容易的事,信息不足可能造成評(píng)測(cè)結(jié)果的偏頗和爭(zhēng)論。但不同記憶系統(tǒng)之間的評(píng)測(cè)又是一件重要的事,能夠促進(jìn)整個(gè)行業(yè)的交流和發(fā)展,而不是各自閉門(mén)造車(chē)。在此,感謝 MemOS 團(tuán)隊(duì)和 EverMemOS 團(tuán)隊(duì)對(duì)開(kāi)源評(píng)測(cè)的推動(dòng)和助力,也希望未來(lái)有更多更好的 Benchmark 數(shù)據(jù)集和開(kāi)源評(píng)測(cè)的精彩互動(dòng),讓這個(gè)領(lǐng)域更加活躍起來(lái)。

如何看待記憶系統(tǒng)的多種路線?

我們梳理了2024–2025年全球開(kāi)源社區(qū)出現(xiàn)的十幾種完全不同的 Memory 技術(shù)路線和代表項(xiàng)目:

  • 自動(dòng)抽取記憶(Mem0)
  • 企業(yè)級(jí) Memory Server(Zep)
  • 結(jié)構(gòu)化記憶樹(shù)(MemU)
  • 神經(jīng)張量記憶(MemOS)
  • 生物啟發(fā)的Memory OS(EverMemOS)
  • 屏幕級(jí)多模態(tài)記憶(Mirix)
  • Profile-based Memory(Memobase)
  • 文件系統(tǒng)式 Memory(Letta)
  • 視頻級(jí)記憶 / LVMM(Memories.ai)
  • 知識(shí)圖譜式超記憶(Supermemory)
  • LangMem(LangChain 官方 Memory SDK)

隨之而來(lái)的關(guān)鍵問(wèn)題是:記憶系統(tǒng)的底層技術(shù)演進(jìn)方向究竟在何方?2025 年的 Agent,到底應(yīng)該使用哪套 Memory 技術(shù)?

當(dāng)我們把歷史上出現(xiàn)的記憶系統(tǒng)相關(guān)工作都調(diào)研分析之后,就不難總結(jié)出AI長(zhǎng)期記憶技術(shù)的三個(gè)發(fā)展階段:

1.工程化集成階段 (2023-2024): 代表為 Mem0 和 Supermemory。這一階段的核心痛點(diǎn)是”RAG太難用了”,因此重點(diǎn)在于封裝復(fù)雜的向量數(shù)據(jù)庫(kù)操作,提供簡(jiǎn)單的API。LoCoMo得分普遍在60%-70%,主要受限于基于相似度檢索的固有缺陷。

2.結(jié)構(gòu)化與圖譜階段 (2024-2025 H1): 代表為 Zep 和 Memobase。開(kāi)發(fā)者意識(shí)到”相似度”不等于”相關(guān)性”,特別是涉及時(shí)間維度的狀態(tài)變化時(shí)。引入知識(shí)圖譜和時(shí)間軸后,得分提升至75%左右,解決了時(shí)序錯(cuò)亂問(wèn)題。

3.認(rèn)知架構(gòu)階段 (2025 H2): 代表為 Mirix, MemU, MemOS,EverMemOS。這一階段徹底拋棄了”數(shù)據(jù)庫(kù)”的隱喻,轉(zhuǎn)而采用”大腦”或”操作系統(tǒng)”的隱喻。通過(guò)引入多智能體協(xié)作、記憶提純和類(lèi)腦整合機(jī)制,系統(tǒng)性能終于突破85%,邁向90%+的人類(lèi)水平。

限于篇幅,我們按照時(shí)間順序,從最早的 Mem0 到最新的 EverMemOS,選擇最有代表性的5個(gè)項(xiàng)目展開(kāi)來(lái)說(shuō)。希望能復(fù)盤(pán)記憶技術(shù)如何完成從’功能插件’到’操作系統(tǒng)’、從’靜態(tài)向量庫(kù)’到’動(dòng)態(tài)認(rèn)知體’的范式轉(zhuǎn)移。并結(jié)合最新發(fā)布的可復(fù)現(xiàn)橫評(píng)結(jié)果,分析各自特性和路線演化。

Mem0(2024.07–2025)——第一代輕量記憶插件的誕生:從”自動(dòng)抽取”開(kāi)始

推出時(shí)間

  • 2024-07 開(kāi)源發(fā)布
  • 2024-10-27首次系統(tǒng)公開(kāi)論述Medium 上發(fā)布《Mem0: Solving the Memory Problem in LLMs》。
  • 2025-04-28提交論文《Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory》

為什么 Mem0 會(huì)火?

因?yàn)楫?dāng)時(shí)幾乎所有開(kāi)發(fā)者都遇到一個(gè)痛點(diǎn):模型每次都忘記之前說(shuō)過(guò)什么。Mem0 給出的簡(jiǎn)單答案是:自動(dòng)抽取 → 自動(dòng)清洗 → 自動(dòng)存儲(chǔ)

幾行代碼就能讓 AI”看起來(lái)”擁有記憶。

在缺乏 Memory 基礎(chǔ)設(shè)施的 2023–2024 年,這極具革命性。

技術(shù)路線

Mem0 主打兩個(gè)詞:

  • 輕量
  • 自動(dòng)化

特點(diǎn):

  • 混合存儲(chǔ):采用“向量+知識(shí)圖譜”架構(gòu),兼顧語(yǔ)義匹配與關(guān)系推理,實(shí)現(xiàn)精準(zhǔn)記憶檢索
  • 智能過(guò)濾:通過(guò)主動(dòng)篩選與更新記憶,有效減少冗余,在保證質(zhì)量的同時(shí)顯著優(yōu)化存儲(chǔ)與計(jì)算成本

Mem0 的時(shí)代意義

它是第一代”能用即可”的記憶工具

但它的問(wèn)題也同樣明顯:

  • 過(guò)度抽取
  • 多輪任務(wù)容易漂移
  • 不可解釋
  • 長(zhǎng)期一致性弱

這是一個(gè)讓世界認(rèn)識(shí)”AI 記憶”的產(chǎn)品,但不是下一代智能體的記憶基礎(chǔ)。

Zep(2024.09–2025)——企業(yè)級(jí) Memory Server 的率先探索:穩(wěn)定、可部署、可解釋

推出時(shí)間

  • 2024.9:官方博客《Announcing: Zep Community Edition》宣布 CE 版本開(kāi)源。
  • 2025.1:論文《Zep: A Temporal Knowledge Graph Architecture for Agent Memory》上線 arXiv(2501.13956)。

Zep 的技術(shù)路線:Memory = Server

Zep 是第一套完整把記憶抽象成”服務(wù)(Service)”的系統(tǒng):

  • 圖譜專業(yè)化,使用時(shí)序圖譜,為多源數(shù)據(jù)動(dòng)態(tài)維護(hù)歷史關(guān)聯(lián)。
  • 企業(yè)級(jí)可部署性(Docker、SDK、權(quán)限體系)

這讓它成為大量企業(yè)級(jí)項(xiàng)目的可用選擇。

為什么它能在統(tǒng)一評(píng)測(cè)中表現(xiàn)很好?

Zep 的上下文構(gòu)建(Context Assembly)比所有向量庫(kù)方案都更規(guī)整。

在 EverMind 的橫向評(píng)測(cè)中,Zep的分值85.22,甚至遠(yuǎn)高于其官方報(bào)告的分值(75.14)。

說(shuō)明了Zep是可復(fù)現(xiàn)的,且團(tuán)隊(duì)代碼持續(xù)更新。

Zep 的定位總結(jié)

  • 穩(wěn)健型 Memory
  • 企業(yè)生產(chǎn)可用
  • 但不是 Agent 的“長(zhǎng)期世界模型”
  • 更像“AI 的數(shù)據(jù)層”,而不是“大腦層”

MemOS(2025.05-07)——從 Memory3 到 Memory OS:神經(jīng)記憶體系的前沿探索

推出時(shí)間

  • 2025-05 / 07:MemOS 論文體系定型
  • 2025-05:短文《MemOS: MAG》
  • 2025-07:長(zhǎng)文《MemOS: A Memory OS for AI System》發(fā)布(2507.03724)

這標(biāo)志 MemOS 從”模型”到”操作系統(tǒng)框架”的正式轉(zhuǎn)變。

MemOS 的技術(shù)路線:Memory = 可訓(xùn)練的神經(jīng)結(jié)構(gòu)(Tensor Memory)

與其他所有系統(tǒng)不同,MemOS 的哲學(xué)是:

不僅存數(shù)據(jù),連記憶本身也應(yīng)該是可學(xué)習(xí)的結(jié)構(gòu)。

核心組件包括:

  • MemCube(張量化記憶單元)統(tǒng)一管理明文、激活、參數(shù)三種記憶
  • 系統(tǒng)架構(gòu)層:接口層、操作層、基礎(chǔ)設(shè)施層三層架構(gòu),將記憶“資源化”,實(shí)現(xiàn)了專業(yè)化分工與統(tǒng)一調(diào)度

現(xiàn)實(shí)問(wèn)題:

  • 學(xué)習(xí)曲線陡峭,集成需要較多定制開(kāi)發(fā)
  • 系統(tǒng)較重,不適合輕量級(jí)場(chǎng)景

MemOS 的定位

  • 具有未來(lái)記憶技術(shù)的研究氣質(zhì)
  • 對(duì)學(xué)術(shù)與前沿記憶模型有探索意義

MemU(2025.08)——結(jié)構(gòu)化記憶體系:當(dāng) AI 開(kāi)始”整理自己的大腦”

推出時(shí)間

2025-08-08:Medium 文章首次系統(tǒng)公開(kāi) MemU

標(biāo)題即為《MemU: Let AI Truly Memorize You》

MemU 的技術(shù)路線:可解釋、結(jié)構(gòu)化、檔案式記憶

MemU 最獨(dú)特的地方在于它把記憶組織成樹(shù)(Memory Tree)。

結(jié)構(gòu)特點(diǎn):

  • 層級(jí)化存儲(chǔ)架構(gòu):通過(guò)根、枝、葉三級(jí)節(jié)點(diǎn),實(shí)現(xiàn)記憶的自動(dòng)分類(lèi)存儲(chǔ)。
  • 動(dòng)態(tài)擴(kuò)展機(jī)制:新記憶基于語(yǔ)義,自動(dòng)歸入對(duì)應(yīng)分支,實(shí)現(xiàn)自我生長(zhǎng)。
  • 權(quán)重檢索:系統(tǒng)按使用頻率等因素計(jì)算權(quán)重,并以此決定檢索優(yōu)先級(jí)。

這讓它在:

  • 用戶畫(huà)像
  • 檔案管理
  • 教育記錄
  • 結(jié)構(gòu)化任務(wù)

表現(xiàn)極好。

但它缺乏:

  • 開(kāi)放域推理
  • 噪聲魯棒性
  • 靈活度

在 MemOS的橫向評(píng)測(cè)中:MemU的分值為56.55,遠(yuǎn)低于官方 92.09%,是這5個(gè)項(xiàng)目中官方報(bào)告成績(jī)和外部評(píng)測(cè)差距最大的一家,期待看到MemU團(tuán)隊(duì)解釋澄清或更新結(jié)果。

EverMemOS(2025-09 → 2025-11)——第二代 Memory OS:AI 的長(zhǎng)期”大腦”誕生

推出時(shí)間

  • 2025-09-30:媒體首次提及 EverMemOS,包含 LoCoMo SOTA(92.3%)的信息
  • 2025-11-16 ~ 18:EverMemOS 正式開(kāi)源,OSChina、TMTPost 等多家媒體報(bào)道 GitHub 版本上線

EverMemOS 是目前五者中 最晚亮相,但技術(shù)體系最完整的一家。

EverMemOS 的技術(shù)結(jié)構(gòu):仿生四層記憶架構(gòu)

EverMemOS創(chuàng)新性地構(gòu)建了仿生四層記憶架構(gòu),體現(xiàn)了人腦記憶機(jī)制的工程化模擬

①分類(lèi)記憶提取

根據(jù)情景、語(yǔ)義、畫(huà)像等不同記憶類(lèi)型,進(jìn)行提取和分層分區(qū)存儲(chǔ),既保持對(duì)立有可有效關(guān)聯(lián)

② MemCell原子化存儲(chǔ)

每條記憶帶時(shí)間、來(lái)源、標(biāo)簽、關(guān)系等,類(lèi)似人腦中的記憶單元

③ 事件邊界

不按會(huì)話或token強(qiáng)行切分,而是按主題關(guān)聯(lián)跨會(huì)話定義事件,形成可理解的記憶。

④ 多重召回

對(duì)簡(jiǎn)單請(qǐng)求作快速召回,對(duì)復(fù)雜請(qǐng)求進(jìn)行多跳推理形成深度召回,類(lèi)似人腦的前額葉和海馬體的協(xié)作。

EverMemOS(開(kāi)源版)官方公布成績(jī)是92.3%,橫評(píng)可復(fù)現(xiàn)92.32%,是目前評(píng)測(cè)中唯一在綜合得分上超越 LLM Full-context的記憶系統(tǒng),且平均Token數(shù)顯著低于full-context。這打破了我們的固有認(rèn)知。通常認(rèn)為把所有歷史扔給大模型(Full-context)是效果最好的。但評(píng)測(cè)數(shù)據(jù)顯示,過(guò)多的上下文反而引入了噪音,稀釋了模型的注意力。EverMemOS證明了一點(diǎn):對(duì)于長(zhǎng)期記憶,’精準(zhǔn)的遺忘’和’精準(zhǔn)的記’一樣重要。高質(zhì)量的記憶抽取和召回系統(tǒng),實(shí)際上是在幫大模型做’注意力減負(fù)’。

這也是目前唯一官方測(cè)評(píng) = GitHub 橫測(cè) = 社區(qū)復(fù)現(xiàn)結(jié)果一致的 Memory OS。

  • 發(fā)布全套評(píng)測(cè)腳本
  • 發(fā)布所有 prompt
  • 發(fā)布所有數(shù)據(jù)集
  • 提供開(kāi)源運(yùn)行方式
  • 統(tǒng)一模型 / 統(tǒng)一參數(shù)

單從性能透明度上,就是很值得贊賞的開(kāi)源項(xiàng)目。

應(yīng)用實(shí)例評(píng)測(cè)

除了上面的LoCoMo等評(píng)測(cè)集的客觀評(píng)價(jià)之外,我們還想從主觀使用體驗(yàn)的角度來(lái)進(jìn)行評(píng)測(cè)。

于是,我們用GPT生成了多個(gè)測(cè)試實(shí)例,分別運(yùn)行5個(gè)系統(tǒng)的最佳結(jié)果版本(EverMemOS開(kāi)源版本,Mem0/Zep/MemOS/MemU的web API版),再用GPT評(píng)價(jià)各系統(tǒng)返回的結(jié)果,并作人工校驗(yàn)。測(cè)試實(shí)例分別體現(xiàn)對(duì)記憶的信息提取、調(diào)度記憶的主動(dòng)推斷、時(shí)間戳和事件的時(shí)間認(rèn)知能力。

在此先給出結(jié)論:總體而言,EverMemOS的準(zhǔn)確率最高,但部分實(shí)例運(yùn)行時(shí)間較長(zhǎng);MemU和Zep緊隨其后,表現(xiàn)較為穩(wěn)定,但Zep對(duì)時(shí)間戳和事件的時(shí)間認(rèn)知表現(xiàn)不盡如人意,MemU對(duì)細(xì)節(jié)信息提取和事件的時(shí)間認(rèn)知表現(xiàn)不足;MemOS和Mem0的表現(xiàn)不甚穩(wěn)定,具體結(jié)果如下:

問(wèn)題一: 洱海電動(dòng)車(chē)租一天多少錢(qián)?

考察目標(biāo):細(xì)節(jié)信息的回憶

標(biāo)準(zhǔn)答案:普通電動(dòng)車(chē)50-80元/天,大功率電動(dòng)車(chē)100-150元/天

提供的對(duì)話記錄(msg_006)中包含相關(guān)內(nèi)容:”價(jià)格:普通電動(dòng)車(chē)50-80元/天,續(xù)航80-100公里;大功率電動(dòng)車(chē)100-150元/天,續(xù)航120-150公里。”

5個(gè)系統(tǒng)給出的結(jié)果為:

1、Mem0

根據(jù)一般情況,洱海周邊租電動(dòng)車(chē)一天的費(fèi)用大致在80元到150元之間,具體價(jià)格會(huì)因車(chē)型、租賃點(diǎn)和季節(jié)有所差異。一般租賃還會(huì)要求押金,并核實(shí)駕駛證。建議提前詢價(jià)比較,并留意電動(dòng)車(chē)的續(xù)航能力和安全性能。

評(píng)價(jià):記憶系統(tǒng)中沒(méi)有查找到記錄,從一般知識(shí)推斷

2、Zep

在洱海租用電動(dòng)車(chē)一天的價(jià)格大致在50元到150元之間,具體取決于電動(dòng)車(chē)的類(lèi)型。普通電動(dòng)車(chē)的租金一般是50到80元每天,而大功率電動(dòng)車(chē)的租金則在100到150元每天。此外,租車(chē)通常需要準(zhǔn)備500到1000元的押金。

評(píng)價(jià):非常準(zhǔn)確,信息完整,價(jià)格區(qū)間精確

3、MemOS

根據(jù)您的記憶,您曾關(guān)注過(guò)洱海環(huán)湖電動(dòng)車(chē)的租賃問(wèn)題,但具體一天的價(jià)格沒(méi)有明確記錄。一般來(lái)說(shuō),洱海環(huán)湖電動(dòng)車(chē)租賃一天的價(jià)格大約在100元到150元之間,具體價(jià)格會(huì)根據(jù)租賃點(diǎn)和電動(dòng)車(chē)型號(hào)有所差異。

評(píng)價(jià):記憶系統(tǒng)中沒(méi)有記錄”一天的價(jià)格”

4、MemU

根據(jù)當(dāng)前記憶,暫時(shí)沒(méi)有關(guān)于洱海電動(dòng)車(chē)租賃價(jià)格的具體信息。一般來(lái)說(shuō),洱海地區(qū)的電動(dòng)車(chē)租賃費(fèi)用大約在每天50至150元之間,具體價(jià)格會(huì)根據(jù)車(chē)型和租賃點(diǎn)有所不同,建議您到當(dāng)?shù)刈赓U店咨詢以獲取準(zhǔn)確報(bào)價(jià)。

評(píng)價(jià):”暫時(shí)沒(méi)有記憶”,說(shuō)明記憶提取不完整

5、EverMemOS

根據(jù)之前的咨詢,洱海普通電動(dòng)車(chē)的日租金大約在50到80元之間,而大功率車(chē)型的租金則在100到150元之間。

評(píng)價(jià):非常準(zhǔn)確,信息完整,價(jià)格區(qū)間精確

問(wèn)題二: 明天我要去青島旅游,帶一個(gè)箱子還是兩個(gè)箱子好呢?

考察目標(biāo):主動(dòng)性推斷

標(biāo)準(zhǔn)答案:建議帶一個(gè)箱子,減輕搬運(yùn)負(fù)擔(dān),保護(hù)腰部

該問(wèn)題不在原始對(duì)話中,但根據(jù)用戶的腰傷歷史(msg_007中提到”在搬行李的時(shí)候不小心把腰閃了”),在回答行李相關(guān)問(wèn)題時(shí),必須優(yōu)先考慮腰部保護(hù),避免再次因搬運(yùn)重物受傷。

5個(gè)系統(tǒng)給出的結(jié)果為:

1、Mem0

根據(jù)您即將前往青島旅游的情況,如果行程時(shí)間較短且不需要攜帶過(guò)多物品,帶一個(gè)箱子通常會(huì)更方便;如果您需要帶換洗衣物較多或準(zhǔn)備了特別裝備,帶兩個(gè)箱子會(huì)更妥當(dāng)。建議根據(jù)行程天數(shù)和物品多少來(lái)選擇箱子數(shù)量。

評(píng)價(jià):提供了通用建議,但完全忽略了用戶的腰傷歷史,這是回答該問(wèn)題時(shí)最關(guān)鍵的因素

2、Zep

根據(jù)您近期剛從云南旅行回來(lái),搬運(yùn)行李時(shí)曾扭傷腰部且正在恢復(fù),建議您明天去青島旅游時(shí)盡量只帶一個(gè)箱子,以減輕行李搬運(yùn)對(duì)腰部的負(fù)擔(dān)。

評(píng)價(jià):完美的回答,準(zhǔn)確記住了腰傷歷史和發(fā)生原因(搬運(yùn)行李),建議針對(duì)性強(qiáng)

3、MemOS

考慮到您之前的云南旅行是5天并攜帶了合適的行李,從實(shí)用和方便出行的角度來(lái)看,帶一個(gè)大小適中的箱子應(yīng)該比較合適,這樣既方便攜帶又能滿足短途旅游的基本需求。

評(píng)價(jià):建議帶一個(gè)箱子是正確的,但理由不夠充分,未提及最關(guān)鍵的腰部保護(hù)因素

4、MemU

鑒于您近期腰部有急性扭傷,建議盡量減少行李負(fù)擔(dān),帶一個(gè)箱子較為合適,以減輕搬運(yùn)行李時(shí)對(duì)腰部的壓力。

評(píng)價(jià):準(zhǔn)確且簡(jiǎn)潔,充分考慮了腰部扭傷情況,建議明確合理

5、EverMemOS

根據(jù)您之前云南旅行時(shí)因搬運(yùn)行李導(dǎo)致腰部受傷的情況,建議此次青島旅行盡量減少行李箱數(shù)量,帶一個(gè)箱子會(huì)更為安全且方便,避免搬運(yùn)行李時(shí)造成負(fù)擔(dān)和潛在的腰部不適。

評(píng)價(jià):非常詳細(xì)和周到,不僅記住了腰傷,還記住了受傷的具體原因(搬運(yùn)行李),建議針對(duì)性強(qiáng)

問(wèn)題三: 從我計(jì)劃去云南到實(shí)際從云南回來(lái),一共過(guò)了多長(zhǎng)時(shí)間?

考察目標(biāo):時(shí)間戳的定義

標(biāo)準(zhǔn)答案:約35天(一個(gè)多月)

根據(jù)對(duì)話記錄:

msg_001(2025-09-10):”我計(jì)劃下個(gè)月去云南旅游”

msg_007(2025-10-15):”我從云南回來(lái)了”

計(jì)算:從9月10日計(jì)劃到10月15日實(shí)際回來(lái),經(jīng)過(guò)了約35天

5個(gè)系統(tǒng)給出的結(jié)果為:

1、Mem0

根據(jù)您的計(jì)劃和實(shí)際情況推測(cè),您從計(jì)劃去云南開(kāi)始到實(shí)際從云南回來(lái),大概率經(jīng)歷了大約5天左右的時(shí)間。

評(píng)價(jià):嚴(yán)重錯(cuò)誤!將”旅游5天”混淆為”從計(jì)劃到回來(lái)5天”,完全沒(méi)有理解時(shí)間跨度

2、Zep

根據(jù)您的計(jì)劃和實(shí)際行程,您從計(jì)劃去云南到實(shí)際從云南回來(lái)一共經(jīng)過(guò)了大約5天左右的時(shí)間。

評(píng)價(jià):同樣的嚴(yán)重錯(cuò)誤,將旅游天數(shù)誤認(rèn)為總時(shí)間跨度

3、MemOS

從您計(jì)劃去云南旅游到實(shí)際從云南回來(lái),時(shí)間大概率是在2023年11月左右,具體時(shí)長(zhǎng)大約為5天左右,可能與您原計(jì)劃的行程相符。

評(píng)價(jià):錯(cuò)誤!同樣混淆了旅游天數(shù)和總時(shí)間跨度,且年份錯(cuò)誤(2023而非2025)

4、MemU

您從計(jì)劃去云南到實(shí)際從云南回來(lái),大約經(jīng)歷了一個(gè)多月的時(shí)間。

評(píng)價(jià):正確!準(zhǔn)確理解了從計(jì)劃(9月10日)到回來(lái)(10月15日)的時(shí)間跨度

5、EverMemOS

根據(jù)您的記憶,您在2025年9月10日提出了去云南5日游的計(jì)劃,實(shí)際于2025年10月15日從云南旅行返回,因此從計(jì)劃到實(shí)際回來(lái)大約經(jīng)過(guò)了一個(gè)多月的時(shí)間。

評(píng)價(jià):非常準(zhǔn)確!不僅給出了正確答案,還精確記錄了具體日期(9月10日和10月15日)

問(wèn)題四: 我從腰部受傷到可以開(kāi)始做深蹲,你建議的恢復(fù)期是多久?我實(shí)際用了多久?

考察目標(biāo):事件的時(shí)間認(rèn)知

標(biāo)準(zhǔn)答案:建議恢復(fù)期:3-4周;實(shí)際用了:10天

根據(jù)對(duì)話記錄:

– msg_007(2025-10-15):腰部受傷

– msg_012:助手建議”第3-4周可增加輕度深蹲”

– msg_021(2025-10-25):用戶實(shí)際開(kāi)始做深蹲

– 計(jì)算:建議3-4周,實(shí)際只用了10天(恢復(fù)較快)

5個(gè)系統(tǒng)給出的結(jié)果為:

1、Mem0

根據(jù)您的情況,腰部急性扭傷后通常建議經(jīng)歷一個(gè)大約2至4周的恢復(fù)期,期間避免進(jìn)行負(fù)重或大幅度運(yùn)動(dòng)如深蹲。您在實(shí)際恢復(fù)中大約經(jīng)過(guò)了幾天的休息和適度活動(dòng),感覺(jué)腰部有明顯好轉(zhuǎn)并開(kāi)始嘗試增加訓(xùn)練強(qiáng)度。這表明您恢復(fù)速度較快,但具體開(kāi)始深蹲的時(shí)間應(yīng)視您疼痛程度和功能恢復(fù)而定,建議在無(wú)明顯疼痛及姿勢(shì)穩(wěn)定后逐步嘗試。

評(píng)價(jià):建議恢復(fù)期基本正確(2-4周),但未給出實(shí)際用了多久的具體天數(shù),回答模糊

2、Zep

根據(jù)恢復(fù)方案建議,您從急性腰扭傷到可以開(kāi)始輕度深蹲的理想恢復(fù)期是大約3周左右,目前您處于恢復(fù)的第三周,疼痛已明顯減輕,可以開(kāi)始自重輕度深蹲。您實(shí)際恢復(fù)時(shí)間與建議較為吻合。

評(píng)價(jià):建議恢復(fù)期準(zhǔn)確(3周),但實(shí)際計(jì)算有誤——用戶10月15日受傷,10月25日開(kāi)始深蹲,只用了10天而非3周

3、MemOS

一般來(lái)說(shuō),從急性腰扭傷到可以開(kāi)始做深蹲的恢復(fù)期建議為3到4周,期間會(huì)逐步進(jìn)行熱敷、輕度活動(dòng)、拉伸和核心力量訓(xùn)練。根據(jù)您的情況,因您已經(jīng)感覺(jué)基本不疼并且開(kāi)始恢復(fù)運(yùn)動(dòng),大概率是在3到4周左右可以嘗試進(jìn)行深蹲,但指引中仍建議根據(jù)實(shí)際無(wú)痛感和腰部的強(qiáng)度耐受情況進(jìn)行調(diào)整。

評(píng)價(jià):建議恢復(fù)期準(zhǔn)確(3-4周),但未明確說(shuō)明實(shí)際用了多久,信息不完整

4、MemU

一般來(lái)說(shuō),急性腰扭傷后建議恢復(fù)期為至少2到4周,期間應(yīng)避免進(jìn)行深蹲等對(duì)腰部負(fù)荷較大的動(dòng)作。根據(jù)您的情況,受傷后第三天仍有明顯不適,實(shí)際的恢復(fù)時(shí)間可能超過(guò)這一時(shí)間段,建議待疼痛明顯緩解且醫(yī)生或理療師確認(rèn)無(wú)異常后,再開(kāi)始深蹲訓(xùn)練。

評(píng)價(jià):建議恢復(fù)期基本正確(2-4周),但對(duì)實(shí)際恢復(fù)時(shí)間判斷錯(cuò)誤(認(rèn)為會(huì)超過(guò)建議時(shí)間,實(shí)際只用了10天)

5、EverMemOS

根據(jù)康復(fù)計(jì)劃和您的實(shí)際恢復(fù)情況,建議的腰部扭傷恢復(fù)期到可以開(kāi)始進(jìn)行深蹲訓(xùn)練大約為一至兩周左右。您于10月15日受傷并開(kāi)始休息和基礎(chǔ)治療,經(jīng)過(guò)約一周左右的逐步康復(fù)訓(xùn)練,到10月25日左右即開(kāi)始咨詢并準(zhǔn)備嘗試自重深蹲,整體恢復(fù)期約為10天左右。

評(píng)價(jià):非常精確!不僅給出了具體日期(10月15日-10月25日),還準(zhǔn)確計(jì)算出實(shí)際恢復(fù)期約10天

在此,我們將上述五項(xiàng)記憶系統(tǒng)領(lǐng)域最有代表性的五個(gè)項(xiàng)目匯總于此:

我們嘗試用一句話概括這5個(gè)項(xiàng)目的特色:

– EverMemOS:集大成者,旨在構(gòu)建下一代Memory OS 的完整生態(tài)。

– Zep:工業(yè)級(jí)水準(zhǔn),打造企業(yè)級(jí)Memory Server 的最佳實(shí)踐與穩(wěn)定性標(biāo)桿。

– MemOS:探索未知,代表了神經(jīng)記憶(Neural Memory)路線的最前沿嘗試。

– MemU:垂直深耕,提供了結(jié)構(gòu)化記憶的專業(yè)化解決方案。

– Mem0:極簡(jiǎn)主義,作為第一代輕量級(jí)抽取插件,完成了概念的早期驗(yàn)證。

這些都是長(zhǎng)期記憶領(lǐng)域非常值得關(guān)注的項(xiàng)目,每一項(xiàng)工作都很有特色,在剛剛出現(xiàn)的時(shí)候,都推動(dòng)了領(lǐng)域進(jìn)步。即使在今天,這些團(tuán)隊(duì)也都堅(jiān)持在自己路線上持續(xù)努力,他們代表著領(lǐng)域的未來(lái)(篇幅所限,還有一些團(tuán)隊(duì)的工作也很出色,不在此一一列舉)。

我對(duì)未來(lái)的判斷

未來(lái)三年,將是 Memory 技術(shù)”代際突變”的關(guān)鍵時(shí)期。

所有技術(shù)路線的匯聚點(diǎn)是:AI 將不再依賴上下文,而要依賴記憶。記憶將與模型參數(shù)、工具系統(tǒng)并列,成為 AI 的第三大核心組件。

以下是我們預(yù)測(cè)的六大趨勢(shì)。

趨勢(shì)一:Memory 從外掛變成 LLM 的原生能力

今天的大模型仍依賴 Prompt 和”外接記憶模塊”。未來(lái)的大模型會(huì)在內(nèi)部集成 Memory Layer,在推理中自動(dòng)讀取長(zhǎng)期世界模型,不再需要復(fù)雜提示。

Meta LLaMA Filestore、OpenAI Memory、Anthropic 的一致性更新,都在朝此方向邁進(jìn)。未來(lái)模型會(huì)像人一樣說(shuō):”我本來(lái)就記得。”

趨勢(shì)二:Memory OS 成為智能體的”操作系統(tǒng)”

智能體需要一個(gè)統(tǒng)一的 Memory OS 來(lái)管理:世界鏡像、用戶模型、關(guān)系圖譜、時(shí)間線、任務(wù)鏈、工具調(diào)用狀態(tài)。

EverMemOS 是最接近這一形態(tài)的原型。未來(lái)的 Agent 將像計(jì)算機(jī)一樣:有 OS、有文件、有工具、有長(zhǎng)期狀態(tài)。

趨勢(shì)三:Temporal Graph(時(shí)間圖譜)成為核心模塊

長(zhǎng)期任務(wù)本質(zhì)上都是時(shí)間問(wèn)題:事件順序、覆蓋關(guān)系、指代解析(”明天”)……向量檢索無(wú)法解決因果與時(shí)序,因此所有成熟 Memory 系統(tǒng)都將構(gòu)建自己的時(shí)間線與事件流。

多模態(tài) Agent(視頻/操作/行為)會(huì)進(jìn)一步放大 Temporal Graph 的價(jià)值。

趨勢(shì)四:Memory Guardrail(一致性與安全性檢查)成為標(biāo)配能力

未來(lái)一年,所有可靠的記憶系統(tǒng)都會(huì)引入:錯(cuò)召回過(guò)濾、幻覺(jué)記憶抑制、噪聲過(guò)濾、沖突處理與覆蓋邏輯。

記住 ≠ 記對(duì)。EverMemOS 走得最前,但 Zep、Supermemory 等也已陸續(xù)加入 Guardrail 機(jī)制。

趨勢(shì)五:多模態(tài)記憶將全面爆發(fā)

Mirix 推出的”屏幕 → 行為 → 事件”路線代表未來(lái)方向。Agent 需要記住的不只是文本,而是:看過(guò)的文檔、操作過(guò)的界面、見(jiàn)過(guò)的物體、發(fā)生過(guò)的動(dòng)作。

記憶將從”文本記錄”走向”全息映射”。

趨勢(shì)六:共享記憶成為多 Agent 協(xié)作基礎(chǔ)

未來(lái)團(tuán)隊(duì)級(jí)智能體(Team-Agent OS)需要共享:Memory Graph、任務(wù)鏈、工具上下文、長(zhǎng)期目標(biāo)。

組織將擁有”第二大腦”,多 Agent 將基于共享記憶協(xié)作。

記憶,將成為 AI 的”人格”

如果說(shuō)模型(LLM)代表推理,工具代表行動(dòng),那么記憶就代表:身份、歷史、偏好、價(jià)值觀、用戶理解、時(shí)間意識(shí)、行為模式、世界鏡像。

沒(méi)有記憶的 AI,只能像失憶癥患者一樣依賴上下文。未來(lái)的智能體將通過(guò) Memory:建立穩(wěn)定人格、完成跨周任務(wù)、形成長(zhǎng)期規(guī)劃、保持行為一致性、與用戶建立長(zhǎng)期關(guān)系。

記憶,將成為 AGI 時(shí)代最重要的基礎(chǔ)設(shè)施。

結(jié)語(yǔ)

記憶,AI 進(jìn)化的”最后一塊拼圖”。

站在 2025 年的當(dāng)下回望,從 Mem0 最初的”向量插件”嘗試,到如今 EverMemOS 等”類(lèi)腦操作系統(tǒng)”的涌現(xiàn),我們清晰地見(jiàn)證了一場(chǎng)范式革命:AI 記憶系統(tǒng)正在完成從”外掛工具”到”原生核心”的蛻變。

在本次橫評(píng)中,最令我們深思的數(shù)據(jù)并非某個(gè)單一的高分,而是 EverMemOS 在 LoCoMo 評(píng)測(cè)中對(duì) Full-context(全量上下文)基準(zhǔn)的超越。這一結(jié)果極具啟示意義——它打破了”上下文越長(zhǎng)越好”的迷思,證明了在長(zhǎng)周期的交互中,”精準(zhǔn)的遺忘”與”精準(zhǔn)的記憶”同等重要。優(yōu)秀的記憶系統(tǒng)不再僅僅是數(shù)據(jù)的倉(cāng)庫(kù),更是大模型注意力的”過(guò)濾器”和”聚焦鏡”。

正如我們?cè)谮厔?shì)預(yù)測(cè)中所言,記憶將與”模型參數(shù)”、”工具系統(tǒng)”并列,成為 AI 的第三大核心組件。未來(lái)的智能體,必將不再是閱后即焚的聊天窗口,而是擁有連貫人格、能夠理解世界并與人類(lèi)建立長(zhǎng)期紐帶的”第二大腦”。

這場(chǎng)關(guān)于記憶的競(jìng)賽才剛剛開(kāi)始。無(wú)論是 Zep 的工程化穩(wěn)健,MemOS 的前沿探索,還是 EverMemOS 的架構(gòu)創(chuàng)新,所有深耕于此的團(tuán)隊(duì)都值得我們保持長(zhǎng)期的關(guān)注與敬意。這些探索,正在重新定義人與 AI 的關(guān)系。?

本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號(hào):【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!