2026-05-19 — Spotify LLM eval 漏斗法、Redis Iris AI Agent 上下文引擎

Spotify LLM 評估漏斗法：eval 作為 A/B 測試的上游篩選層，而非替代品

Spotify Engineering · 2026-05-18

Spotify 工程團隊發表文章，說明他們在 LLM 功能開發中採用的評估方法論——「漏斗（funnel）」而非「叉路（fork）」。核心主張是：LLM eval 應位於 A/B 測試的上游，扮演篩選淘汰劣質候選的角色，而非取代傳統的線上實驗。

原本的問題

LLM 功能的評估面臨雙重困難：傳統 A/B 測試昂貴且週期長，但光靠 eval 無法捕捉使用者的真實行為反應。早期 Spotify 的做法是直接用 A/B 測試所有 LLM 變體，導致實驗頻寬被不成熟的候選方案消耗，降低整體命中率。

採用的方法

漏斗架構將評估分為三個階段：

Verification（驗證）：LLM judge 評估輸出是否符合相關性、連貫性、語氣等品質標準，淘汰明顯不合格的候選
Validation（確認）：A/B 實驗衡量通過 eval 的候選在真實使用者行為上的效果
Calibration（校準）：線上實驗結果回饋改善未來的 eval 設計

如文中所述：「Evals discard the non-promising candidates before they consume experiment bandwidth. They raise the hit rate of the experiments that follow.」Spotify 使用自家的 Confidence 實驗平台執行 A/B 測試部分，並監控守護指標（crash rate、留存率）補充 LLM judge 無法捕捉的長期效果。

核心限制

文章坦承 eval 的根本侷限：「without offline-online signal calibration, our evals are opinions, not evidence.」 在長時間運行的任務或需要衡量長期使用者行為改變的場景，eval 無法提供足夠的信號，實驗仍是不可或缺的工具。漏斗方法的價值在於「正確分工」，而非「以 eval 取代實驗」。

影響範圍

Spotify 的漏斗方法為在大規模 LLM 功能開發中兼顧評估速度與實驗嚴謹性提供了一個可參考的架構。適用條件是：既有成熟的 A/B 實驗基礎設施，且 LLM 輸出品質有可定義的維度可供自動評估。

原始來源：Spotify Engineering Blog

Redis Iris：為 AI Agent 設計的即時上下文引擎，五層元件架構

Redis · 2026-05-18

Redis 於 2026 年 5 月 18 日宣布 Redis Iris，定位為 AI agent 的上下文與記憶體解決方案。核心主張是：agent 失敗的根因通常不是推理能力不足，而是上下文層的問題——資料分散、過時、存取緩慢，或整合困難。

核心改動

Redis Iris 的五個元件構成一個完整的 agent 上下文堆疊：

Context Retriever（預覽版）：定義企業資料的語義模型（實體、欄位、關係、存取規則），並自動生成 agent 可用的 MCP 工具。以範圍金鑰（scoped key）處理驗證，並在伺服器端執行列級過濾（row-level filtering）
Agent Memory（預覽版）：儲存短期對話狀態與長期持久記憶，跨輪次與跨工作階段維護狀態
Redis Data Integration（RDI）：從關聯式資料庫、資料倉儲、文件存儲持續同步資料，建立持續更新的操作資料平面
LangCache：語義快取層，透過向量相似度判斷是否可重用先前的回應，聲稱可降低 token 成本最多 90%
Redis Search：向量、結構化、非結構化與即時資料的統一快速查詢

架構設計

Context Retriever 的 MCP 整合是最具技術新意的部分：它將語義資料模型的定義轉換為 MCP 工具，讓 agent 可以用自然語言查詢複雜的企業資料關係（如「帳戶 → 商機 → 支援互動 → 客戶狀態」），而不需要為每個資料來源撰寫客製化整合程式碼。整個架構建立在 Redis 基礎設施上，支援多雲與 BYOC 部署。

影響範圍

Redis Iris 填補了 LLM 推理能力（由模型提供商處理）與實際企業資料整合之間的空缺。Context Retriever 和 Agent Memory 目前仍處於預覽狀態，整體架構的可靠性和規模化表現尚待生產環境驗證。對於已在使用 Redis 的組織，這個堆疊的整合成本較低；對於從頭建立 agent 基礎設施的團隊，它提供了一個有結構的起點。

原始來源：Redis Blog

End of article

Spotify LLM 評估漏斗法：eval 作為 A/B 測試的上游篩選層，而非替代品

原本的問題

採用的方法

核心限制

影響範圍

Redis Iris：為 AI Agent 設計的即時上下文引擎，五層元件架構

核心改動

架構設計

影響範圍

More on this topic