產業脈動 2026 年 6 月 11 日

2026-06-11 — 微軟提出 Agent Extension 量測框架與規格驅動開發方法論

primary=https://devblogs.microsoft.com/blog/is-your-agent-extension-actually-working primary=https://devblogs.microsoft.com/blog/spec-driven-development-ai-native-engineering

你的 Agent 擴充功能真的有效嗎?

Microsoft Developer Blog · 2026-06-10

微軟首席開發倡導者 Waldek Mastykarz 於 2026 年 6 月 10 日發表此文,作為「Agent Experience(AX)」系列的第三篇。文章的核心問題是:工具被呼叫不等於品質提升——Extension 可能消耗大量 context window,卻未帶來任何可量測的改善,甚至讓輸出品質退步。

原本的問題

多數開發者以「工具是否出現在 Agent 的可用清單中」作為成功指標,卻忽略了更關鍵的問題:Agent 是否在正確情境下選用工具?輸出品質是否真的提升?額外的 token 消耗是否值得?僅測量工具呼叫次數,而不追蹤品質與成本,會讓工程師在沒有有效反饋的情況下持續疊代。

採用的方法

文章提出一套受控比較框架:在完全相同的任務上,分別以「有 Extension」與「無 Extension」兩種設定執行,並沿四個維度量測結果。

  • Discovery(可發現性):工具是否出現在 Agent 的可用工具集合中
  • Selection(選用率):Agent 是否在相關任務中優先選用此 Extension
  • Quality(輸出品質):最終輸出是否有可量測的改善
  • Composition(工具組合):Extension 與其他工具的互動是否如預期

評估策略分為兩類:確定性檢查(AST 語法樹解析、程式碼編譯)精確但維護成本高;LLM-as-judge 評估迭代速度快,但需要對準確性與一致性進行校準。文章建議每個情境至少執行 5 到 10 次,而非單次運行,以避免隨機性干擾結果。

實際效果

Mastykarz 強調,token 用量(prompt + completion 的總消耗)是不可或缺的成本基準線。如果一個 Extension 讓 token 預算增加三倍,卻只帶來輕微的品質提升,其投入產出比可能根本不合算。文章也點出幾個常見陷阱:在空工作區而非真實專案中測試、跳過建置驗證步驟,以及以「工具有無出現」代替「工具被正確使用」作為衡量標準。

原始來源:Microsoft Developer Blog — Is your agent extension actually working?


規格驅動開發:AI 原生工程的規格先行方法

Microsoft Developer Blog · 2026-06-10

微軟首席軟體工程師 Apoorv Gupta 於 2026 年 6 月 10 日發表這篇方法論文章,提出「規格驅動開發(Spec-Driven Development,SDD)」框架。SDD 的核心主張是:規格文件應成為貫穿整個軟體生命週期的結締組織,從業務意圖一路連結到架構設計、實作,再到驗證。

原本的問題

在以 AI 為主力的開發流程中,「以 Prompt 為先」的工作方式容易造成四個關鍵轉譯斷點:利害關係人需求→需求文件、需求→架構設計、設計→實作、實作→驗證。每一個斷點都可能引入語意落差,最終導致架構漂移(architectural drift)、程式碼漂移(code drift)與實作不一致的問題。缺乏持久性規格,讓 AI 每次生成的程式碼缺乏共同的基準語境。

採用的方法

Gupta 提出基於 GitHub Spec Kit 的七階段工程生命週期,讓規格文件在各階段之間流動而非重新撰寫。

  • Constitution(原則層):確立全域設計原則與護欄
  • Specify(需求層):將業務需求拆解為可測試的情境
  • Clarify(釐清層):解消歧義,對齊利害關係人理解
  • Plan(規劃層):制定架構決策與技術約束
  • Tasks(任務層):將規格分解為可交付的實作單元
  • Implement(實作層):以 AI 協助產生符合規格的程式碼
  • Validate(驗證層):對照原始規格進行驗收

參數化規格是此框架的關鍵設計——規格本身可以接受不同的輸入參數,讓相同的框架結構適用於不同的資產類型或服務,而不必從頭撰寫新的規格文件。

實際效果

文章列舉三個具體案例。在一個棕地(brownfield)專案中,導入參數化規格後,新資產類型的上線時間從 2 至 3 週縮短至數天。另一個綠地(greenfield)分散式平台則借助 SDD 協調橫跨出席者管理、設施、安全、供應商、物流與法規遵循等「數千個移動部件」。第三個案例是將 React/TypeScript 原型遷移至正式產品,其中包含多個負責不同職責的 Agent(DRI、Provisioning、Policy),以及健康監控與管理後台儀表板,整個過程都以規格文件作為協調基礎。

原始來源:Microsoft Developer Blog — Spec-Driven Development: A Spec-First Approach to AI-Native Engineering


End of article
0
Would love your thoughts, please comment.x
()
x