2026-06-28 — 微軟代理人化開發策略、Aura Frames Rails 多主庫擴展、Dropbox DSPy 評測優化

微軟如何以 AI 代理人重構軟體開發生命週期

Microsoft Developer Blog · 2026-06-25

背景

微軟在 2026 年 6 月 25 日發布工程策略報告，公開其內部「Customer Zero」計畫的執行細節。整個轉型核心是從「軟體工廠」轉向「AI 與代理人工廠」，以代理人工作流程重新定義規劃、開發、安全、維運到現代化的五大環節。超過 90% 的微軟開發人員已在日常工作中使用 GitHub Copilot。

核心改動

微軟將工程工作分為四個前沿目標：以代理人工作流程重新架構軟體生命週期、讓開發人員與代理人並肩協作、將安全與合規內建到工程平台，以及建立高生產力的開發者體驗。關鍵策略是把「模糊需求」轉化為「明確意圖」，以規格（specification）作為單一事實來源，再由代理人負責產生程式碼、PR、安全修補與框架升級。

在 PR 層面，90% 的 PR 已由 AI 代碼審查覆蓋，完成速度提升逾 10%。針對 SDK 遷移任務，專用代理人在數百個儲存庫中達到 80–90% 的自動化準確率，減少了 55% 的人工開發負擔。

規格細節

報告揭露三個落地案例：Azure SRE Agent 自動化處理維運事件調查與補救流程，累計節省超過 50,000 開發人員小時；1ES Security 以代理人進行大規模安全合規掃描；Azure Networking Operations 以 AI 代理人替代部分人工網路事件處理流程。三個案例均強調代理人承接的是重複性、低差異化工作，而非取代工程決策。

影響範圍

調查顯示 62% 的開發人員回報工作滿意度提升，88% 表示任務吞吐量增加。這份報告被微軟定位為可供外部組織參考的工程轉型藍圖，明確點出「從 undifferentiated code 到 unambiguous intent」是代理人化工程的核心路徑，而非單純導入 AI 工具。

原始來源：Microsoft Developer Blog

Aura Frames 如何以 8 個 PostgreSQL 主庫撐過每小時 4100 萬請求的聖誕尖峰

andyatkinson.com · 2026-06-26

原本的問題

2024 年聖誕節，Aura Frames API 因 RDS PostgreSQL 14.1 的複製槽（replication slot）設計導致 WAL 日誌無限累積、Dedicated Log Volume 爆滿，造成長達三小時的斷線。單一主庫規格已達 db.r7i.48xlarge（192 vCPU、1.5 TB RAM），垂直擴展已觸及 AWS RDS 天花板，無法再透過升級機型解決問題。

採用的方法

工程團隊選擇「整表水平切分」（whole-table sharding）：將寫入量最高的 10 張資料表分散到 7 個新主庫，合計 8 個 PostgreSQL 主庫，各庫保持相同 schema，並透過實體複製（physical replication）完成資料遷移，資料庫版本同步升級至 PostgreSQL 17.6。

Rails 層面的核心改動是啟用 disable_joins: true（Rails 7.0 新增），將跨庫 JOIN 自動拆解為多次 SELECT。所有跨庫 scope 合併與 has_and_belongs_to_many 關聯都必須重構為 has_many :through 才能支援此模式。讀取優化採用 keyset pagination 取代 LIMIT/OFFSET，寫入優化透過 upsert_all() 的 :on_duplicate 參數執行批次 upsert。

快取層以 Memcached 加 HAProxy 處理每用戶計數器與環境變數；本地開發以單一 Docker PostgreSQL 容器模擬 8 個獨立 schema，確保跨庫邊界檢查在開發階段即可執行，避免問題推遲至生產環境才被發現。

實際效果

2025 年聖誕節尖峰期間達到每小時 4,100 萬 HTTP 請求（約 11,400 req/s），全庫峰值達 226,000 TPS，平均查詢時間 25 微秒，持續維持 10 萬 TPS 以上超過 10 小時，Aura Frames 同期登上美國與加拿大 App Store 排行榜第一名。

原始來源：andyatkinson.com（Part 2）、PostgreSQL Scaling Retrospective（Part 1）

Dropbox 如何以 DSPy 讓 AI 評測訊號直接驅動 Dash Chat 回答品質

Dropbox Engineering · 2026-06-25

原本的問題

Dropbox Dash chat agent 的回答品質依賴人工評測，規模有限且難以系統化。LLM 評測者（judge）與人類評分之間的偏差問題無法解決，評測訊號便無法有效回饋給 agent 做自動化改善，手動調整提示（prompt）既耗時又難以跨模型遷移。

採用的方法

工程師以五個維度評估 agent 回答：使用者意圖對齊、語意相關性、工具使用、指令遵循、上下文選取，人工評測者以 1–5 分打分並記錄失敗原因代碼。接著使用 DSPy 框架的 GEPA 與 MIPROv2 優化算法進行兩階段自動化：第一階段以人工標注樣本校準 LLM judge，使評分分布對齊人類判斷；第二階段將校準後的 judge 評分作為訊號，自動優化 chat agent 的系統提示。

GEPA 針對每個模型分歧樣本生成結構化回饋，包含分差大小、方向與推理依據，再透過迭代精煉提示。整個流程形成閉環：人工標注改善 judge，judge 提供可擴展的評測訊號，評測訊號再改善 agent。切換底層模型時只需重新跑優化流程，無需人工重寫提示。

實際效果

部署後，不完整回答減少 26%，遺漏關鍵資訊的比例下降 13%，token 用量降低 5.4%，平均回答長度縮短 9.8%，整體品質未因精簡而下滑。此方法的核心優勢在於：評測者校準與 agent 提示優化均以相同的 DSPy 框架實作，系統化的優化循環取代了憑直覺手動調整提示的工作模式。

原始來源：Dropbox Engineering Blog

End of article

微軟如何以 AI 代理人重構軟體開發生命週期

背景

核心改動

規格細節

影響範圍

Aura Frames 如何以 8 個 PostgreSQL 主庫撐過每小時 4100 萬請求的聖誕尖峰

原本的問題

採用的方法

實際效果

Dropbox 如何以 DSPy 讓 AI 評測訊號直接驅動 Dash Chat 回答品質

原本的問題

採用的方法

實際效果

More on this topic