產業脈動 2026 年 6 月 28 日

2026-06-28 — 微軟代理人化開發策略、Aura Frames Rails 多主庫擴展、Dropbox DSPy 評測優化

primary=https://developer.microsoft.com/blog/learn-from-microsoft-transform-software-development-through-an-agentic-platform primary=https://andyatkinson.com/how-aura-frames-scales-for-peak-load-ruby-on-rails primary=https://andyatkinson.com/postgresql-rds-scaling-aws-christmas-day-peak primary=https://dropbox.tech/machine-learning/how-we-turned-ai-evaluations-into-better-responses-in-dash-chat

微軟如何以 AI 代理人重構軟體開發生命週期

Microsoft Developer Blog · 2026-06-25

背景

微軟在 2026 年 6 月 25 日發布工程策略報告,公開其內部「Customer Zero」計畫的執行細節。整個轉型核心是從「軟體工廠」轉向「AI 與代理人工廠」,以代理人工作流程重新定義規劃、開發、安全、維運到現代化的五大環節。超過 90% 的微軟開發人員已在日常工作中使用 GitHub Copilot。

核心改動

微軟將工程工作分為四個前沿目標:以代理人工作流程重新架構軟體生命週期、讓開發人員與代理人並肩協作、將安全與合規內建到工程平台,以及建立高生產力的開發者體驗。關鍵策略是把「模糊需求」轉化為「明確意圖」,以規格(specification)作為單一事實來源,再由代理人負責產生程式碼、PR、安全修補與框架升級。

在 PR 層面,90% 的 PR 已由 AI 代碼審查覆蓋,完成速度提升逾 10%。針對 SDK 遷移任務,專用代理人在數百個儲存庫中達到 80–90% 的自動化準確率,減少了 55% 的人工開發負擔。

規格細節

報告揭露三個落地案例:Azure SRE Agent 自動化處理維運事件調查與補救流程,累計節省超過 50,000 開發人員小時;1ES Security 以代理人進行大規模安全合規掃描;Azure Networking Operations 以 AI 代理人替代部分人工網路事件處理流程。三個案例均強調代理人承接的是重複性、低差異化工作,而非取代工程決策。

影響範圍

調查顯示 62% 的開發人員回報工作滿意度提升,88% 表示任務吞吐量增加。這份報告被微軟定位為可供外部組織參考的工程轉型藍圖,明確點出「從 undifferentiated code 到 unambiguous intent」是代理人化工程的核心路徑,而非單純導入 AI 工具。

原始來源:Microsoft Developer Blog


Aura Frames 如何以 8 個 PostgreSQL 主庫撐過每小時 4100 萬請求的聖誕尖峰

andyatkinson.com · 2026-06-26

原本的問題

2024 年聖誕節,Aura Frames API 因 RDS PostgreSQL 14.1 的複製槽(replication slot)設計導致 WAL 日誌無限累積、Dedicated Log Volume 爆滿,造成長達三小時的斷線。單一主庫規格已達 db.r7i.48xlarge(192 vCPU、1.5 TB RAM),垂直擴展已觸及 AWS RDS 天花板,無法再透過升級機型解決問題。

採用的方法

工程團隊選擇「整表水平切分」(whole-table sharding):將寫入量最高的 10 張資料表分散到 7 個新主庫,合計 8 個 PostgreSQL 主庫,各庫保持相同 schema,並透過實體複製(physical replication)完成資料遷移,資料庫版本同步升級至 PostgreSQL 17.6

Rails 層面的核心改動是啟用 disable_joins: true(Rails 7.0 新增),將跨庫 JOIN 自動拆解為多次 SELECT。所有跨庫 scope 合併與 has_and_belongs_to_many 關聯都必須重構has_many :through 才能支援此模式。讀取優化採用 keyset pagination 取代 LIMIT/OFFSET,寫入優化透過 upsert_all():on_duplicate 參數執行批次 upsert。

快取層以 Memcached 加 HAProxy 處理每用戶計數器與環境變數;本地開發以單一 Docker PostgreSQL 容器模擬 8 個獨立 schema,確保跨庫邊界檢查在開發階段即可執行,避免問題推遲至生產環境才被發現。

實際效果

2025 年聖誕節尖峰期間達到每小時 4,100 萬 HTTP 請求(約 11,400 req/s),全庫峰值達 226,000 TPS,平均查詢時間 25 微秒,持續維持 10 萬 TPS 以上超過 10 小時,Aura Frames 同期登上美國與加拿大 App Store 排行榜第一名。

原始來源:andyatkinson.com(Part 2)PostgreSQL Scaling Retrospective(Part 1)


Dropbox 如何以 DSPy 讓 AI 評測訊號直接驅動 Dash Chat 回答品質

Dropbox Engineering · 2026-06-25

原本的問題

Dropbox Dash chat agent 的回答品質依賴人工評測,規模有限且難以系統化。LLM 評測者(judge)與人類評分之間的偏差問題無法解決,評測訊號便無法有效回饋給 agent 做自動化改善,手動調整提示(prompt)既耗時又難以跨模型遷移。

採用的方法

工程師以五個維度評估 agent 回答:使用者意圖對齊、語意相關性、工具使用、指令遵循、上下文選取,人工評測者以 1–5 分打分並記錄失敗原因代碼。接著使用 DSPy 框架的 GEPA 與 MIPROv2 優化算法進行兩階段自動化:第一階段以人工標注樣本校準 LLM judge,使評分分布對齊人類判斷;第二階段將校準後的 judge 評分作為訊號,自動優化 chat agent 的系統提示。

GEPA 針對每個模型分歧樣本生成結構化回饋,包含分差大小、方向與推理依據,再透過迭代精煉提示。整個流程形成閉環:人工標注改善 judge,judge 提供可擴展的評測訊號,評測訊號再改善 agent。切換底層模型時只需重新跑優化流程,無需人工重寫提示。

實際效果

部署後,不完整回答減少 26%,遺漏關鍵資訊的比例下降 13%,token 用量降低 5.4%,平均回答長度縮短 9.8%,整體品質未因精簡而下滑。此方法的核心優勢在於:評測者校準與 agent 提示優化均以相同的 DSPy 框架實作,系統化的優化循環取代了憑直覺手動調整提示的工作模式

原始來源:Dropbox Engineering Blog


End of article
0
Would love your thoughts, please comment.x
()
x