AI 前沿 2026 年 6 月 13 日

2026-06-13 — Anthropic 公眾調查揭民意鴻溝、MiniMax 稀疏注意力百萬 Token 加速 14 倍、AllenAI olmo-eval 評測工作台開源

primary=https://www.anthropic.com/news/anthropic-public-record primary=https://arxiv.org/abs/2606.13392 primary=https://github.com/MiniMax-AI/MSA primary=https://huggingface.co/blog/allenai/olmo-eval primary=https://github.com/allenai/olmo-eval

Anthropic 首份公眾記錄調查:64% 美國人擔憂 AI 奪走工作,僅 15% 信任 AI 企業自律

Anthropic · 2026-06-12

2026 年 6 月 12 日,Anthropic 發布了其「公眾記錄」(Public Record)倡議的首份調查結果。這份報告基於 2025 年 11 至 12 月間對 51,993 名美國人進行的全國代表性抽樣調查,由 YouGov 執行並依照美國人口普查基準進行加權,旨在系統性追蹤社會大眾對 AI 發展的態度,而非依賴企業自身敘事。各州樣本數介於 232(阿拉斯加)至 1,902(紐約)之間,州級誤差範圍為 ±2.6 至 ±9.1 個百分點。

背景

Anthropic 將這項倡議定位為一種主動透明機制:定期公開社會對 AI 的真實感知,讓政策制定者、研究者與公眾都能基於相同資料進行討論。第一波調查聚焦於希望、恐懼、治理偏好與使用行為四個維度,覆蓋全美 50 個州,提供了迄今為止最大規模的美國 AI 民意快照。此一做法也直接回應了外界長期以來對科技公司「自說自話」的批評。

核心數據

在希望面向,48% 的受訪者將「治癒疾病」列為對 AI 最高的三項期望之一,36% 選擇「幫助身心障礙者」,23% 各自選擇「科技進步」與「改善日常生活」。這些數字顯示,美國公眾對 AI 的正面想像高度集中於醫療與社會公益,而非生產力提升或娛樂應用。

在恐懼面向,數字格外集中:

  • 64% 擔心 AI 導致就業流失
  • 56% 擔心對 AI 產生認知依賴
  • 52% 擔心 AI 加劇錯誤資訊傳播

就業恐懼以絕對多數居首,跨越政黨、年齡與地區分布,是目前美國民眾對 AI 最主流的焦慮來源。

治理偏好與信任赤字

在治理意見上,71% 的受訪者支持政府介入 AI 監管,且具有罕見的跨黨共識:民主黨人支持率達 79%,共和黨人亦有 68%。在監管優先事項方面,56% 強調隱私保護,52% 關注兒童安全,49% 聚焦於損害責任。這些數字暗示,雖然兩黨在許多議題上分歧深重,AI 監管卻是少數能形成廣泛共識的政策領域。

信任面向的結果格外值得關注:僅有 15% 的受訪者信任 AI 企業自行決定發展方向,47% 支持對企業施以法律責任,44% 主張安全應優先於成長速度。這意味著即便在 AI 普及率快速提升的環境中,企業公信力依然極度稀缺。

影響範圍

調查同時揭示了使用行為的分化:約 6% 的美國人是「深度整合用戶」,每天在工作與個人生活中使用 AI 工具。每日 AI 用戶對「認知依賴」的擔憂程度比非用戶低了 16 個百分點,顯示實際使用經驗可能緩解部分焦慮。Anthropic 表示,「公眾記錄」計畫將定期更新,以追蹤民意隨 AI 技術演進的動態變化,逐步建立可供縱向比較的時間序列資料集。

原始來源:Anthropic — Results from the first Anthropic Public Record


MiniMax 稀疏注意力機制 MSA:百萬 Token 長上下文推論實現 14 倍加速

arXiv · 2606.13392 · 2026-06

MiniMax 研究團隊在論文 arXiv:2606.13392 中提出 MSA(MiniMax Sparse Attention),一種基於 Grouped Query Attention(GQA)的區塊稀疏注意力機制,專為超長上下文推論設計。在 109B 參數規模的模型上,MSA 在 1M token 上下文長度下將每 token 注意力計算量削減 28.4 倍,並在 H800 GPU 上實現 14.2 倍預填充(prefill)與 7.6 倍解碼(decoding)的實際牆鐘加速。作者同步釋出了推論核心程式碼,以及以 MSA 為核心驅動的生產級多模態模型 MiniMax-M3。

背景

Transformer 的 softmax 注意力計算複雜度與序列長度呈平方關係(O(n²)),當上下文達到數十萬乃至百萬 token 時,計算成本在部署規模下變得難以承受。現有的稀疏注意力方案多依賴啟發式規則(如滑動視窗、固定步長採樣),難以自適應地捕捉每個注意力群組真正需要的遠端依賴。MSA 的設計動機是:在保持與 GQA 相當的模型品質前提下,讓稀疏選擇本身成為可學習的過程,而非硬編碼的近似。

方法

MSA 架構由兩條並行分支組成。Index Branch(索引分支)是一個輕量級評分模組,對鍵值(KV)區塊進行評分,並為每個 GQA 群組獨立選出 Top-k 個最重要的 KV 區塊;這種群組級別的稀疏選擇使不同注意力頭能關注不同的遠端位置,而非強制共享同一組稀疏索引。Main Branch(主分支)則僅對被選中的區塊執行精確的區塊稀疏注意力計算,完全跳過其餘位置。

為在 GPU 上實現這一稀疏計算的實際加速,作者設計了專用 CUDA 核心,採用兩項關鍵優化:

  • 無指數函數 Top-k 選擇(exp-free Top-k selection):避免 softmax 歸一化帶來的額外開銷,加速區塊排序流程
  • KV-outer 稀疏注意力:重組查詢與稀疏鍵值對的外積計算順序,提升張量核心(Tensor Core)利用率

推論核心已開源於 https://github.com/MiniMax-AI/MSA,可直接整合至現有 GQA 推論框架。

實驗設計

評估在 109B 參數模型上進行,測試上下文長度從 128K 延伸至 1M token。基準測試採用 RULER(長上下文理解綜合評估套件)與 NIAH(Needle-in-a-Haystack,長文精確檢索)兩套標準,分別測量超長上下文下的語言理解能力與召回準確率。計算效率量測在 H800 GPU 上進行牆鐘時間(wall-clock time)計時,分別記錄預填充與自回歸解碼階段的加速倍數。論文共 30 頁、14 個圖,包含消融實驗(ablation study),拆解了 Index Branch 評分精度、Top-k 區塊數量以及 KV-outer 核心設計對最終加速比的各自貢獻。

主要結果

在 1M token 上下文下,MSA 相較完整注意力基線實現 28.4 倍每 token 計算量削減,同時在 RULER 與 NIAH 評測上與 GQA 基線品質持平,未出現顯著精度損失。

指標完整 GQA 注意力MSA(本文)
1M token 每 token 計算量基準(1×)28.4× 削減
預填充牆鐘時間(H800)基準(1×)14.2× 加速
解碼牆鐘時間(H800)基準(1×)7.6× 加速
RULER / NIAH 品質基準持平(無顯著差距)

預填充加速顯著高於解碼,符合稀疏注意力在長序列初始化階段節省更多計算的理論預期。作者同步發布了以 MSA 為核心驅動的生產級多模態模型 MiniMax-M3,驗證了 MSA 不僅限於學術實驗,具備真實部署可行性,是首批在生產環境中以稀疏注意力原生支援百萬 token 長上下文的多模態模型之一。

原始來源:arXiv:2606.13392 — MiniMax Sparse Attention · GitHub: MiniMax-AI/MSA


AllenAI 推出 olmo-eval:為模型訓練迭代週期量身設計的評測工作台

Hugging Face Blog · AllenAI · 2026-06-12

2026 年 6 月 12 日,Allen Institute for AI(AllenAI)在 Hugging Face 部落格發布了 olmo-eval 評測框架,並開源於 https://github.com/allenai/olmo-eval。這個工具以 OLMES(Open Language Model Evaluation Standard)為基礎,專為貫穿整個模型訓練週期的反覆評測設計,而非一次性的發布前評估。目標是讓研究者在開發過程中就能快速比較各個訓練檢查點,並在問題粒度上追蹤真實進步。

背景

現有 LLM 評測框架(如 lm-evaluation-harness)在設計上傾向服務「發布就緒」(publication-ready)場景,強調可重現性與容器化隔離,代價是啟動與配置開銷較高。在模型訓練的迭代階段,研究者每隔數小時或數個訓練步驟就需要跑一輪評測,此時框架的易用性、執行速度與結果粒度比嚴格的環境隔離更為關鍵。olmo-eval 的設計哲學是「讓你在開發時能快速移動」:輕量評測直接在本地執行,只有需要沙箱隔離的基準測試才啟動容器環境,避免不必要的開銷。

核心改動

olmo-eval 的架構由四個核心抽象層組成。Task / Suite / Harness 三層分離設計讓基準測試邏輯與執行策略徹底解耦:Task 定義資料集與指標,Suite 組合多個 Task,Harness 決定實際執行政策(本地直跑或容器隔離)。同一份 Task 定義可以在不同 Harness 下執行,無需修改任何基準測試代碼。

Task 的定義極為簡潔,以下是文檔中的範例:

@register("internal_freshqa")
class InternalFreshQA(Task):
    data_source = DataSource(path="s3://evals/internal/freshqa.jsonl")
    formatter = ChatFormatter()
    sampling_params = SamplingParams(temperature=0.0)
    metrics = (AccuracyMetric(scorer=ExactMatchScorer),)

若要新增少樣本(few-shot)變體,只需一行呼叫即可,無需重複定義整個 Task:

register_variant("internal_freshqa", "3shot", num_fewshot=3)

Sandbox 與 Capability Routing 模組引入非同步沙箱規劃器,支援工具使用(tool-use)場景下的評測:模型的回應可能觸發程式碼執行或網頁瀏覽等動作,沙箱模組負責協調這些非同步交互,使評測結果能反映模型在真實任務環境中的行為,而非僅在靜態問答情境下的表現。

規格細節

框架的第三個核心是標準化實驗 Schema:每次評測運行的配置(模型路徑、超參數、基準測試版本)與結果都以統一格式記錄,防止長期開發週期中出現「這次跑的配置和上次不一樣」的比較失效問題。這個 Schema 同時作為 Results Viewer 的資料來源。

Results Viewer 的統計量設計值得特別關注:除了顯示匯總分數外,它還提供標準誤差(standard error)與最小可偵測效應量(minimum detectable effect size),支援任意兩個模型或訓練檢查點的逐問題(question-by-question)並排比較,讓研究者能判斷兩個檢查點之間的分數差異是否具有統計顯著性,而非僅憑直覺判斷「這次好像有進步」。

影響範圍

olmo-eval 在設計上與 AllenAI 自家 OLMo 系列模型的開發流程深度整合,但框架本身並不綁定特定模型或訓練框架,任何遵循標準 Hugging Face 模型介面的 LLM 均可接入。相較於現有工具(如 Harbor),olmo-eval 在保留輕量執行路徑的同時,提供了更細粒度的統計分析能力,對需要頻繁在訓練步驟間插入評測、或對比多個實驗分支的研究團隊尤為適合。框架以 Apache 2.0 授權開源,OLMES 標準規格亦同步公開,支援社群貢獻新的 Task 定義。

原始來源:Hugging Face Blog — olmo-eval · GitHub: allenai/olmo-eval


End of article
0
Would love your thoughts, please comment.x
()
x