2026-06-13 — Anthropic 公眾調查揭民意鴻溝、MiniMax 稀疏注意力百萬 Token 加速 14 倍、AllenAI olmo-eval 評測工作台開源

Anthropic 首份公眾記錄調查：64% 美國人擔憂 AI 奪走工作，僅 15% 信任 AI 企業自律

Anthropic · 2026-06-12

2026 年 6 月 12 日，Anthropic 發布了其「公眾記錄」（Public Record）倡議的首份調查結果。這份報告基於 2025 年 11 至 12 月間對 51,993 名美國人進行的全國代表性抽樣調查，由 YouGov 執行並依照美國人口普查基準進行加權，旨在系統性追蹤社會大眾對 AI 發展的態度，而非依賴企業自身敘事。各州樣本數介於 232（阿拉斯加）至 1,902（紐約）之間，州級誤差範圍為 ±2.6 至 ±9.1 個百分點。

背景

Anthropic 將這項倡議定位為一種主動透明機制：定期公開社會對 AI 的真實感知，讓政策制定者、研究者與公眾都能基於相同資料進行討論。第一波調查聚焦於希望、恐懼、治理偏好與使用行為四個維度，覆蓋全美 50 個州，提供了迄今為止最大規模的美國 AI 民意快照。此一做法也直接回應了外界長期以來對科技公司「自說自話」的批評。

核心數據

在希望面向，48% 的受訪者將「治癒疾病」列為對 AI 最高的三項期望之一，36% 選擇「幫助身心障礙者」，23% 各自選擇「科技進步」與「改善日常生活」。這些數字顯示，美國公眾對 AI 的正面想像高度集中於醫療與社會公益，而非生產力提升或娛樂應用。

在恐懼面向，數字格外集中：

64% 擔心 AI 導致就業流失
56% 擔心對 AI 產生認知依賴
52% 擔心 AI 加劇錯誤資訊傳播

就業恐懼以絕對多數居首，跨越政黨、年齡與地區分布，是目前美國民眾對 AI 最主流的焦慮來源。

治理偏好與信任赤字

在治理意見上，71% 的受訪者支持政府介入 AI 監管，且具有罕見的跨黨共識：民主黨人支持率達 79%，共和黨人亦有 68%。在監管優先事項方面，56% 強調隱私保護，52% 關注兒童安全，49% 聚焦於損害責任。這些數字暗示，雖然兩黨在許多議題上分歧深重，AI 監管卻是少數能形成廣泛共識的政策領域。

信任面向的結果格外值得關注：僅有 15% 的受訪者信任 AI 企業自行決定發展方向，47% 支持對企業施以法律責任，44% 主張安全應優先於成長速度。這意味著即便在 AI 普及率快速提升的環境中，企業公信力依然極度稀缺。

影響範圍

調查同時揭示了使用行為的分化：約 6% 的美國人是「深度整合用戶」，每天在工作與個人生活中使用 AI 工具。每日 AI 用戶對「認知依賴」的擔憂程度比非用戶低了 16 個百分點，顯示實際使用經驗可能緩解部分焦慮。Anthropic 表示，「公眾記錄」計畫將定期更新，以追蹤民意隨 AI 技術演進的動態變化，逐步建立可供縱向比較的時間序列資料集。

原始來源：Anthropic — Results from the first Anthropic Public Record

MiniMax 稀疏注意力機制 MSA：百萬 Token 長上下文推論實現 14 倍加速

arXiv · 2606.13392 · 2026-06

MiniMax 研究團隊在論文 arXiv:2606.13392 中提出 MSA（MiniMax Sparse Attention），一種基於 Grouped Query Attention（GQA）的區塊稀疏注意力機制，專為超長上下文推論設計。在 109B 參數規模的模型上，MSA 在 1M token 上下文長度下將每 token 注意力計算量削減 28.4 倍，並在 H800 GPU 上實現 14.2 倍預填充（prefill）與 7.6 倍解碼（decoding）的實際牆鐘加速。作者同步釋出了推論核心程式碼，以及以 MSA 為核心驅動的生產級多模態模型 MiniMax-M3。

背景

Transformer 的 softmax 注意力計算複雜度與序列長度呈平方關係（O(n²)），當上下文達到數十萬乃至百萬 token 時，計算成本在部署規模下變得難以承受。現有的稀疏注意力方案多依賴啟發式規則（如滑動視窗、固定步長採樣），難以自適應地捕捉每個注意力群組真正需要的遠端依賴。MSA 的設計動機是：在保持與 GQA 相當的模型品質前提下，讓稀疏選擇本身成為可學習的過程，而非硬編碼的近似。

方法

MSA 架構由兩條並行分支組成。Index Branch（索引分支）是一個輕量級評分模組，對鍵值（KV）區塊進行評分，並為每個 GQA 群組獨立選出 Top-k 個最重要的 KV 區塊；這種群組級別的稀疏選擇使不同注意力頭能關注不同的遠端位置，而非強制共享同一組稀疏索引。Main Branch（主分支）則僅對被選中的區塊執行精確的區塊稀疏注意力計算，完全跳過其餘位置。

為在 GPU 上實現這一稀疏計算的實際加速，作者設計了專用 CUDA 核心，採用兩項關鍵優化：

無指數函數 Top-k 選擇（exp-free Top-k selection）：避免 softmax 歸一化帶來的額外開銷，加速區塊排序流程
KV-outer 稀疏注意力：重組查詢與稀疏鍵值對的外積計算順序，提升張量核心（Tensor Core）利用率

推論核心已開源於 https://github.com/MiniMax-AI/MSA，可直接整合至現有 GQA 推論框架。

實驗設計

評估在 109B 參數模型上進行，測試上下文長度從 128K 延伸至 1M token。基準測試採用 RULER（長上下文理解綜合評估套件）與 NIAH（Needle-in-a-Haystack，長文精確檢索）兩套標準，分別測量超長上下文下的語言理解能力與召回準確率。計算效率量測在 H800 GPU 上進行牆鐘時間（wall-clock time）計時，分別記錄預填充與自回歸解碼階段的加速倍數。論文共 30 頁、14 個圖，包含消融實驗（ablation study），拆解了 Index Branch 評分精度、Top-k 區塊數量以及 KV-outer 核心設計對最終加速比的各自貢獻。

主要結果

在 1M token 上下文下，MSA 相較完整注意力基線實現 28.4 倍每 token 計算量削減，同時在 RULER 與 NIAH 評測上與 GQA 基線品質持平，未出現顯著精度損失。

指標	完整 GQA 注意力	MSA（本文）
1M token 每 token 計算量	基準（1×）	28.4× 削減
預填充牆鐘時間（H800）	基準（1×）	14.2× 加速
解碼牆鐘時間（H800）	基準（1×）	7.6× 加速
RULER / NIAH 品質	基準	持平（無顯著差距）

預填充加速顯著高於解碼，符合稀疏注意力在長序列初始化階段節省更多計算的理論預期。作者同步發布了以 MSA 為核心驅動的生產級多模態模型 MiniMax-M3，驗證了 MSA 不僅限於學術實驗，具備真實部署可行性，是首批在生產環境中以稀疏注意力原生支援百萬 token 長上下文的多模態模型之一。

原始來源：arXiv:2606.13392 — MiniMax Sparse Attention · GitHub: MiniMax-AI/MSA

AllenAI 推出 olmo-eval：為模型訓練迭代週期量身設計的評測工作台

Hugging Face Blog · AllenAI · 2026-06-12

2026 年 6 月 12 日，Allen Institute for AI（AllenAI）在 Hugging Face 部落格發布了 olmo-eval 評測框架，並開源於 https://github.com/allenai/olmo-eval。這個工具以 OLMES（Open Language Model Evaluation Standard）為基礎，專為貫穿整個模型訓練週期的反覆評測設計，而非一次性的發布前評估。目標是讓研究者在開發過程中就能快速比較各個訓練檢查點，並在問題粒度上追蹤真實進步。

背景

現有 LLM 評測框架（如 lm-evaluation-harness）在設計上傾向服務「發布就緒」（publication-ready）場景，強調可重現性與容器化隔離，代價是啟動與配置開銷較高。在模型訓練的迭代階段，研究者每隔數小時或數個訓練步驟就需要跑一輪評測，此時框架的易用性、執行速度與結果粒度比嚴格的環境隔離更為關鍵。olmo-eval 的設計哲學是「讓你在開發時能快速移動」：輕量評測直接在本地執行，只有需要沙箱隔離的基準測試才啟動容器環境，避免不必要的開銷。

核心改動

olmo-eval 的架構由四個核心抽象層組成。Task / Suite / Harness 三層分離設計讓基準測試邏輯與執行策略徹底解耦：Task 定義資料集與指標，Suite 組合多個 Task，Harness 決定實際執行政策（本地直跑或容器隔離）。同一份 Task 定義可以在不同 Harness 下執行，無需修改任何基準測試代碼。

Task 的定義極為簡潔，以下是文檔中的範例：

@register("internal_freshqa")
class InternalFreshQA(Task):
    data_source = DataSource(path="s3://evals/internal/freshqa.jsonl")
    formatter = ChatFormatter()
    sampling_params = SamplingParams(temperature=0.0)
    metrics = (AccuracyMetric(scorer=ExactMatchScorer),)

若要新增少樣本（few-shot）變體，只需一行呼叫即可，無需重複定義整個 Task：

register_variant("internal_freshqa", "3shot", num_fewshot=3)

Sandbox 與 Capability Routing 模組引入非同步沙箱規劃器，支援工具使用（tool-use）場景下的評測：模型的回應可能觸發程式碼執行或網頁瀏覽等動作，沙箱模組負責協調這些非同步交互，使評測結果能反映模型在真實任務環境中的行為，而非僅在靜態問答情境下的表現。

規格細節

框架的第三個核心是標準化實驗 Schema：每次評測運行的配置（模型路徑、超參數、基準測試版本）與結果都以統一格式記錄，防止長期開發週期中出現「這次跑的配置和上次不一樣」的比較失效問題。這個 Schema 同時作為 Results Viewer 的資料來源。

Results Viewer 的統計量設計值得特別關注：除了顯示匯總分數外，它還提供標準誤差（standard error）與最小可偵測效應量（minimum detectable effect size），支援任意兩個模型或訓練檢查點的逐問題（question-by-question）並排比較，讓研究者能判斷兩個檢查點之間的分數差異是否具有統計顯著性，而非僅憑直覺判斷「這次好像有進步」。

影響範圍

olmo-eval 在設計上與 AllenAI 自家 OLMo 系列模型的開發流程深度整合，但框架本身並不綁定特定模型或訓練框架，任何遵循標準 Hugging Face 模型介面的 LLM 均可接入。相較於現有工具（如 Harbor），olmo-eval 在保留輕量執行路徑的同時，提供了更細粒度的統計分析能力，對需要頻繁在訓練步驟間插入評測、或對比多個實驗分支的研究團隊尤為適合。框架以 Apache 2.0 授權開源，OLMES 標準規格亦同步公開，支援社群貢獻新的 Task 定義。

原始來源：Hugging Face Blog — olmo-eval · GitHub: allenai/olmo-eval

End of article

Anthropic 首份公眾記錄調查：64% 美國人擔憂 AI 奪走工作，僅 15% 信任 AI 企業自律

背景

核心數據

治理偏好與信任赤字

影響範圍

MiniMax 稀疏注意力機制 MSA：百萬 Token 長上下文推論實現 14 倍加速

背景

方法

實驗設計

主要結果

AllenAI 推出 olmo-eval：為模型訓練迭代週期量身設計的評測工作台

背景

核心改動

規格細節

影響範圍

More on this topic