AI 前沿 2026 年 6 月 23 日

2026-06-23 — PP-OCRv6 三檔 50 語言 OCR、Claude 延伸思考僅回傳摘要

primary=https://huggingface.co/blog/PaddlePaddle/pp-ocrv6 primary=https://github.com/PaddlePaddle/PaddleOCR/releases primary=https://patrickmccanna.net/the-text-in-claude-codes-extended-thinking-output-is-not-authentic/ primary=https://platform.claude.com/docs/en/build-with-claude/extended-thinking

PaddleOCR 推出 PP-OCRv6:三檔參數規模支援 50 語言文字辨識

Hugging Face Blog · 2026-06-22

PaddlePaddle 團隊於 2026 年 6 月 22 日在 Hugging Face 上發佈 PP-OCRv6,這是 PaddleOCR 通用 OCR 模型系列的最新世代,版本號隨 PaddleOCR v3.7.0(2026-06-11 釋出)一同推出。本次更新以三段式模型架構為核心,在保持輕量化的同時大幅提升辨識準確度,並新增對 Transformers 與 ONNX Runtime 兩種後端的支援。

三檔模型規格

PP-OCRv6 提供 Tiny、Small、Medium 三個版本,對應不同的部署場景與算力限制。

版本參數量偵測 Hmean辨識準確率語言支援
PP-OCRv6_tiny1.5M80.6%73.5%部分語言
PP-OCRv6_small7.7M84.1%81.3%50 語言
PP-OCRv6_medium34.5M86.2%83.2%50 語言

與上一代旗艦模型 PP-OCRv5_server 相比,PP-OCRv6_medium 在文字偵測上提升 4.6 個百分點,文字辨識提升 5.1 個百分點。50 語言支援涵蓋簡繁中文、英文、日文及 46 種拉丁字母語言,同一模型即可處理多語混排文件。

後端與硬體加速

PP-OCRv6 支援三種推理後端,方便整合進不同技術棧:

  • Paddle Inference(預設)
  • Transformers / PyTorch(Hugging Face 生態)
  • ONNX Runtime(跨框架部署)

硬體加速方面,搭配 OpenVINO 可在 CPU 上達到 5.2 倍加速,在 Apple M4 平台上則達 6.1 倍。模型強化了數位顯示器、點陣字元及工業標籤等特殊場景的辨識能力,對 OCR 流水線整合具有實際部署意義。

原始來源:Hugging Face Blog — PP-OCRv6PaddleOCR v3.7.0 Release Notes


Claude Code 的延伸思考區塊並非完整推理過程

patrickmccanna.net · 2026-06-22

開發者 Patrick McCanna 於 2026 年 6 月 22 日發表分析,指出 Claude Code 在啟用 Extended Thinking 模式後,使用者在工作階段記錄中看到的「思考內容」實際上是 Anthropic API 回傳的摘要,而非模型原始推理過程。他在檢查工作階段日誌時發現,理應是推理的欄位中僅有一段約 600 字元的 signature,內容為空。

技術機制:簽章、摘要與加密

根據 Anthropic 官方文件,Extended Thinking API 回應包含 thinking 區塊與 signature 欄位。完整推理 token 從未直接傳遞給使用者或應用程式,API 預設回傳的是一份「保留關鍵想法、降低延遲」的摘要版本。當顯示模式設為 display: "omitted" 時,thinking 欄位則為空字串,僅保留加密的 signature

// omitted 模式 — thinking 為空,僅有簽章
{
  "type": "thinking",
  "thinking": "",
  "signature": "EosnCkYICxIMMb3LzNrMu..."
}

// 預設摘要模式 — thinking 為摘要,非原始推理
{
  "type": "thinking",
  "thinking": "Let me analyze this step by step...",
  "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8..."
}

此簽章用於多輪對話中的上下文連貫,金鑰由 Anthropic 持有,用戶端無法解密取得原始推理。即使採用預設的摘要模式,完整思考 token 仍依全量計費,但使用者實際取得的是壓縮後的概要。

對 Agent 稽核的影響

McCanna 指出,工程師在本機記錄中能稽核的僅有輸入、輸出與工具呼叫行為,無法還原驅動 Agent 行動的完整推理鏈,並將此情形比喻為格式轉換造成的資訊損失。Anthropic 文件確認,完整思考內容不對一般 API 使用者開放,僅在特定企業合約條款下才有相應的存取機制。對於依賴可解釋性或合規稽核的部署場景,工程團隊需在設計 Agent 監控架構時將此列入考量。

原始來源:Patrick McCanna — The text in Claude Code's Extended Thinking output is not authenticAnthropic — Extended Thinking 文件


End of article
0
Would love your thoughts, please comment.x
()
x