產業脈動 2026 年 5 月 10 日

2026-05-10 — Internet Archive 瑞士基金會、Slack EMR 管道 SSH 改 REST 零停機遷移

primary=https://blog.archive.org/2026/05/06/internet-archive-switzerland-expanding-a-global-mission-to-preserve-knowledge/ primary=https://slack.engineering/from-ssh-to-rest-a-security-driven-modernization-of-slacks-emr-data-pipelines/

Internet Archive 在聖加侖設立瑞士基金會,強化分散式全球知識保存體系

Internet Archive Blog · 2026-05-06

Internet Archive 宣布成立 Internet Archive Switzerland,一個位於瑞士聖加侖(St. Gallen)的獨立非營利基金會,加入 Internet Archive Canada 與 Internet Archive Europe,形成具備分散式法律保護與地理備援的全球數位圖書館網絡。

原本的問題

Internet Archive 長期受美國版權訴訟影響,集中在舊金山的單一機構架構使其在法律風險與自然災害兩個維度上都缺乏冗餘。隨著 AI 模型的興起,新型數位資產(訓練好的 AI 模型本身)開始面臨如何保存的挑戰,現有機構架構與資源不足以完全涵蓋這個新領域。

採用的方法

Internet Archive Switzerland 選擇聖加侖,除了其千年檔案傳統與強大的學術生態(聖加侖大學 HSG),瑞士在數位資產保護上的法律框架也提供更穩固的基礎。機構聚焦兩個主要方向:

  • Endangered Archives Preservation:保護全球面臨消失風險的數位收藏,並計畫於 2026 年 11 月在 UNESCO 巴黎會議上討論保護策略
  • Gen AI Archive:與聖加侖大學電腦科學系 Prof. Dr. Damian Borth 合作,保存 AI 模型——這被定位為數位保存的「新興前沿」

實際效果

此擴張讓 Internet Archive 的法律實體覆蓋三個大洲,降低任何單一國家法律裁決對整體運作的影響。AI 模型保存是最具前瞻性的部分——隨著模型規模持續增長,版本保存(model versioning archives)成為研究可重現性與歷史紀錄的基礎需求。

原始來源:Internet Archive Blog


Slack 將 700+ EMR 資料管道從 SSH 遷移至 REST:Quarry 閘道架構

Slack Engineering · 2026-05-05

Slack 資料平台工程團隊完成了一項歷時三季的遷移工程:將超過 700 個生產 EMR 資料管道從直接 SSH 存取改為透過 Quarry REST 閘道提交作業,涵蓋 8 個資料區域、7 種 Airflow operator 類型,且實現零停機遷移

原本的問題

2017 年建立的 SSH-based 架構讓 Airflow 直接透過 SSH 連線至 EMR master node 執行命令。到 2024 年,這個設計累積了多個結構性問題:攻擊面過大(直接存取計算叢集)、SSH 金鑰分發與輪換的管理負擔、缺乏結構化稽核日誌、以及 master node 資源競爭(非 Hadoop 工作負載擠占 master node 資源)。

採用的方法

新架構的核心是 Quarry,Slack 自建的 REST 作業提交閘道,處於 Airflow 與各計算引擎(YARN、Trino、Snowflake)之間:

  • Spark 作業透過 Livy REST API
  • Hive 透過 HiveServer2 REST 介面
  • 300+ 個 CLI-based 作業:使用 YARN Distributed Shell(org.apache.hadoop.yarn.applications.distributedshell.ApplicationMaster)在 YARN container 中執行任意 shell script,腳本先上傳至 S3

身份驗證從 SSH 金鑰改為服務對服務 token,Quarry 維護作業狀態、支援 orchestrator pod 重啟後的作業恢復,完全消除了 SSH 斷線後的殭屍進程問題。

實際效果

遷移讓每個作業提交都有完整的結構化稽核日誌,消除了特殊 security group 設定,並解鎖了 AWS 子帳號遷移(Whitecastle 計畫)。YARN Distributed Shell 的應用是此遷移的技術亮點——許多企業在替換 SSH 時面臨非 Hadoop 作業的替代方案缺乏問題,此案例提供了可參考的實作路徑。

原始來源:Slack Engineering Blog


End of article
0
Would love your thoughts, please comment.x
()
x