核能研究所 - AI雲

一、個案概要

行政院原子能委員會核能研究所(以下簡稱核研所)積極引入人工智慧/機器學習技術,發展各種研究。核研所採用了雙子星雲端的 AI Console,整合集中管理多台GPU工作站與磁碟陣列,打造一個可協同工作的 GPU 運算環境,讓核研所的研發團隊可以更專注於創意,產出更多更好的研發成果。

此案需要一套含有帳號權限管理的系統,以便利的 Web UI 介面,讓不同用戶之間可以自行選擇所需的運算資源,且具有高度彈性,單一運算處理可以選擇零到多張GPU卡進行平行運算,同時可以整合多種AI運算框架與函式庫及其版本(如 Tensorflow、Pytorch),讓使用者可以依據需求選擇軟體以及資源。

Industry

政府機構

Region

台灣

Use Case

  • 人工智慧/大數據運算
  • GPU、Kubernetes、雙子星雲端 AI Console

二、痛點與挑戰

  • 缺乏有效的統一管理機制進行主機統一管理
  • 資源時常處於分配不均或閒置的狀態,無法有效給多使用者使用
  • 需要提供給不同單位共同使用,因此需要提供有效的管理與安全機制
GOC-INER-1
導入前資源分配不均示意圖

核研所在導入雙子星雲端 AI Console 之前,已經有數台含有 GPU 的 AI 運算用工作站,以及既有的磁碟陣列機器,但缺乏一套完整的管理機制來進行多主機的統一管理,導致這三台運算資源以及儲存資源無法有效分配,有些應用佔住了大部份的 GPU 資源,又沒有妥善利用,讓別的用戶只能等待,讓資源時常處於閒置或浪費的狀況,無法有效地分配資源給多個不同單位的使用者共同使用,資源使用效率不佳。

三、架構設計特色

  • 單一節點即可管理多台 GPU 運算主機
  • 提供有效的三層式、多專案管理機制
  • 三台 GPU Server 互為備援
  • 未來若有擴充需求,無需另外建立 K8S 叢集
GOC-INER-2
核研所架構示意圖

雙子星雲端在評估診斷核研所原本的GPU運算環境後,完成了新的規劃,所有配置與安裝均由雙子星雲端完成,包含網路設置、作業系統安裝,虛擬化軟體服務、管理服務、資源監控等,讓使用者僅需要單一窗口即可解決所有問題。

為了讓原本的GPU 運算主機達到最佳效能,雙子星雲端規劃了一台 AI 資源管理節點,安裝了雙子星雲端的 GPU 叢集管理軟體 AI Console,來完成用戶所需的功能需求,包含控制 GPU 運算主機的資源分配,以及帳號管理等。

同時,雙子星雲端將核研所的多台 GPU 運算主機設置為 HA (High Availability)模式,避免單一運算主機損毀導致容器無法使用,讓受影響的容器能在其他運算主機自動重啟。

四、建置成果

  • 即使設置為 HA 模式,運算資源仍然達到有效利用
  • 資源使用效率佳,有額外資源可提供給所內其他單位使用
  • 隔年新購 GPU Server,無痛加入管理架構之內
  • IT 投資使用量多,也代表了研發成果產能的提高
GOC-INER-2
導入 Gemini AI Console 前後使用情境圖

在導入之前,核研所的三台 GPU 運算主機無法有效的管理,導致資源分配不佳,研發團隊花了很多時間在等待。在導入雙子星雲端 AI Console 之後,即使 GPU 主機設置為 HA 模式,仍然可以將其資源利用率發揮到最大。這些GPU運算資源除了原本單位使用之外,在透過 AI Console 的有效管理之下,還有空閒的資源可以分享給其他單位共同使用,而透過有效的控管,不同單位專案不會相互干擾。

由於資源使用效率佳,所內使用量越來越多,隔年又擴充了 GPU Server 的硬體資源,在雙子星所規劃的架構之下,無痛地加入 AI Console 的管理範圍內,不用再另外建置 K8S 叢集,讓這些資源可以馬上被使用。