Cloud Solutions

一、個案概要

行政院原子能委員會核能研究所（以下簡稱核研所）積極引入人工智慧/機器學習技術，發展各種研究。核研所採用了雙子星雲端的 AI Console，整合集中管理多台GPU工作站與磁碟陣列，打造一個可協同工作的 GPU 運算環境，讓核研所的研發團隊可以更專注於創意，產出更多更好的研發成果。

此案需要一套含有帳號權限管理的系統，以便利的 Web UI 介面，讓不同用戶之間可以自行選擇所需的運算資源，且具有高度彈性，單一運算處理可以選擇零到多張GPU卡進行平行運算，同時可以整合多種AI運算框架與函式庫及其版本（如 Tensorflow、Pytorch），讓使用者可以依據需求選擇軟體以及資源。

Industry

政府機構

Region

台灣

Use Case

人工智慧/大數據運算
GPU、Kubernetes、雙子星雲端 AI Console

二、痛點與挑戰

缺乏有效的統一管理機制進行主機統一管理
資源時常處於分配不均或閒置的狀態，無法有效給多使用者使用
需要提供給不同單位共同使用，因此需要提供有效的管理與安全機制

導入前資源分配不均示意圖

核研所在導入雙子星雲端 AI Console 之前，已經有數台含有 GPU 的 AI 運算用工作站，以及既有的磁碟陣列機器，但缺乏一套完整的管理機制來進行多主機的統一管理，導致這三台運算資源以及儲存資源無法有效分配，有些應用佔住了大部份的 GPU 資源，又沒有妥善利用，讓別的用戶只能等待，讓資源時常處於閒置或浪費的狀況，無法有效地分配資源給多個不同單位的使用者共同使用，資源使用效率不佳。

三、架構設計特色

單一節點即可管理多台 GPU 運算主機
提供有效的三層式、多專案管理機制
三台 GPU Server 互為備援
未來若有擴充需求，無需另外建立 K8S 叢集

核研所架構示意圖

雙子星雲端在評估診斷核研所原本的GPU運算環境後，完成了新的規劃，所有配置與安裝均由雙子星雲端完成，包含網路設置、作業系統安裝，虛擬化軟體服務、管理服務、資源監控等，讓使用者僅需要單一窗口即可解決所有問題。

為了讓原本的GPU 運算主機達到最佳效能，雙子星雲端規劃了一台 AI 資源管理節點，安裝了雙子星雲端的 GPU 叢集管理軟體 AI Console，來完成用戶所需的功能需求，包含控制 GPU 運算主機的資源分配，以及帳號管理等。

同時，雙子星雲端將核研所的多台 GPU 運算主機設置為 HA （High Availability）模式，避免單一運算主機損毀導致容器無法使用，讓受影響的容器能在其他運算主機自動重啟。

四、建置成果

即使設置為 HA 模式，運算資源仍然達到有效利用
資源使用效率佳，有額外資源可提供給所內其他單位使用
IT 投資使用量多，也代表了研發成果產能的提高

導入 Gemini AI Console 前後使用情境圖

在導入之前，核研所的三台 GPU 運算主機無法有效的管理，導致資源分配不佳，研發團隊花了很多時間在等待。在導入雙子星雲端 AI Console 之後，即使 GPU 主機設置為 HA 模式，仍然可以將其資源利用率發揮到最大。這些GPU運算資源除了原本單位使用之外，在透過 AI Console 的有效管理之下，還有空閒的資源可以分享給其他單位共同使用，而透過有效的控管，不同單位專案不會相互干擾。

由於資源使用效率佳，所內使用量越來越多，隔年又擴充了 GPU Server 的硬體資源，在雙子星所規劃的架構之下，無痛地加入 AI Console 的管理範圍內，不用再另外建置 K8S 叢集，讓這些資源可以馬上被使用。

核能研究所 - AI雲