行政院原子能委員會核能研究所(以下簡稱核研所)積極引入人工智慧/機器學習技術,發展各種研究。核研所採用了雙子星雲端的 AI Console,整合集中管理多台GPU工作站與磁碟陣列,打造一個可協同工作的 GPU 運算環境,讓核研所的研發團隊可以更專注於創意,產出更多更好的研發成果。
此案需要一套含有帳號權限管理的系統,以便利的 Web UI 介面,讓不同用戶之間可以自行選擇所需的運算資源,且具有高度彈性,單一運算處理可以選擇零到多張GPU卡進行平行運算,同時可以整合多種AI運算框架與函式庫及其版本(如 Tensorflow、Pytorch),讓使用者可以依據需求選擇軟體以及資源。
政府機構
台灣
核研所在導入雙子星雲端 AI Console 之前,已經有數台含有 GPU 的 AI 運算用工作站,以及既有的磁碟陣列機器,但缺乏一套完整的管理機制來進行多主機的統一管理,導致這三台運算資源以及儲存資源無法有效分配,有些應用佔住了大部份的 GPU 資源,又沒有妥善利用,讓別的用戶只能等待,讓資源時常處於閒置或浪費的狀況,無法有效地分配資源給多個不同單位的使用者共同使用,資源使用效率不佳。
雙子星雲端在評估診斷核研所原本的GPU運算環境後,完成了新的規劃,所有配置與安裝均由雙子星雲端完成,包含網路設置、作業系統安裝,虛擬化軟體服務、管理服務、資源監控等,讓使用者僅需要單一窗口即可解決所有問題。
為了讓原本的GPU 運算主機達到最佳效能,雙子星雲端規劃了一台 AI 資源管理節點,安裝了雙子星雲端的 GPU 叢集管理軟體 AI Console,來完成用戶所需的功能需求,包含控制 GPU 運算主機的資源分配,以及帳號管理等。
同時,雙子星雲端將核研所的多台 GPU 運算主機設置為 HA (High Availability)模式,避免單一運算主機損毀導致容器無法使用,讓受影響的容器能在其他運算主機自動重啟。
在導入之前,核研所的三台 GPU 運算主機無法有效的管理,導致資源分配不佳,研發團隊花了很多時間在等待。在導入雙子星雲端 AI Console 之後,即使 GPU 主機設置為 HA 模式,仍然可以將其資源利用率發揮到最大。這些GPU運算資源除了原本單位使用之外,在透過 AI Console 的有效管理之下,還有空閒的資源可以分享給其他單位共同使用,而透過有效的控管,不同單位專案不會相互干擾。
由於資源使用效率佳,所內使用量越來越多,隔年又擴充了 GPU Server 的硬體資源,在雙子星所規劃的架構之下,無痛地加入 AI Console 的管理範圍內,不用再另外建置 K8S 叢集,讓這些資源可以馬上被使用。