AI Console 簡介
#
概述- 雙子星雲端的 Gemini AI Console 深度整合了 Kubernetes,為企業提供了多專案協作的人工智慧資源管理平台。
- 提供易於使用的網頁控制介面,Gemini AI Console 簡化了用戶的MLOps學習曲線。
- 資料科學家與開發人員可搭配獨家的 Gemini GPU Partitioning 技術,讓多個容器共享GPU,使GPU使用率達到極致。
#
部署與維護 Kubernetes- 可在裸金屬(Bare Metal)環境、虛擬機上部署 Kubernetes,為 Kubernetes 叢集提供高可用性。
- 支援 Kubernetes 叢集納入 GPU 節點。
- 可以使用 Gemini AI Console 的安裝器,為 Kubernetes 叢集添加新節點以支援更多的工作負載。
- 借助 Gemini AI Console 的網頁控制介面,系統管理員可導入外部平台的 Kubernetes 叢集,以同樣方式管理多個 Kubernetes 叢集。
#
GPU 資源管理- 可在 Kubernetes 的環境裡,支援 GPU 節點,以加速模型訓練
- 可在同一張 GPU 卡上運行多個 POD 或容器服務。多個容器服務可以同時執行模型訓練或推論服務。
- 可在同一張 GPU 卡上運行多個 POD 或容器服務。且容器之間的資源隔離,以保證有一定的專屬資源可用,不受其他同時間在同一 GPU 運行的其他容器而被干擾。
- 可自動彈性調度 GPU 資源。若容器運行時,單一 GPU 卡的資源有剩,可以自動彈性地調大容器可以使用之 GPU 資源,以加速容器運算、提高資源使用率、也減少人員手動調控的管理負擔。
#
容器管理- 提供容器管理介面,使用者可以創建容器、調度容器、監控容器等
- 創建容器時,使用者可自行選擇 AI 框架,以及 GPU / CPU / Memory 的資源規格、儲存等配置
- 使用者可上傳自己定義或自行下載的容器映像檔(image),以開啟容器
- 可指定時間以自動為特定使用者創建容器服務,並可在指定時間刪除容器
#
支援MLOps- AI 容器環境
- 平台內建 TensorFlow、PyTorch、Caffe2 等人工智慧框架,以創建 AI 容器
- AI 容器內建 Jupyter Notebook 以供使用者進行模型定義或程式開發
- AI 容器可提供 SSH 協定以連線登入容器
- 支援工作任務(Job)與流水線(Pipeline)
- 提供使用者定義工作任務(Job)的功能,以執行耗時或重覆的任務。例如模型的訓練或推論。
- 工作任務(Job)的內容為使用者輸入的指令或 shell script,以及執行工作任務所需的硬體規格。
- 送出工作任務後,工作任務會在背景執行,並且使用者能隨時監視工作任務的過程及結果。
- 提供使用者自定義流水線(Pipeline)的功能,可組合大批量、有順序性的工作任務以平行處理、依順序執行。例如 Data Pipeline、CI/CD Pipeline 等。
- 使用者可以將工作任務與流水線存成範本(Template),以重覆使用。
- 使用者可指定時間點、或次數,以定期驅動工作任務與流水線。
- 映像檔管理倉庫 (Image Repository)
- 平台內建 Harbor,提供一個私有環境的映像檔管理倉庫 (Image Repository)
#
多租戶專案管理 Multi-tenant Management- 管理員可依需要,建立多個專案,並將使用者加入專案中以形成不同群組。
- 平台資源可被多個租戶專案所共享。同時,Gemini AI Console 隔離了租戶,因此不同專案或不同的角色,對於資源的操作,不會相互影響。
- 三層式的權限管理。角色由高至低分為系統管理員、專案管理員與一般使用者三個層級,保障多層級不同角色間的資源共享且相互隔離,充分保障資源安全性。
- 身份認證
- 支援本地使用者
- 相容基於 LDAP 或 AD 協定的集中認證系統
- 系統管理員可針對個別專案、或個別使用者,設定 GPU、CPU、MEMORY 的資源配額控制。
#
可觀測性 Observability- Gemini AI Console 透過可視化界面,提供 GPU、CPU、MEMORY 等各種資源的監控
- 內建 Prometheus 與 Grafana。Prometheus 是業界最普遍用於 Kubernetes 環境的指標收集平台。 監控數據可在 Grafana 和 Gemini AI Console 的網頁介面中可視化展示。
- 多層級的監控
- 系統層級包括所有平台 Kubernetes 叢集的資源指標,例如 CPU 利用率、記憶體利用率、GPU 溫度等指標。
- 專案層級則包括專案內個別容器所使用 CPU、記憶體、GPU 資源之監控。
- 提供門檻值設定服務,並透過郵件告警。
- 提供管理 API 供外部系統整合。
#
操作日誌可查詢 API 呼叫與認證稽核記錄
可產生資源使用報表,以及個別資源用量的費用試算
日誌記錄與執行結果記錄,完整記錄工作執行過程及步驟,包含錯誤中斷處理以及結果報告等資訊。
#
多種儲存方案可使用 NFS 伺服器或支援 NFS 協定的 NAS,做為外部儲存設備
可使用 Hostpath 將節點內檔案系統的目錄掛載到容器內,做為儲存空間