Skip to main content
Version: 1.8.0

AI Console 簡介

概述#

  • 雙子星雲端的 Gemini AI Console 深度整合了 Kubernetes,為企業提供了多專案協作的人工智慧資源管理平台。
  • 提供易於使用的網頁控制介面,Gemini AI Console 簡化了用戶的MLOps學習曲線。
  • 資料科學家與開發人員可搭配獨家的 Gemini GPU Partitioning 技術,讓多個容器共享GPU,使GPU使用率達到極致。

部署與維護 Kubernetes#

  1. 可在裸金屬(Bare Metal)環境、虛擬機上部署 Kubernetes,為 Kubernetes 叢集提供高可用性。
  2. 支援 Kubernetes 叢集納入 GPU 節點。
  3. 可以使用 Gemini AI Console 的安裝器,為 Kubernetes 叢集添加新節點以支援更多的工作負載。
  4. 借助 Gemini AI Console 的網頁控制介面,系統管理員可導入外部平台的 Kubernetes 叢集,以同樣方式管理多個 Kubernetes 叢集。

GPU 資源管理#

  1. 可在 Kubernetes 的環境裡,支援 GPU 節點,以加速模型訓練
  2. 可在同一張 GPU 卡上運行多個 POD 或容器服務。多個容器服務可以同時執行模型訓練或推論服務。
  3. 可在同一張 GPU 卡上運行多個 POD 或容器服務。且容器之間的資源隔離,以保證有一定的專屬資源可用,不受其他同時間在同一 GPU 運行的其他容器而被干擾。
  4. 可自動彈性調度 GPU 資源。若容器運行時,單一 GPU 卡的資源有剩,可以自動彈性地調大容器可以使用之 GPU 資源,以加速容器運算、提高資源使用率、也減少人員手動調控的管理負擔。

容器管理#

  1. 提供容器管理介面,使用者可以創建容器、調度容器、監控容器等
  2. 創建容器時,使用者可自行選擇 AI 框架,以及 GPU / CPU / Memory 的資源規格、儲存等配置
  3. 使用者可上傳自己定義或自行下載的容器映像檔(image),以開啟容器
  4. 可指定時間以自動為特定使用者創建容器服務,並可在指定時間刪除容器

支援MLOps#

  1. AI 容器環境
    • 平台內建 TensorFlow、PyTorch、Caffe2 等人工智慧框架,以創建 AI 容器
    • AI 容器內建 Jupyter Notebook 以供使用者進行模型定義或程式開發
    • AI 容器可提供 SSH 協定以連線登入容器
  2. 支援工作任務(Job)與流水線(Pipeline)
    • 提供使用者定義工作任務(Job)的功能,以執行耗時或重覆的任務。例如模型的訓練或推論。
    • 工作任務(Job)的內容為使用者輸入的指令或 shell script,以及執行工作任務所需的硬體規格。
    • 送出工作任務後,工作任務會在背景執行,並且使用者能隨時監視工作任務的過程及結果。
    • 提供使用者自定義流水線(Pipeline)的功能,可組合大批量、有順序性的工作任務以平行處理、依順序執行。例如 Data Pipeline、CI/CD Pipeline 等。
    • 使用者可以將工作任務與流水線存成範本(Template),以重覆使用。
    • 使用者可指定時間點、或次數,以定期驅動工作任務與流水線。
  3. 映像檔管理倉庫 (Image Repository)
    • 平台內建 Harbor,提供一個私有環境的映像檔管理倉庫 (Image Repository)

多租戶專案管理 Multi-tenant Management#

  1. 管理員可依需要,建立多個專案,並將使用者加入專案中以形成不同群組。
  2. 平台資源可被多個租戶專案所共享。同時,Gemini AI Console 隔離了租戶,因此不同專案或不同的角色,對於資源的操作,不會相互影響。
  3. 三層式的權限管理。角色由高至低分為系統管理員、專案管理員與一般使用者三個層級,保障多層級不同角色間的資源共享且相互隔離,充分保障資源安全性。
  4. 身份認證
    • 支援本地使用者
    • 相容基於 LDAP 或 AD 協定的集中認證系統
  5. 系統管理員可針對個別專案、或個別使用者,設定 GPU、CPU、MEMORY 的資源配額控制。

可觀測性 Observability#

  1. Gemini AI Console 透過可視化界面,提供 GPU、CPU、MEMORY 等各種資源的監控
  2. 內建 Prometheus 與 Grafana。Prometheus 是業界最普遍用於 Kubernetes 環境的指標收集平台。 監控數據可在 Grafana 和 Gemini AI Console 的網頁介面中可視化展示。
  3. 多層級的監控
    • 系統層級包括所有平台 Kubernetes 叢集的資源指標,例如 CPU 利用率、記憶體利用率、GPU 溫度等指標。
    • 專案層級則包括專案內個別容器所使用 CPU、記憶體、GPU 資源之監控。
  4. 提供門檻值設定服務,並透過郵件告警。
  5. 提供管理 API 供外部系統整合。

操作日誌#

  1. 可查詢 API 呼叫與認證稽核記錄

  2. 可產生資源使用報表,以及個別資源用量的費用試算

  3. 日誌記錄與執行結果記錄,完整記錄工作執行過程及步驟,包含錯誤中斷處理以及結果報告等資訊。

多種儲存方案#

  1. 可使用 NFS 伺服器或支援 NFS 協定的 NAS,做為外部儲存設備

  2. 可使用 Hostpath 將節點內檔案系統的目錄掛載到容器內,做為儲存空間