Skip to main content

AI Console 簡介

概述#

  • 雙子星雲端的 Gemini AI Console 深度整合了 Kubernetes,為企業提供了多專案協作的人工智慧資源管理平台。
  • 提供易於使用的網頁控制介面,Gemini AI Console 簡化了用戶的MLOps學習曲線。
  • 資料科學家與開發人員可搭配獨家的 Gemini GPU Partitioning 技術,讓多個容器共享GPU,使GPU使用率達到極致。

部署與維護Kubernetes#

  1. 可在裸金屬(Bare Metal)環境、虛擬機上部署Kubernetes,為Kubernetes叢集提供高可用性。
  2. 支援Kubernetes叢集納入GPU節點。
  3. 可以使用 Gemini AI Console 的安裝器,為Kubernetes叢集添加新節點以支援更多的工作負載。
  4. 借助Gemini AI Console的網頁控制介面,系統管理員可導入外部平台的Kubernetes叢集,以同樣方式管理多個Kubernetes叢集。

GPU資源管理#

  1. 可在Kubernetes的環境裡,支援 GPU 節點,以加速模型訓練
  2. 可在同一張GPU卡上運行多個POD或容器服務。多個容器服務可以同時執行模型訓練或推論服務。
  3. 可在同一張GPU卡上運行多個POD或容器服務。且容器之間的資源隔離,以保證有一定的專屬資源可用,不受其他同時間在同一GPU運行的其他容器而被干擾。
  4. 可彈性調度GPU資源。若容器在運行時,同時間在使用同一GPU的容器較少,可以彈性地動態調大容器可以使用之GPU資源,以加速容器運算、提高資源使用率、也減少人員手動調控的管理擔。

容器管理#

  1. 提供容器管理介面,使用者可以創建容器、調度容器、監控容器等
  2. 創建容器時,使用者可自行選擇AI框架、GPU/CPU/Memory的資源規格、儲存等配置
  3. 使用者可上傳自己定義或自行下載的容器映像檔(image),以開啟容器
  4. 可指定時間以自動為特定使用者創建容器服務,並可在指定時間刪除容器

支援MLOps#

  1. AI容器環境
    1. 平台內建 TensorFlow、PyTorch、Caffe2 等人工智慧框架,以創建AI容器
    2. AI容器內建 Jupyter Notebook 以供使用者進行模型定義或程式開發
    3. AI容器可提供SSH協定以連線登入容器
  2. 支援工作任務(Job)與流水線(Pipeline)
    1. 提供使用者定義工作任務(Job)的功能,以執行耗時或重覆的任務。例如模型的訓練或推論。
    2. 工作任務(Job)的內容為使用者輸入的指令或shell script,以及執行工作任務所需的硬體規格。
    3. 送出工作任務後,工作任務會在背景執行,並且使用者能隨時監視工作任務的過程及結果。
    4. 提供使用者自定義流水線(Pipeline)的功能,可組合大批量、有順序性的工作任務以平行處理、依順序執行。例如 Data Pipeline、CI/CD Pipeline 等。
    5. 使用者可以將工作任務與流水線存成範本(Template),以重覆使用。
    6. 使用者可指定時間點、或次數,以定期驅動工作任務與流水線。
  3. 映像檔管理倉庫 (Image Repository)
    1. 平台內建 Harbor,提供一個私有環境的映像檔管理倉庫 (Image Repository)

多租戶專案管理 Multi-tenant Management#

  1. 管理員可依需要,建立多個專案,並將使用者加入專案中以形成不同群組。
  2. 平台資源可被多個租戶專案所共享。同時,Gemini AI Console隔離了租戶,因此不同專案或不同的角色,對於資源的操作,不會相互影響。
  3. 三層式的權限管理。角色由高至低分為系統管理員、專案管理員與一般使用者三個層級,保障多層級不同角色間的資源共享且相互隔離,充分保障資源安全性。
  4. 身份認證
    1. 支援本地使用者
    2. 相容基於LDAP或AD協定的集中認證系統
  5. 系統管理員可針對個別專案、或個別使用者,設定GPU、CPU、MEMORY的資源配額控制。

可觀測性 Observability#

  1. Gemini AI Console透過可視化界面,提供GPU、CPU、MEMORY等各種資源的監控
  2. 內建Prometheus與Grafana。Prometheus是業界最普遍用於Kubernetes環境的指標收集平台。 監控數據可在Grafana和Gemini AI Console 的網頁介面中可視化展示。
  3. 多層級的監控
    1. 系統層級包括所有平台Kubernetes叢集的資源指標,例如CPU利用率、記憶體利用率、GPU溫度等指標。
    2. 專案層級則包括專案內個別容器所使用CPU、記憶體、GPU資源之監控。
  4. 提供門檻值設定服務,並透過郵件告警。
  5. 提供管理API供外部系統整合。

操作日誌#

  1. 可查詢API呼叫與認證稽核記錄

  2. 可產生資源使用報表,以及資源用量的費用試算

  3. 日誌記錄與執行結果記錄,完整記錄工作執行過程及步驟,包含錯誤中斷處理以及結果報告等資訊。

多種儲存方案#

  1. 可使用NFS伺服器或支援NFS協定的NAS,做為外部儲存設備

  2. 可使用Hostpath將節點內檔案系統的目錄掛載到容器內,做為儲存空間