NVIDIA MIG에 대한 이해
Rocky-9.2
NVIDIA A100 80GB PCIe
Multi-Instance GPU
NVIDIA Ampere 아키텍처로 시작
Instance는 자체 고대역폭 메모리, 캐시 및 컴퓨팅 코어로 완전히 격리
최대 7개의 Instance로 분할 가능
Product | Architecture | Microarchitecture | Compute Capability | Memory Size | Max Number of Instances |
---|---|---|---|---|---|
H100-SXM5 | Hopper | GH100 | 9.0 | 80GB | 7 |
H100-PCIE | Hopper | GH100 | 9.0 | 80GB | 7 |
H100-SXM5 | Hopper | GH100 | 9.0 | 94GB | 7 |
H100-PCIE | Hopper | GH100 | 9.0 | 94GB | 7 |
H100 on GH200 | Hopper | GH100 | 9.0 | 96GB | 7 |
A100-SXM4 | NVIDIA Ampere | GA100 | 8.0 | 40GB | 7 |
A100-SXM4 | NVIDIA Ampere | GA100 | 8.0 | 80GB | 7 |
A100-PCIE | NVIDIA Ampere | GA100 | 8.0 | 40GB | 7 |
A100-PCIE | NVIDIA Ampere | GA100 | 8.0 | 80GB | 7 |
A30 | NVIDIA Ampere | GA100 | 8.0 | 24GB | 4 |
SM(Streaming Multiprocessor)
– GPU에서 컴퓨팅 명령을 실행
GPU Context
– 주소 공간, 메모리 할당 등을 포함하여 GPU에서 작업을 실행하는 데 필요한 모든 리소스를 캡슐화 함
GPU Engine
– GPU에서 작업을 실행하는 것
GPU Memory Slice
– 해당 메모리 컨트롤러와 캐시를 포함하여 GPU 메모리의 가장 작은 부분
– GPU Memory Slice는 용량과 대역폭을 포함하여 전체 GPU Memory resources의 약 8분의 1
GPU SM Slice
– GPU SM Slice는 단일 GPU Memory Slice와 단일 GPU SM Slice를 결합한 GPU의 가장 작은 부
GPU Slice
– 단일 GPU Memory Slice와 단일 GPU SM Slice를 결합한 GPU의 가장 작은 부분
GI(GPU Instance)
– GPU Slice와 GPU Engine의 조합
– GPU Instance 내의 모든 것을 항상 모든 GPU Memory Slice와 다른 GPU Engine을 공유하지만,
SM Slice는 CI(Compute Intance)로 세분화될 수 있음
CI(Compute Instance)
– GI(GPU Instance)는 여러 컴퓨팅 CI(Compute Instance)에는
상위 GPU Instance의 SM Slice 및 GPU Engine의 하위 집합이 포함되어 있음
– CI(Compute Instance)는 Memory와 Engine을 공유
기본적으로 MIG 장치는 단일 GI와 단일 CI로 구성
-i, –id
– PCI Bus ID or UUID
– 두 개 이상의 장치에 대해 쉼표로 구분된 값을 제
-gi, –gpu-instance-id
– GPU Instance ID
– 둘 이상의 GPU instance에 대해 쉼표로 구분된 값을 제공
-ci, –compute-instance-id
– Compute instance ID
– 둘 이상의 Compute instance에 대해 쉼표로 구분된 값을 제공
-lgip, –list-gpu-instance-profiles
– 지원되는 GPU Instance Profiles을 나열
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-lgipp, –list-gpu-instance-possible-placements
– GPU Instance 배치를 {Start};Size 형식으로 나열
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-C, –default-compute-instance
– GPU instance 생성 옵션(-cgi)과 함꼐 사용하면 기본 프로필로 컴퓨팅 인스턴스를 생성
-cgi, –create-gpu-instance
– 지정된 프로필 튜플에 대한 GPU instance를 생성
– 프로필 튜플은 프로필 이름 또는 ID와 콜론과 배치 시작 인덱스로 구성된 선택적 배치 지정자로 구성
– 둘 이상의 프로필 튜플에 대해 쉼표로 구분된 값을 제공
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-dgi, –destroy-gpu-instance
– GPU instance를 파괴
– -i 및 -gi 옵션을 개별적으로 상요하거나 조합하여 특정 GPU 또는 GPU instance에서
실행되는 명령을 제한할 수 있음
-lgi, –list-gpu-instances
– GPU instance 나열
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-lcip, –list-compute-instance-profiles
– 지원되는 Compute instance 프로필을 나열
– -i 및 -gi 옵션을 개별적으로 사용하거나 조합하여 특정 GPU 또는 GPU instance에서
실행되는 명령을 제한할 수 있음
-lcipp, –list-compute-instance-possible-placements
– Compute Instance 배치를 {Start};Size 형식으로 나열
– -i 및 -gi 옵션을 개별적으로 사용하거나 조합하여 특정 GPU 또는 GPU instance에서
실행되는 명령을 제한할 수 있음
-cci, –create-compute-instance
– 지정된 프뢸 이름 또는 ID에 대한 Compute instance를 만듬
– 둘 이상의 프로필에 대해 쉼표로 구분된 값을 제공
– 프로필 이름이나 ID가 제공되지 않으면 기본 Compute instance ID가 사용
– -i 및 -gi 옵션을 개별벅으로 사용하거나 조합하여 특정 GPU 또는 GPU 인스턴스에서 실행되는 명령을 제한할 수 있음
-dci, –destroy-compute-instance
– Compute instance를 삭제
– -i, -gi 및 -ci 옵션을 개별적으로 사용하거나 조합하여 특정 GPU, GPU 인스턴스 또는 컴퓨팅 인스턴스에서
실행되는 명령을 제한할 수 있음
-lci, –list-compute-instances
– Compute instance를 나열
– -i, -gi 및 -ci 옵션을 개별적으로 사용하거나 조합하여 특정 GPU, GPU 인스턴스 또는 컴퓨팅 인스턴스에서
실행되는 명령을 제한할 수 있음
1. 개요 Rocky Linux는 엔터프라이즈 환경에서 사용되는 RHEL(Red Hat Enterprise Linux)과 완전히 호환되는 오픈소스 Linux…
https://youtu.be/XwG4jBWakzQ 1. 개요 Supermicro IPMIView는 Supermicro에서 제공하는 IPMI (Intelligent Platform Management Interface) 기반의 통합 관리…
1. 개요 이 문서는 두 개의 NIC (enp5s0f0, enp5s0f1)를 bonding(active-backup) 방식으로 구성하고, 해당 bond 장치를 브리지(br0) 와 연결하여 KVM 가상머신에서…
1. 개요 KVM에서 NVIDIA GPU를 Passthrough 설정하여 VM에 할당할 때 RmInitAdapter failed 오류를 자주 접하게…
1. 개요 Proxmox에서 pGPU(Physical GPU)와 vGPU(Virtual GPU)를 동일한 서버에서 동시에 사용하는 방법을 정리합니다. 2. 버전…
1. 개요 Proxmox에서 vGPU를 설정하는 방법을 정리합니다. 2. 버전 Proxmox 8.2 3. vGPU란? vGPU(Virtual GPU)는…
댓글 보기