NVIDIA MIG에 대한 이해
Rocky-9.2
NVIDIA A100 80GB PCIe
Multi-Instance GPU
NVIDIA Ampere 아키텍처로 시작
Instance는 자체 고대역폭 메모리, 캐시 및 컴퓨팅 코어로 완전히 격리
최대 7개의 Instance로 분할 가능
| Product | Architecture | Microarchitecture | Compute Capability | Memory Size | Max Number of Instances |
|---|---|---|---|---|---|
| H100-SXM5 | Hopper | GH100 | 9.0 | 80GB | 7 |
| H100-PCIE | Hopper | GH100 | 9.0 | 80GB | 7 |
| H100-SXM5 | Hopper | GH100 | 9.0 | 94GB | 7 |
| H100-PCIE | Hopper | GH100 | 9.0 | 94GB | 7 |
| H100 on GH200 | Hopper | GH100 | 9.0 | 96GB | 7 |
| A100-SXM4 | NVIDIA Ampere | GA100 | 8.0 | 40GB | 7 |
| A100-SXM4 | NVIDIA Ampere | GA100 | 8.0 | 80GB | 7 |
| A100-PCIE | NVIDIA Ampere | GA100 | 8.0 | 40GB | 7 |
| A100-PCIE | NVIDIA Ampere | GA100 | 8.0 | 80GB | 7 |
| A30 | NVIDIA Ampere | GA100 | 8.0 | 24GB | 4 |
SM(Streaming Multiprocessor)
– GPU에서 컴퓨팅 명령을 실행
GPU Context
– 주소 공간, 메모리 할당 등을 포함하여 GPU에서 작업을 실행하는 데 필요한 모든 리소스를 캡슐화 함
GPU Engine
– GPU에서 작업을 실행하는 것
GPU Memory Slice
– 해당 메모리 컨트롤러와 캐시를 포함하여 GPU 메모리의 가장 작은 부분
– GPU Memory Slice는 용량과 대역폭을 포함하여 전체 GPU Memory resources의 약 8분의 1
GPU SM Slice
– GPU SM Slice는 단일 GPU Memory Slice와 단일 GPU SM Slice를 결합한 GPU의 가장 작은 부
GPU Slice
– 단일 GPU Memory Slice와 단일 GPU SM Slice를 결합한 GPU의 가장 작은 부분
GI(GPU Instance)
– GPU Slice와 GPU Engine의 조합
– GPU Instance 내의 모든 것을 항상 모든 GPU Memory Slice와 다른 GPU Engine을 공유하지만,
SM Slice는 CI(Compute Intance)로 세분화될 수 있음
CI(Compute Instance)
– GI(GPU Instance)는 여러 컴퓨팅 CI(Compute Instance)에는
상위 GPU Instance의 SM Slice 및 GPU Engine의 하위 집합이 포함되어 있음
– CI(Compute Instance)는 Memory와 Engine을 공유
기본적으로 MIG 장치는 단일 GI와 단일 CI로 구성
-i, –id
– PCI Bus ID or UUID
– 두 개 이상의 장치에 대해 쉼표로 구분된 값을 제
-gi, –gpu-instance-id
– GPU Instance ID
– 둘 이상의 GPU instance에 대해 쉼표로 구분된 값을 제공
-ci, –compute-instance-id
– Compute instance ID
– 둘 이상의 Compute instance에 대해 쉼표로 구분된 값을 제공
-lgip, –list-gpu-instance-profiles
– 지원되는 GPU Instance Profiles을 나열
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-lgipp, –list-gpu-instance-possible-placements
– GPU Instance 배치를 {Start};Size 형식으로 나열
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-C, –default-compute-instance
– GPU instance 생성 옵션(-cgi)과 함꼐 사용하면 기본 프로필로 컴퓨팅 인스턴스를 생성
-cgi, –create-gpu-instance
– 지정된 프로필 튜플에 대한 GPU instance를 생성
– 프로필 튜플은 프로필 이름 또는 ID와 콜론과 배치 시작 인덱스로 구성된 선택적 배치 지정자로 구성
– 둘 이상의 프로필 튜플에 대해 쉼표로 구분된 값을 제공
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-dgi, –destroy-gpu-instance
– GPU instance를 파괴
– -i 및 -gi 옵션을 개별적으로 상요하거나 조합하여 특정 GPU 또는 GPU instance에서
실행되는 명령을 제한할 수 있음
-lgi, –list-gpu-instances
– GPU instance 나열
– -i 옵션을 사용하면 특정 GPU에서 실행되는 명령을 제한할 수 있음
-lcip, –list-compute-instance-profiles
– 지원되는 Compute instance 프로필을 나열
– -i 및 -gi 옵션을 개별적으로 사용하거나 조합하여 특정 GPU 또는 GPU instance에서
실행되는 명령을 제한할 수 있음
-lcipp, –list-compute-instance-possible-placements
– Compute Instance 배치를 {Start};Size 형식으로 나열
– -i 및 -gi 옵션을 개별적으로 사용하거나 조합하여 특정 GPU 또는 GPU instance에서
실행되는 명령을 제한할 수 있음
-cci, –create-compute-instance
– 지정된 프뢸 이름 또는 ID에 대한 Compute instance를 만듬
– 둘 이상의 프로필에 대해 쉼표로 구분된 값을 제공
– 프로필 이름이나 ID가 제공되지 않으면 기본 Compute instance ID가 사용
– -i 및 -gi 옵션을 개별벅으로 사용하거나 조합하여 특정 GPU 또는 GPU 인스턴스에서 실행되는 명령을 제한할 수 있음
-dci, –destroy-compute-instance
– Compute instance를 삭제
– -i, -gi 및 -ci 옵션을 개별적으로 사용하거나 조합하여 특정 GPU, GPU 인스턴스 또는 컴퓨팅 인스턴스에서
실행되는 명령을 제한할 수 있음
-lci, –list-compute-instances
– Compute instance를 나열
– -i, -gi 및 -ci 옵션을 개별적으로 사용하거나 조합하여 특정 GPU, GPU 인스턴스 또는 컴퓨팅 인스턴스에서
실행되는 명령을 제한할 수 있음
https://youtu.be/n8-wlkZiqio 1. 개요 NFS(Network File System)를 설치하고, rw/ro 및 root_squash 옵션에 따른 접근 제어와 성능을 테스트하는 방법을 정리한 가이드입니다.…
https://youtu.be/4MVxzmepY3s 1. 개요 리눅스에서 정기적으로 실행되는 작업(백업, 로그 정리, 모니터링 등)은 cron 서비스를 통해 자동화할 수 있습니다.…
https://youtu.be/vPfxWFBE1yc 1. 개요 리눅스 서버를 운영할 때 사용자 계정 생성, 비밀번호 설정, 권한 부여, 계정…
https://youtu.be/Gvp2XwBfoKw 1. 개요 리눅스 서버에서는 시스템 시간(OS 시간) 과 하드웨어 시간(RTC, Real-Time Clock) 을 동기화하는 것이 매우 중요합니다. 클러스터…
https://youtu.be/pt9qhawl8LY 1. 개요 리눅스 서버에서는 시스템 시간(OS 시간) 과 하드웨어 시간(RTC, Real-Time Clock) 을 모두 관리할 수 있습니다. 운영체제의…
https://youtu.be/iPdHGXh7DUg 1. 개요 서버 운영 시 시스템 시간이 올바르게 설정되어 있지 않으면 로그 분석, 모니터링,…
댓글 보기