마이크로소프트 이그나이트 2023 컨퍼런스 전체 정리본[5차 – ‘AI(인공지능)의 혁신’ …

퀘이사존

2023년 11월 15일 ~ 17일(11월 16일 ~ 18일), ‘마이크로소프트 이그나이트 2023 컨퍼런스’가 진행되었는데요.

당시 게시자 본인도 댓글 생중계를 진행하였고, 이에 댓글 내용을 전체 취합 및 정리하여 ‘마이크로소프트 이그나이트 2023 컨퍼런스 전체 정리본[4차 – AI(인공지능) 시대의 마이크로소프트 애저 클라우드]’을 올려드립니다.

많은 도움이 되셨으면 좋겠습니다. 감사합니다

★ 본래 2023년 11월 18일 새벽 5시 30분부터 시작할려고 했으나, 개인 및 업무 사정으로 인하여 부득이하게 12월 연말 지나기 직전에 진행하게 되었습니다.

이 부분은 회원분들께서 넓은 양해를 부탁드립니다^^;;

[마이크로소프트]

① [LLM(대형 언어 모델) 애플리케이션 프로파일]

– 그래프 구성 : 프롬프트(경량형, 중형) / 생성(경량형, 중형)

– 키워드 : 컨텐츠 제작, 신속한 엔지니어링 + 기업용 챗봇, 챗봇, 요약

② 마이크로소프트(생성 스케줄링)

☞ Naive 생성 스케줄링

– 구성 요소 : 프롬프트 토큰, LLM(대규모 언어 모델)

– 처리 과정(첫번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도 + 신속한 처리로 인해 속도가 저하 + 정상으로 회복되지만 병렬 세대로 인하여 속도가 저하)

– 처리 과정(두번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ☞ 첫번째 토큰 처리 과정 중 간섭이 발생함

☞ Azure-ML(애저 머신러닝) ‘Project Flywheel(프로젝트 플라이휠)’

– 구성 요소 : 프롬프트 토큰, LLM(대규모 언어 모델)

– 처리 과정(첫번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ▶ 일괄 처리로 고정 수량만 수행

– 처리 과정(두번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ▶ 첫번째 토큰 처리에 대한 속도 영향 없음

※ 특징 : 예측 가능한 발전 처리량 / PTU 및 생성 처리량의 선형 규모 / 부분 자원 구매(부분 제공 처리량 단위를 도입이 가능하게 해주는 기능)

③ 오픈 소스 프로젝트

– Type-Chat(타입-채팅) : 모델이 출력할 내용에 대한 ‘스키마’를 지정하도록 하는 기능

– 엔지니어링의 변화 : 프롬프트 ☞ 스키마

– 구성 요소 : 정의된 스키마 → 타입-채팅[프롬프트 구축 → LLM ↔ 스키마 검증 ↔ 복구] →(입력이 잘된 응답) 애플리케이션 코드

– 지원 예정 언어 : PyThon, ‘.NET’, C#, 자바 스크립트

④ 마이크로소프트[기밀 AI(인공지능)의 비전]

– 모델 : 사용자들의 IP를 보호를 원함

– 데이터 : 훈련, 미세조정, 추론, 프롬프트 기반 응답 교류 데이터(본인 외에는 누구도 볼 수 없음)

– 다중 공유 : 당사자 간의 데이터 공유 및 기밀 H/W로 보호(서로 간의 데이터를 볼 수 없는 다중간 시나리오 지원)

[마이크로소프트 – AI(인공지능)]

▶ 마이크로소프트[AI(인공지능) 서빙]

– 질문 : 언제 무엇을 하느냐

– 기초 모델의 훈련

① 제로샷(시작) : 모델에 어떤 예시도 제공하지 않음

② 소수 : 사용자가 좋아하는 몇 가지 예시를 제공 및 학습하여 원하는 것을 생각할 수 있는지 확인

③ RAG(검색 증강 생성) : 대량의 데이터 제공 및 소스 로딩하거나 제공

④ 미세 조정 : 모델에 지식을 추가하는 데 적합하지 않음.

※ 사용자(고객)와(과) 내부적으로 협력한 모든 내용을 바탕으로 한 지침을 단계적 차트로 따르는 것

☞ 전통적인 미세 조정(GitHub CO-Pilot)

– 고객이 모델의 사용자 정의 버전을 만드는 경우가 많기 때문임.

– 과정(대규모) : 대규모 공통 데이터 세트 → 사전 학습 → 소스 모델

– 과정(소규모) : 소규모 목표 데이터 세트 → 미세 조정 → 목표 모델

– GPU 필요 개수(미세 조정) : 96개

– 필요 체크포인트 용량 : 1TB

– 모델 전환 시의 소요 시간 : 1분

※ (소규모)과정 모델은 ‘(대규모)과정 모델’ 전체를 복사함.

※ 각 미세 조정 작업을 위한 거대 모델 : 훈련 가능한 모델 매개변수(1,750억개)

☞ ‘LoRA’ 미세조정 모델(마이크로소프트 연구소)

– 하위 적응형 미세조정

– 과정(소규모) : 소규모 목표 데이터 세트 → 동결 → 목표 모델(기본 중량)

– 추가 : ‘미세조정’ 어댑터라는 추가 가중치를 생성(LoRA 어댑터)

– GPU 필요 개수(미세 조정) : 24개

– 필요 체크포인트 용량 : 200MB

– 모델 전환 시의 소요 시간 : 2초

– 추가 추론 대기 시간 없음

– 훈련 처리량 증가 : 25%

※ 하나의 기본 모델 + 여러 개의 소형 어댑터(GPT-3 모델 미세 조정의 용량 크기 : 200MB)

※ 사전 학습 모델을 사용하여 다양한 작업을 위한 여러 개의 소형 ‘LoRA’ 모듈

▶ 마이크로소프트[AI(인공지능) 서빙] – 미세 조정 서빙

① 전통적 미세 조정 서빙

– 요청 프로세스 순서 : 요청 → 로드 → 컴퓨팅 → 출고 → 로드(미세 조정 베이스 모델) → 컴퓨팅 → 출고…

② 다중-LoRA 미세 조정 서빙

– 요청 프로세스 순서 : 요청 → 로드(4개 LoRA + 베이스 모델 / GPU에 로드) → 컴퓨팅…(병렬로 계산 수행으로 수백개, 수천개의 미세조정 모델을 로드가 가능함)

▶ 마이크로소프트[AI(인공지능)] – 프로덕션의 ‘AI(인공지능)’ 출력 처리

– 자연어 출력 : 프로그래밍에서는 자연스럽지가 않음.

– 사용자 프롬프트(질문) → LLM(대형 언어 모델 – 답변) ☞ 시스템에서 처리하기가 어려움

– 일관된 형식이 지정되지 않기 때문

▶ 마이크로소프트[AI(인공지능) 연구]

– 문제 : 언어 모델이 작을 수 있느냐?

☞ 그래프(수평 : 훈련 토큰 / 수직 : 모델 사이즈)

– GPT-3 모델 : 1,750억 개(매개 변수), 3,000억 개(훈련 토큰)

– Llama 2 모델 : 70억 개(매개 변수), 2조 개(훈련 토큰)

– LLM(대형 언어 모델)

☞ 컴팩트한 데이터 세트로 더 작은 모델의 가능성

– 사람 : 10억 개의 세계만 읽음(1분 : 100 단어, 30년 기간 중 하루 16시간)

– 언어 모델 : ‘수 조’개의 단어를 읽음(모든 것을 외움, 순수한 정보는 배우기 쉬우나 ‘논리 / 액션(요약, 재작성)’ 등에는 어려움이 있음.

★ 가설 : 훈련 데이터세트에서 덜 중요하게 여겨지는 것(소형 모델, 쉬운 훈련, 저렴한 추론 비용)

[마이크로소프트 – AI(인공지능) 플랫폼]

▶ 마이크로소프트 – AI(인공지능) 플랫폼 → ‘전 계층에 이르는 스택 개발’에 투입한 혁신의 전체 스택

① 마이크로소프트 제품군 : CO-Pilot, Bing, 아웃룩, 쉐어포인트, 팀즈, 오피스(워드) 등등 → (소비자 & 파트너)

②-1. Azure-AI(애저-인공지능) 서비스 & 플랫폼(서비스) : 인지 검색, 문서 지능, 비디오 인덱서, Azure-OpenAI(애저-오픈AI) 서비스, 비전, 연설, 언어, 컨텐츠 안전 시스템

②-1. Azure-AI(애저-인공지능) 서비스 & 플랫폼(플랫폼) : 애저 머신-러닝

③ 인프라스트럭쳐 : Project Forge(프로젝트 포지)

④ H/W & 서비스 : 애저 가상화 계층 / CPU, GPU, 오프로딩 H/W, 엣지 디바이스

⑤ 데이터센터 : 데이터센터

[마이크로소프트 – 서버(데이터센터)]

▶ 마이크로소프트[지속 가능형의 ‘서버(데이터센터)’ 발전] – PUE(Power Usage Effectiveness – 전력 효율성 지수)의 진화

– 1세대(1989년 – ‘2.0+’) : ‘Colo’ 시설에서 시작

– 2세대(2007년 – ‘1.5 ~ 1.8’) : 밀도

– 3세대(2009년 – ‘1.4 ~ 1.6’) : 방지(윈도우 애저 클라우드 공개)

– 4세대(2012년 – ‘1.1 ~ 1.3’) : 모듈러 방식(윈도우 애저 클라우드 → 마이크로소프트 애저 클라우드로 변경)

– 5세대(2015년 – ‘1.17 ~ 1.25’) : 하이퍼-스케일 규모

– 6세대(2017년 – ‘1.17 ~ 1.19’) : 확장가능 타입 폼팩터

– 7세대(2018년 – ‘1.15 ~ 1.18’) : 발라드 파워

– 8세대(2018년 – ‘1.15 ~ 1.18’) : 전력 수확

♧ 2020년 ~ 2023년 기간 : 내부의 전기 시설을 재정비(단순화, 안정화, 효율성 + 고온도 작동)

– 9세대(2020년 – ‘1.15 ~ 1.18’) : 신속형 배포 타입 ‘서버(데이터센터)’

– 10세대(2020년 – ‘1.12 ~ 1.14’) : 다중 가용성 & 지속 가능성

– (신규)11세대(2023년 – ‘1.09 ~ 1.17’) : AI(인공지능) GPU 가속기

※ 서버(데이터센터)에 투입되는 에너지 = 1와트의 에너지가 발생

※ 냉각 방식 : 공냉 방식, 액체 방식 등 다양성 냉각 방식도 설계

※ 운용 방식 : ‘유연성 용량’을 도입[서버(데이터센터)의 초과 백업 전력을 구독함의 의미]

★ 전원 유틸리테 장애 발생 시, ‘서버(데이터센터)’의 해당 부분에 전원이 공급되지 않음.

▶ 마이크로소프트[서버(데이터센터)] – MW(메가와트)

– 고객사에게 유연한 전력 용량을 제공하지 않음

– 대신 이 용량을 지원하기 위해서 워크로드를 최적화(전체적으로 효율적으로 운영)

– 마이크로소프트의 신형 ‘서버(데이터센터)’ 규모 & 용량 : 9MW 공간(2.4MW 용량 시설을 제공)

▶ 마이크로소프트[서버(데이터센터)] – 백업 전력

– 오늘날 ‘백업 발전기’ : 화석 연료를 연소하여 전력을 발생(디젵 발전기)

– ‘Proton Exchange Membrane(PEM – 양성자교환막)’ 수소연료전지 : ‘전기, 발열, 물’을 생성하는 화학 반응에서 결합(수소 + 산소)

– 2013년 : 서버(데이터센터)의 전력 공급을 위한 다양성의 ‘연료 전지’를 모색함

– 2018년 : ‘수소 연료 전지’에 관심을 증폭함(수소를 흡수 후 ‘양성자’ + ‘전자’를 분리)

☞ ‘Proton Exchange Membrane(PEM – 양성자교환막)’ 수소연료전지의 특징

– 연소 없음

– 미립자 물질이 없음

– 탄소 배출 제로

▶ 마이크로소프트[서버(데이터센터)] – ‘수소 연료 전지’의 스케일 확장(KW – 킬로와트)

– 2018년도 : ’10KW 용량’부터 시작 → 당시 개발하는 데 어렵게 했던 이유(비용이 많이 드는 과정)

– 용량 확장 : 백업을 통한 ’50KW 용량’을 전력 공급 시작

– 2020년 : 250KW로 옮겨서 전력 공급[디젤 발전기 백업 전력 목표 용량(총 48시간 연속 서버)을 10개의 랙에 공급]

– 2022년 : 3MW(메가와트) 규모의 ‘백업 전력 공급 시스템’을 구매(전체 테스트 완료 및 수증기로 배출됨

※ H/W 벤더사 & 설계사와 협력하여 구축(목표) : ‘비용의 감소 및 표준화’, ‘규모 등급별 제작’으로 모든 사람들이 활용하는 것.

※ 또한, 마이크로소프트가 ‘친환경 기반 서버(데이터센터)’를 구축하기 위한 노력임.

▶ 마이크로소프트[서버(데이터센터)] – 내부 냉각 구조

– CPU 트렌드 : 그래프[수평 : 연도(1990 ~ 2022) / 수직 : CPU 전력(와트 – 0 ~ 350)] → 시간이 지남에 따른 많은 에너지(와트)를 소모함

– GPU 트렌드(엔비디아) : 그래프[수평(제품군) : P40, V100, A100(450W 미만), H100(750W) / 수직 : GPU 전력(와트 – 0 ~ 750)] → CPU보다 훨씬 더 많은 에너지(와트)를 소모함

– 직면한 과제 : CPU & GPU의 발열 문제

– 공냉 냉각 방식 : 효율적이지 않음(1와트의 에너지 냉각 시 더 많은 양의 공기를 유입)

– 수냉 냉각 방식 : 수냉 보조(‘냉각판’ 냉각 방식) → Azure MAIA(에저 마이아) AI 가속기 도입

※ 마이크로소프트, 커스텀 ‘Azure MAIA(에저 마이아) AI(인공지능) 가속기’ 서버 랙 세부사항

– 신규 샤시 개발(랙 옆에 위치 – 사이드킥) : 반도체를 수냉 냉각으로 발열을 제어

– 커스텀 서버(데이터센터) 보드 : 냉각을 위해 왼쪽 하단에서 ‘수냉 케이블’이 올라옴(수냉 ‘흡입출구’가 있음) → 폐쇄 회로 시스템으로 수냉 효율성도 탁월함

– 가속기 모듈 : 상단이 벗겨진 상태에서 해당 모듈을 통하여, 수냉 유입(유출)을 볼 수 있음.

▶ 마이크로소프트[서버(데이터센터)] – 내부 냉각 구조(미세유착 냉각 방식)

– 수냉 ‘냉각판’ 방식(왼쪽) : 튜브, 냉각판, 파이프를 통하여 수냉이 유입(유출) 과정을 통하여 발열을 식힘

– (신규)미세유착 냉각 방식 : 냉각판을 통과하는 대신 물이 부품에 ‘직접 접촉 및 흐름’이 가능한 반도체, 방식, 공간을 실제로 에칭함

☞ CPU[8세대 인텔 코어 i7 8700(95W TDP)] : CPU 히트스프레더를 분해 및 코어 다이에 ‘유체 공급 튜브’를 커스텀 접합 및 연결하여 냉각하는 방법도 적용함 → 오버클럭킹 및 215와트의 전력 생산으로 ‘미세유착 방식’으로 냉각을 재현함

★ 미세유착 냉각 방식 세부 구조

– 구성 요소 : 인터포저, 반도체,(H/W, FPGA), 수냉 유입구, 수냉 유출구

– ‘3D 분해’ 구성 : 엇갈림(? – 의역입니다) 방식 초소형 쿨링 냉각판 : 200um[1개당 쿨링핀 높이 – um(마이크로미터)], 마이크로핀 방열판

※ 발열 저항 & 폼팩터의 상당한 감소를 자랑함

※ 특수 발열 냉각 시스템 방식으로 최대 성능을 향상(2배 ~ 3배) 및 제곱센티미터당 최대 1,000와트의 플럭스 값을 지원

▶ 마이크로소프트[서버(데이터센터)] – 서버(데이터센터) GPU & 네트워크

– ‘고대역폭 & 저지연 대기시간’의 ‘인피니밴드 Back-End 네트워크’로 연결된 GPU 클러스터

– 인피니밴드 ‘Back-End’ 네트워크 : 서버 간에 ‘1.5 마이크로초’의 지연 시간으로, 각 개별 VM에서 초당 최대 3.2T가 절약됨

– 표준 프리미티브 지원(해당 GPU의 제공 라이브러리 – 가중치 & 매개변수) : MPI, NCCL

[마이크로소프트 – 서버(데이터센터) 인프라스트럭쳐]

▶ 마이크로소프트[서버(데이터센터)] – 오프로드를 통한 인프라스트럭쳐의 가속화

① 전통적인 인프라스트럭쳐(네트워크, 스토리지, I/O, 호스트 OS)

– 호스트 OS : 스토리지, 네트워크, 에이전트

– 소비자 워크로드 : VM(64개의 가상 CPU)

※ VM에서 H/W와 직접 통신하지 않고, 중간에 S/W 오버헤드가 발생한다는 것을 의미함

※ 해당 I/O 처리를 수행하는 동안 서버에서 많은 CPU를 소모함

② 오프로드 방식 인프라스트럭쳐

– I/O 가속 변환 계층

– 소비자 워크로드 : VM(192개의 가상 CPU)

– 보안 & 리소스 경계(애저 부스트) : 오프로드 가속화(에이전트 + 스토리지 + 네트워크)

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부]

– 높은 스택 단계 : AI(인공지능) 모델의 제공 및 훈련을 진행하는 방법

– 코드명 : Project Forge(프로젝트 포지) → 공식 브랜드명은 미정

– 모든 내부 교육 및 추론 워크로드를 실행하는 장소임

★ Project Forge(프로젝트 포지) 세부사항

– ‘Azure(애저) 클라우드’ 전체의 서버리스 워크로드 인식 글로벌 스케줄링

– 신뢰성이 높고 효율적인 AI 인프라스트럭쳐

– 워크로드를 위한 인프라스트럭쳐 및 환경 추상화

– 엔비디아 ‘H100’ 텐서 코어 GPU가 필요함

– 글로벌 스케줄러(투명한 선점, 확장 & 축소, 실행) : 모든 Azure 클라우드 지역의 용량을 볼 수 있음[모든 지역에서 최신(최고) 기능 사용이 가능한 것은 아님]

♧ 구성요소 : ‘훈련 & 추론’ → ‘애저 머신-러닝’, 전역 스케줄러, 신뢰성 시스템, AI(인공지능) 가속기 추출

① 신뢰성 시스템 : 자동 복구, 장애 조치, 지불, 재개, 이주, 스케일링, 투명성 기반 체크포인트

② AI(인공지능) 가속기 추출 H/W : CPU, GPU, FPGA, ASIC

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] – 글로벌 리소스 관리자

– 용량의 처리화 : 물리적 → 가상화

☞ 기존 방식

– 각 팀은 자신의 용량만 사용이 가능함

– 용량을 모두 사용하지 않으면, 초과 용량분은 낭비됨

– 다른 팀의 GPU는 사용 접근이 불가능함

☞ 신규 방식

– 예약 포함된 단일 용량 공간(프리미엄 등급)

– 표준, 기본 등급의 초과 구독

– 팀은 정해진 용량이 아닌 가상 용량 클러스터를 보유하게 됨.

☞ Global Pool(글로벌 공간) 보기

– 총 사용량(프리미엄 + 스탠다드 + 기본)

– 예약 용량 사용량(프리미엄)

※ 단일 풀 유무에 관계없이 훈련 활용

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] – 신뢰성 시스템

– 최대 효율성을 실현하는 열쇠

– 수행하는 방법 : 투명 체크포인트를 사용

– 큰 작업의 수행하는 경우 : GPU & 서버에 오류 발생 시 ‘체크포인트’ 지점 시점으로 롤백이 가능함

★ 투명성 체크포인트의 구조

– 모델 훈련 ↔ 훈련 시간

– 체크포인트 1 ↔ 체크포인트 2(장애 조치) / 체크포인트 2(일시정지 & 재개) / 체크포인트 4(유예) / 체크포인트 5(높은 우선순위 작업의 선점) / 체크포인트 6(스케일링)

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] – 장치 프록시

① CPU 주소 공간 : 프레임워크, 라이브러리 도우미, 사용자 코드 / 디바이스 API(CUDA, ROCm, MAIA) → 디바이스 프록시 클라이언트 & 동적 차단

② (추가)디바이스 프록시 : 메모리 관리, 로그 / 릴레이, 시간 배분 / 디바이스 API(CUDA, ROCm, MAIA)

③ 가속기 H/W(GPU ,FPGA, ASIC) : 디바이스 메모리(RAM)

※ ① + ② = 공유 메모리 채널

▶ 마이크로소프트(애저 클라우드]

① 마이크로소프트[애저 클라우드(애저 부스트)] – 원격 스토리지

☞ 기존 방식

– VM 사용자 → SCSI로 ‘호스트’에 접근

– 호스트(VM 버스, Azure S/W, NDIS + 하이퍼-V & 가상화) → 원격 스토리지에 접속

☞ 신규 방식

– VM 사용자 → NVMe로 접속(애저 부스트)

– 애저 부스트 → 호스트 및 원격 스토리지에 접속

– 호스트(Azure S/W, NDIS) → 원격 스토리지에 접속

※ 애저 부스트의 재설계를 통한 장점

① IOPS 향상(650,000K) : 이전 방식보다 2배 증가

② 처리량 향상(12.5GB/s) : 이전 방식 보다 25% 증가

② 마이크로소프트[애저 클라우드(애저 부스트)] – 로컬 스토리지

☞ 기존 방식

– VM 사용자 → SCSI로 “호스트”에 접근

– 호스트(VM 버스, Azure S/W, 하이퍼-V & 가상화) → 로컬 SSD에 접속

☞ 신규 방식(애저 부스트 SSD)

– VM 사용자 → NVMe SSD 컨트롤러로 접속

– 보안 & 리소스 경계

※ 애저 부스트 SSD의 재설계를 통한 장점

① IOPS 향상(3,800,000) : 이전 방식보다 7.4배 증가

② 처리량 향상(로컬 / 임시 저장소 – 17.2GB/s) : 이전 방식 보다 4.3배 증가

③ 마이크로소프트[애저 클라우드(애저 부스트)] – 네트워킹

– 처리량 : 최대 200Gbps

– 서비스 처리율 : 9배 개선 → 해당 구성 요소를 제거함으로써 가상화 워크로드에 영향을 미치지 않으면서 서비스 제공이 가능함

– 탄력성 기반 ‘듀얼 TOR’

☞ 접근 방식

– VM 사용자 : 호스트 및 애저 부스트로 접속

– 애저 부스트 : SoC 반도체, TOR 1 & TOR 2

– 호스트 : VM 버스, Azure S/W, NDIS + 하이퍼-V & 가상화

④ 마이크로소프트[애저 클라우드(애저 부스트)] – VM(가상화 머신)

(공식 발표!)엔비디아 GPU 기반 ‘마이크로소프트 애저 기밀 컴퓨팅 VM’

– 서버(데이터센터) GPU “신규 VM” : Azure “NCCv5 VMs”(프리뷰 버전)

– 서버(데이터센터) GPU(신규) : H100 텐서 코어 GPU

① CPU 구성 요소 : TEE VM(애플리케이션, 유저 모드 라이브러리, 커널 모드 GPU 드라이버, 게스트 OS)

② GPU 구성 요소 : TEE[PCI-익스프레스 PF, 애플리케이션, 컴퓨팅 엔진(2개), DMA, 비디오, L2 캐시 메모리, HBM 메모리, GSP, FSP, Fuses]

③ 하이퍼바이저 가상화 : CPU & CPU 바이오스

※ ① ↔ ② : 메세지 암호화 적용

[마이크로소프트 – 슈퍼컴퓨터]

▶ 마이크로소프트[서버(데이터센터)] – 슈퍼컴퓨터

– 2020년 출시[AI(인공지능) 슈퍼컴퓨터(엔비디아 V100 GPU)] : 10,000개 이상 GPU 탑재(상위 5대 슈퍼컴퓨터와 비교 가능)

– 2023년 공개[AI(인공지능) 슈퍼컴퓨터(엔비디아 H100 GPU)] : 14,400개 이상 GPU 탑재[‘TOP 500’ 순위 중 세계 3위)

– (실제 2023년도의 시스템) : 좀 더 큰 슈퍼컴퓨터!

▶ 마이크로소프트[서버(데이터센터)] – 슈퍼컴퓨터

– 마이크로소프트 애저 클라우드 VM : ‘ND H100 v5 VM’

– 싱글 H100 GPU(80GB HBM3 메모리 탑재)

– 멀티 H100 GPU(NVSwitch + NV-Link) : 8개 GPU 연결

– 멀티 H100 GPU & ‘엔비디아 퀀텀-2 CX7 인피니밴드’ : ND v5 VM(100대), H100 GPU(1,000개)

☞ 마이크로소프트 애저 VM ‘ND H100 v5 VM’ 사양

1. 서버(데이터센터) CPU : 인텔 4세대 제온 스케일러블 CPU

2. 서버(데이터센터) GPU : 엔비디아 H100 텐서 코어 GPU * 8개(차세대 NV스위치 및 NV링크 4.0을 통한 상호 연결)

3. 서버(데이터센터) RAM : DDR5 DIMM 4800Mhz의 16채널

4. 네트워크 및 대역폭

① GPU 대역폭(엔비디아 퀀텀-2 CX7 인피니밴드 – 400Gb/s)

② VM 대역폭(VM당 3.2TB/s의 비차단 Fat-Tree 네트워크)

③ NV스위치 및 NV링크 4.0(이전 3.6 포함)의 각 VM 내 8개 로컬 GPU 간의 ‘TB/s’ 이중 대역폭

▶ 마이크로소프트[서버(데이터센터) GPU – 기밀 컴퓨팅]

– 전체 수명 주기동안 데이터를 보호

☞ 기존 암호화

– 미사용 데이터 암호화: Blob Storage, 데이터베이스 등에 저장될 때의 비활성 데이터

– 전송 중 데이터 : 비신뢰성의 ‘공용 또는 사설 네트워크’ 사이에 흐르는 데이터

☞ 기밀 컴퓨팅

– 사용 중인 데이터 관리(보호 / 암호) : RAM에 있는 동안의 계산 중에 사용 중인 데이터

▶ 마이크로소프트[서버(데이터센터) GPU] – H100 GPU(벤치마크 – MLperf)

– 2023년 초 → 이전 세계 기록[OpenAI(GPT3 모델) – 1억 7,500만개 매개변수) : 10.9분 소요

– 2023년 3월(BERT 언어 모델 – 3억 5천만개 매개변수) : 5.4분 소요(모델 훈련 소요시간)

– 2023년 10월[OpenAI(GPT3 모델 훈련)] 4.0분 소요(1,344대 ‘ND H100 v5 VM’을 가동) – 신기록

※ 추가 신기록(퍼블릭 클라우드 – 가상화) : OpenAI(GPT3 모델 훈련) ☞ 3.92분 소요(2%의 성능 오버헤드에 불과)

▶ 마이크로소프트[서버(데이터센터) GPU – AMD Instinct(인스팅트) MI300X]

– 서버(데이터센터) GPU 신규 VM : ND MI300X V5

– 싱글 GPU(인스팅트 MI300X) : HBM3 메모리(192GB) → LLM(대형 언어 모델) 실행이 가능함

– 멀티 GPU(인스팅트 GPU 플랫폼 – 8개 MI300X GPU) : 인피니티 패브릭 3.0(로컬 GPU 간)

– 멀티 GPU(인스팅트 GPU 플랫폼 – 8개 MI300X GPU) & ‘엔비디아 퀀텀-2 인피니밴드’ : GPU당 ‘400 기가비트’ 전용 링크

☞ 서버(데이터센터) GPU(신규) 제원 – “AMD Instinct(인스팅트) MI300X(Together We Advance_Advancing AI 컨퍼런스)”

1. AMD Instinct(인스팅트) MI300X 서버(데이터센터) GPU

– 3rd CDNA “서버(데이터센터) GPU 마이크로아키텍처

– “생성-AI(인공지능)”의 발전에 특화된 GPU

– 트랜지스터 : 1530억개

– 제조공정 : 5nm & 6nm

– XCD(가속기 컴플렉스 다이) CU(3rd CDNA) : 최대 304개 탑재(코어 개수 : 64개 기준 19,456개)

– I/O 다이 : 최대 4개 탑재[AMD 인피니티 캐시 메모리(256MB) 탑재]

– 메모리(HBM3) : 192GB(대역폭 : 5.3TB/s)

※ AMD Instinct(인스팅트) MI300X GPU 가속기 – “생성-AI(인공지능)”의 리더쉽

2. AMD Instinct(인스팅트) GPU 플랫폼

– 서버(데이터센터) GPU : AMD Instinct(인스팅트) MI300X * 8개

– 메모리 용량의 리더쉽 : 192GB * 8개 : 최대 1.5TB

– 4세대 AMD 인피니티 패브릭

– 산업 표준 디자인(OCP 인프라스트럭쳐)

[마이크로소프트 – 커스텀 AI(인공지능)]

▶ 마이크로소프트[커스텀 AI(인공지능) – 비디오 가속기] – 팀즈 통화

– 실행 순서 : 재생 → 디코딩 → 사전 처리 → 훈련 & 추론 → 인코딩 → 사용자 단말기

– 실행 순서 부문(GPU) : ‘사전 처리 → 훈련 & 추론’ ☞ 값이 매우 비싸고, 많은 전력을 소모함

– 효율성 기반 트랜스코딩 : 저지연 대기 시간 범위 & 극도로 낮은 전력으로 사용

– 커스텀 비디오 가속기 : AI(인공지능)의 디코딩 처리 부문 양쪽에 디코딩 & 인코딩을 모두 처리 설계

– 비디오 스트림 위에 AI(인공지능)으로 처리.

▶ 마이크로소프트(벤치마크) – 비디오 가속기

– 경쟁사 GPU(가속기) : 엔비디아 H100 GPU(왼쪽) vs 마이크로소프트 Azure-MAIA(애저 마이아 – 오른쪽)

– 벤치마크 방식 : FFMpeg 비디오 스트림 처리과정 동안의 에너지 소모량 측정(초당, 와트당 프레임)

– 결과 : [왼쪽 : 35 FPS] / [오른쪽 : 150(168) FPS] ☞ 커스텀 반도체 사용 시 최대 5배 효율성이 상승함

▶ 마이크로소프트[H/W – 커스텀 AI(인공지능) 가속기]

– Azure MAIA(애저 마이아) 커스텀 AI(인공지능) 가속기(Azure MAIA 100)

– AI(인공지능) 가속기 제조공정 : 5nm

– AI(인공지능) 가속기 탑재 트랜지스터 : 1,050억개

– 애저 클라우드의 LLM(대형 언어모델)의 교육 & 추론에 특화 및 최적화

– 서버 랙, 반도체, S/W = 통합 시스템

– ‘클라우드 AI(인공지능’의 워크로드 특화로 설계

※ 마이크로소프트의 Azure MAIA ‘통합 SoC’ 종합 설계 장비 실물을 공개하였습니다!

[마이크로소프트 – S/W]

▶ 마이크로소프트[S/W – Azure MAIA(애저 마이아) S/W 스택]

☞ 구성 요소

① 모델 & 애플리케이션

② AI(인공지능) 프레임워크 : (예시)PyTorch, ONNX 런타임

③ MAIA SDK : 프로그래밍 모델(MAIA API, 트리톤), 컴파일러(트리톤, ONNX 그래프, MAIA 코어), 개발자 도구(프로파일러, 디버거, 모니터링), 라이브러리(기본 & 융합 커널, 컬렉티브), 런타임

④ MAIA AI(인공지능) 가속기

▶ 마이크로소프트[S/W 스택(비전) – H/W 등급 ‘AI(인공지능)’ 개발의 전반적 관점]

– 모델 & 애플리케이션

– AI(인공지능) 프레임워크 : (예시)PyTorch, ONNX 런타임

– 커스텀 커널 : 다양한 ‘AI(가속기, GPU) H/W’ 과제는 커스텀 커널을 작성[AI(인공지능)을 최적화하기 위해서 호출]

– Triton(트리톤) 프로젝트 : OpenAI와 파트너쉽 체결(H/W 추상화 및 도메인별 언어로 커널 개발 지원) → 효율적 방법으로 CUDA로 컴파일

▶ 커널 라이브러리

– 엔비디아 GPU[Compute Unified Device Architecture(CUDA)]

– AMD 인스팅트 GPU[Radeon Open Compute platform(ROCm)]

– 마이크로소프트 Azure-MAIA(애저-마이아) AI 가속기(MAIA API)