구글: GPU가 아닌 CPU가 AI 추론 워크로드를 주도

구글: GPU가 아닌 CPU가 AI 추론 워크로드를 주도

    오늘날의 AI 인프라는 대부분 GPU 가속 서버에 의존하는 확장에 힘입어 이루어졌습니다. 세계 최대 규모의 하이퍼스케일러 중 하나인 Google은 Google 클라우드 서비스 클라우드 내부 분석에 기록된 바와 같이 CPU가 여전히 AI/ML 워크로드의 주요 컴퓨팅임을 지적했습니다. TechFieldDay 행사에서 Google Cloud의 제품 관리자인 Brandon Royal은 연설을 통해 오늘날 AI 게임에서 CPU의 위치를 ​​설명했습니다. AI 수명주기는 훈련과 추론의 두 부분으로 나뉩니다. 훈련 중에는 끊임없이 확장되는 AI 모델을 메모리에 맞추려면 막대한 메모리 용량과 함께 막대한 컴퓨팅 용량이 필요합니다. GPT-4 및 Gemini와 같은 최신 모델에는 수십억 개의 매개변수가 포함되어 있으며 효율적으로 훈련하려면 수천 개의 GPU 또는 기타 가속기가 병렬로 작동해야 합니다.

    반면 추론에는 컴퓨팅 강도가 덜 필요하지만 여전히 가속의 이점이 있습니다. 사전 훈련된 모델은 새로운 데이터에 대한 예측을 위해 추론 중에 최적화 및 배포됩니다. 훈련보다 컴퓨팅이 덜 필요하지만 실시간 추론에는 지연 시간과 처리량이 필수적입니다. Google은 GPU가 훈련 단계에 이상적이지만 모델은 종종 최적화되어 CPU에서 추론을 실행한다는 사실을 발견했습니다. 이는 다양한 이유로 CPU를 AI 추론의 매체로 선택하는 고객이 있다는 것을 의미합니다.

퀘이사존

퀘이사존

    비용과 가용성의 문제일 수 있습니다. CPU는 고급 GPU나 특수 AI 가속기보다 저렴하고 쉽게 사용할 수 있는 경향이 있습니다. 많은 애플리케이션에서 CPU는 저렴한 비용으로 추론을 위한 충분한 성능을 제공합니다. CPU는 유연성도 제공합니다. 대부분의 시스템에는 이미 CPU가 있으므로 더 작은 AI 모델을 위한 쉬운 배포 경로를 제공합니다. GPU에는 특수 라이브러리와 드라이버가 필요한 경우가 많지만, CPU 기반 추론은 기존 인프라를 활용할 수 있습니다. 이를 통해 AI를 기존 제품 및 워크플로우에 더 쉽게 통합할 수 있습니다. 지연 시간과 처리량의 균형도 작용합니다. GPU는 추론을 위한 대규모 병렬 처리량에 탁월합니다. 그러나 CPU는 실시간 요청에 대해 더 낮은 대기 시간을 제공할 수 있는 경우가 많습니다. 1초 미만의 응답이 필요한 온라인 추천과 같은 애플리케이션에는 CPU 추론이 선호될 수 있습니다.

    또한 추론을 위한 CPU 최적화도 빠르게 진행되고 있습니다. 더 빠른 클럭, 더 많은 코어, Intel AVX-512 및 AMX와 같은 새로운 지침으로 인해 성능이 계속 향상되고, AI 워크로드는 CPU만으로도 원활하게 실행될 수 있으며 서버가 단일 소켓 이상으로 구성된 경우 특히 좋습니다. 더 많은 AI 엔진이 존재하며 서버는 수십억 개의 매개변수 크기를 가진 AI 모델을 효율적으로 처리할 수 있습니다. 일반적으로 Intel은 최대 200억 개의 매개변수 모델이 CPU에서 제대로 작동하는 반면 더 큰 매개변수는 전문 가속기로 이동해야 한다고 지적합니다.

    GPT-4, Claude, Gemini와 같은 AI 모델은 1조 개 이상의 매개변수 크기에 도달할 수 있는 거대한 모델입니다. 그러나 다중 모드이므로 텍스트와 비디오를 처리합니다. 실제 기업 워크로드는 고객 지원 질문에 답하기 위해 회사의 로컬 문서를 추론하는 AI 모델일 수 있습니다. GPT-4와 같은 모델을 실행하는 것은 해당 솔루션에 과잉이 될 것입니다. 대조적으로, LLAMA 2 또는 Mistral과 같은 상당히 작은 모델은 타사 API 액세스 없이 유사한 목적을 예외적으로 잘 수행할 수 있으며 대신 몇 개의 CPU를 사용하여 로컬 또는 클라우드 서버에서 실행될 수 있습니다. 이는 총소유비용(TCO)을 낮추고 AI 파이프라인을 단순화한다는 의미입니다.

※ 퀘이사존 공식 기사가 아닌 해외 뉴스/기사를 번역한 것으로, 퀘이사존 견해와 주관은 포함되어 있지 않습니다.





Scroll to Top