엔비디아의 반박이 나온지 이틀 뒤, AMD는 자사 공홈에서 다시 재반박 보도자료를 게시하였습니다.
자사 발표에서 vLLM을 사용한 이유는 모든 회사들에 공통적으로 사용할 수 있는 범용 라이브러리이기 때문이지
편파적인 비교를 위해 한 것이 아니라며, 엔비디아의 주장을 반영하여 테스트한 결과를 새로 제시하였습니다.
1.AMD 벤치마크에서 사용된 vLLM 대신 H100에서 TensorRT-LLM 사용.
2.AMD Instinct MI300X GPU의 FP16 데이터 유형 성능과 H100의 FP8 데이터 유형 성능 비교.
3.AMD에서 게시한 성능 데이터를 상대적인 지연 시간 수치에서 절대 처리량으로 전환.
— —
일단 AMD의 주장대로는, 그렇게 해 줘도 여전히 30%의 우위가 있으며, 이번 달 초 자사 발표 이후로도 지속적으로 더
최적화를 해 왔기에, vLLM 기준으로 비교시 발표 당시에 주장한 +40%보다 더 큰 +111%로 갭을 더 벌렸다 주장합니다.
처리량 뿐만 아니라 지연 시간에서도 여전히 엔비디아보다 더 낫다고 주장하며, FP8을 사용하는 경쟁사랑 달리
더 높은 정밀도의 FP16을 지원하면서도 처리량이든 지연시간이든 더 우월하다는 입장을 고수했습니다.