OCulink eGPU는 정말 4090 성능을 뽑지 못하는가?

OCulink eGPU는 정말 4090 성능을 뽑지 못하는가?



급한 분들을 위한 요약 :

7840u라는 저전력 CPU임에도 불구하고 4K 게이밍 성능은 XG Mobile 4090, 데스크탑 4080 이상의 성능은 뽑고, 실제 데스크탑 4090 성능의 바로 턱 아래니 걱정 안 하셔도 됩니다.

1. 구축을 결심한 계기

eGPU는 수년 전에 HP Omen Accelerator 등을 사용해봐서 그 한계와 성능을 알고 있었고, 금년에 OCulink를 사용한 eGPU 구축 이야기를 보면서, 언젠가 한번 구축을 해봐야 겠다라는 생각을 합니다. 이유인 즉슨, 이후 이사갈 집의 거실이 넓어 새로 큰 TV를 큰맘먹고 구매한 시점서, 거기에 맞는 콘솔.. 을 구매할까 하다가, 엑박 게임 패스랑 스팀 라이브러리가 제게는 여전히 접근성이 좋았던지라 거실 게임 PC를 고려하게 됩니다.

이미 GPD WIN 4 (2022) umpc를 사용하는 입장서 umpc를 게임기 및 노트북으로 잘 사용하는 중이라. 야외서 하던 게임을 집에서는 Oculink eGPU를 붙여 게임 PC로 써서, 큰 TV화면으로 게임을 할 계획을 올해 10월에 하게 됩니다.

데스크탑에 이미 4090을 꽂고 게임을 하고 있었으나, 데스크탑은 작업용도도 같이 겸용하기에 TV에 붙여 쓰기보다는 모니터에 붙이고 책상에 앉아 일 겸 게임을 하는 용도라 4090 4K 테스트용으로 TV에 몇번 붙이는 용도로 잠깐 이동만 해서 붙여봤습니다. (프렉탈 메쉬파이2 케이스. 무겁습니다.)

1. 1 기존 Thunderbolt eGPU의 한계

과거 Omen 을 쓸 때 느꼈던 eGPU의 한계는 다음과 같았는데

1) 대역폭 문제

Thunderbolt 3은 40Gbps 속도 제한이 있는데, 이마저도 실제 풀 속도를 뽑지 못합니다.(당시 PCIe 3.0×4) Omen을 쓰던 시절은 지포스 3000대 쓰던 시절이라서 사실 이 부분은 당시 큰 이슈가 되지 않았으나, – 당시에는 2070s 를 꽂아 썼었습니다 – 이후에는 문제가 될 거라 봤습니다.

2) (당시, 그리고 현재) Thunderbolt 특성상 추가 오버헤드가 있었던 점

USB와 같이 Thunderbolt는 별도 컨트롤러가 필요한 별개의 인터페이스입니다. 다른 인터페이스를 거쳐서 PCI용 기기와 통신하는거라 오버헤드가 있고, 이는 필연적으로 속도와 레이턴시 문제도 같이 가져다 줍니다. 이는 불특정한 프레임 드랍을 야기하는 이유 중 하나입니다. 이건 추후 Thunderbolt 5에서 Pass-Through 모드가 구현된다 하여 해결될 듯 하지만 이게 언제 실 제품화 되서 배포될지는 아직 요원한 상태입니다.

1. 2 OCulink란?

이 와중에, umpc 제조사 GPD에서는 갑자기 2023년부터 OCulink를 밀기 시작합니다. 처음 발표될 때는 눈여겨보던 WIN4(2023)에서 잘 쓰던 USB-A포트를 제거하고 OCulink포트를 넣는 이유로 발표 초기에는 안중에도 없었습니다. 하지만 추후 거실 게임 PC를 고려하며, eGPU를 위한 Oculink를 보고 생각을 바꿔보게 됩니다.

OCulink는 단순히 말하면 SFF를 위한 PCIe 연장선 인터페이스로, 역할은 그냥 라이저 카드를 생각하시면 됩니다. 찾아보면 의외로 오래전부터 서버에서부터 쓰던 인터페이스인데, 요는 PCI 직결이 된다는 겁니다. 다만 PCI 슬롯 크기를 생각하시면 짐작 가겠지만 16레인이 아니라 8, 4레인을 지원하며 보통 umpc 수준의 포트 크기면 4레인을 지원합니다. 여하간 라이저 카드 역할인 이유로, 특별한 드라이버도 요구하지 않습니다. 단 전원 관련해서 fix patch가 하나 있긴 합니다.

물론 진짜 PCI 슬롯이기에 썬더볼트마냥 PnP는 지원하지 않고, 장치 관리자서 직접 장치 추가/제거를 해야 하지만 왠만해서는 전원 끄고 결착/해제하는 것이 제일 낫습니다.

2. 성능 예상

4090을 꽂았을때 발생 가능한 병목은 CPU 병목과 인터페이스에서 발생하는 병목이 있습니다.

2. 1 CPU 병목을 확인해 봅니다.

이번에 연결하려는 GPD WIN 4 (2023)에 들어간 CPU는 7840u입니다.

4.5~5GHz만 유지해준다면, 16메가 L3 캐시(근래 라이젠의 x3D시리즈가 증명해내고 있지만, 이게 크긴 합니다.)로 인한 병목외엔 큰 문제는 없을거라 예상했습니다.

이론상으론 7840u 게임 성능을 32메가 L3캐시를 들고 있는 5800x 아래 정도 5600x와 동급 또는 약간 아래 CPU 파워로 판단했습니다. – 약간 부연 설명을 하면, 캐시는 애초에 미스가 나기 시작하면 용량이 얼마건 간에 의미가 크게 줄어듭니다.

CPU별 병목은 퀘이사존서 역시 테스트한 결과가 있는데요 :


https://quasarzone.com/bbs/qc_plan/views/30590#p6

마침 5600x 4K 옵션의 성능이 딱 92%가 나오는데. 이 정도면 Oculink의 4레인 병목이 의미있나 수준으로 판단했습니다.

CPU파워가 모자를수록, GPU에 일을 시키는 것 자체가 힘에 부쳐 (하드웨어 큐) 인터페이스 속도를 다 쓰지도 못하고 GPU가 노는 사태가 벌어집니다.

CPU캐시가 모자를수록, 캐시미스가 발생하여 명령어를 다시 읽는 동안 CPU가 노는 문제가 발생하는데, 실행 파일 및 끌어쓰는 라이브러리 크기가 큰 프로그램, 일반적으로 게임이 이 상황이 더 잘 벌어집니다.

CPU가 논다면 GPU에 일을 가열차게 시키는데 문제가 생기겠죠. 대역폭이 있어도 놀리고 있다는 이야기입니다.

7840u의 성능은 애초에 4090을 100% 뽑는데에 특화되지 않았음을 인정해야 하는 상황입니다. 그래도 90%는 될거라 봅니다. 근데, 윗 링크 보다시피 대부분의 CPU도 100%는 애초에 뽑지 못하는 상황이라 그냥 그러려니 하면 됩니다.

2. 2 OCulink의 병목이 어느정도인지 확인해 봅니다.

CPU파워가 넘쳐나도 인터페이스 대역폭이 부족하면 CPU가 일을 시킬 준비를 해도 업무내용 전달이 느려 GPU가 노는 사태가 벌어집니다.

이래저래 나오는 벤치마크서 OCulink를 통해 PCIe 4.0 x 4 lane으로 연결이 가능한 걸 보고 PCIe 4.0 x 4레인은 대충 PCIe 3.0 x 8레인 또는 PCIe 2.0 x 16레인에 거의 대응되기에 PCIe 병목 벤치마크들을 찾아봅니다.

Techpowerup :


https://www.techpowerup.com/review/nvidia-geforce-rtx-4090-pci-express-scaling/28.html


에 의하면 92-94% (PCIe 2.0 x 16)

Quasarzone :


https://quasarzone.com/bbs/qc_plan/views/30747


에 의하면 게임에 따라 다르지만 90% 이상은 그래도 보통 나온다고 볼 수 있습니다. (PCIe 3.0 x 8 또는 PCIe 4.0 x 4)

이 정도는 현재로선 CPU 병목으로도 발생 가능한 수치 저하라. OCulink로 인한 성능하락폭은 의외로 감내 가능한 수준으로 판단했습니다.

2. 3 예상치 :

예상하는 eGPU로 붙은 4090의 실 성능은 85-90% 정도 수치로 잡아봅니다. CPU가 실제 게임에서는 다른 용도로도 (네트워크, 소리, 환경 리액션, 게임 내 AI, 멀티태스킹 등) 쓰이기에 실제로는 CPU 병목이 더 예상되는 상황이기 때문입니다.

3. 시도

GPD WIN4 (2023)이 12월 3주차에 오게 되면서 10월부터 준비한 테스트가 늦어지게 됩니다. PSU, 4090 FE, Oculink 보드등은 다 와서 준비가 됐는데 정작 UMPC가 늦게 와서 테스트를 늦게 해볼 수 밖에 없었습니다.

급한 마음에 이전에 쓰던 6800u WIN4의 SSD를 그대로 이식하여 써 봅니다.

다행히[?] 같은 AMD라 큰 문제 없이 드라이버들은 인식되었고 바로 PCIe4.0 x 4로  4090을 붙여 테스트가 가능했습니다.

messageImage_1703071109297.jpg

이 때 제가 6800u 세팅을 그대로 가져 간 이유로, CPU의 4 코어를 끈 상태라는걸 깨달은건 영상을 찍고 나서였습니다.

이후 크리스마스 연휴에 힘입어 클린 설치로 윈도 11을 새로 깔고 3Dmark를 돌려봅니다.

4. 결과

급한 마음에 이전 6800u에 쓰던 SSD를 그대로 새 UMPC에 이식해 드라이버 등 업데이트 없이 사용했던 결과는 다음과 같습니다.


기존 세팅이 그대로 넘어와 4코어가 꺼져 4코어/8스레드인 상태이라, 아래 클린 설치 대비 성능은 확연히 떨어지는 상태라 봅니다.

(내장 GPU만 쓴다면 전력효율등의 이유로 이쪽이 일반적으로 프레임이 높게 나옵니다.)

사이버펑크 2077 4K – 최고옵에 프레임 생성만 On

막바지 결과창에 7840u + 4090 옵션, 레이 리컨스트럭션등이 켜져있음을 알 수 있습니다.

영상 왼편에 eGPU+WIN4가 있음을 확인 가능합니다. 거듭 이야기하지만, CPU 코어를 반 꺼놓고 테스트한거라. 다시 테스트하면 오를 거라고 봅니다.

아머드 코어 4K 최고옵

TCL c845의 4K120Hz 신호는 받아도 사용 불가 문제가 발생하여(아머드 코어는 강제로 120Hz 전환을 시도해서 서로 충돌이 나더라고요), 전체 창 모드로 플레이했습니다. 이 때문에, 실 성능보다 더 낮게 결과가 나왔습니다.

이후 클린 설치 이후 3Dmark를 돌려본 결과는 다음과 같습니다.

Time Spy Extreme :

messageImage_1703436354365.jpg

PC 사양이 제대로 기록되지 않아 기록이 공개되지 않았으나, 이와 같이 나왔습니다.

18904면 19000~19500이 일반적인 데스크톱 4090 성능의 턱밑이라고 봅니다.

(PC 사양이 제대로 수집되지 않아 기록이 공개되지 않았습니다.)

Speed Way :

messageImage_1703436358523.jpg



https://www.3dmark.com/3dm/104588922

다른 테스트 결과가 필요하다면 덧글을 통해 제보해주시면 제가 게임을 소지중이고, 시간 가능할 때 테스트 해 보겠습니다.

5. 결론

OCulink를 쓴다 할때, 실제 추가로 드는 비용은 OCulink 쪽보드 (~8만원), 케이블 (~2만원) 파워(~7만원), 필요하다면 NVMe->OCulink 어댑터(3만원) 으로 현재 가격 20만원 이내에 전부 해결 가능합니다.

다만 OCulink특성상 썬더볼트처럼 전원 공급을 해주는 건 아니기에 별개의 전원 케이블을 써야 합니다.

그리고 본인 PC가 PCIe 4.0을 지원해야 하고, OCulink 포트 쪽으로 4.0을 지원해야 하고, GPU또한 PCI 4.0을 지원해야

하는데, 그렇지 않으면 성능 저하가 눈에 띄게 날 것으로 예상합니다.

아직은 대중적이진 않지만, 그래도 데스크탑 4080 또는 XG Mobile 4090 보다는 거의 2배 가까운 성능이 나오기에 4090을 부담 가능한 가격이면 무의미하진 않다고 보고 있네요. OCulink는 제품을 가리지 않고 PCIe 4레인만 낼 수 있는 슬롯만 있으면 심지어 데스크탑에도 쓸 수 있으니까요.

umpc로 외부서 하던 게임을 집에서는 4K 게임이 가능한 거치형 게임기로 쓸 수 있는 환경이라는데 의의가 있고, 가장 작은 4090 SFF PC를 하나 맞췄다 생각한다면 쓸만하다고 봅니다.

물론 4090이어야 할 필요는 없고, 그 이하

PCI 4.0을 지원하는 그래픽 카드면

무난히 구매하여 거의 성능을 뽑을 수 있습니다.

애초에 대부분의 경우 모바일 CPU의 병목 > OCulink의 병목인 상황인게 현 시점이라.. 거의 신경 안 써도 되지 않나 싶네요.

데스크탑이면 OCulink를 쓸 이유가 보통 없겠죠..?

여하간 4090을 꼽고 4080 이하 성능이 나온다는 등의 이야기는 그냥 낭설로 듣고 귓등으로 넘기시면 되겠습니다.

6. 여담

사실 WIN4 신형 수령 전에 TV 테스트를 위해 옛날 WIN4의 6800u로 스타레일을 4K 풀옵에 렌더링 해상도 0.6만 놓고 돌려봤는데 꽤 무난히 돌아가서 당황한 게 있긴 합니다.

패키지 게임 .. 아니면 이게 필요한가 좀 생각이 들긴 하더라고요.

(6800u, 4K 풀옵에 렌더링 해상도만 0.6)

윗 테스트 영상대비 eGPU가 없는, 순정 6800u 내장 GPU만으로 돌아가는 스타레일입니다.

그리고.. 환경 다 구축해도.. 소파에 앉으면 피곤한건.. 직장인..

추가) OCulink 병목보다는, 결과로 보면 결국 CPU 성능을 최대로 뽑아야 하기에 CPU 전력 인가가 포인트인 상황입니다. 이 점에서 올해 출시된 GPD Win mini는 약간 의문이 있긴 한데요 (듣기로는 20W TDP 제한이 있다고 합니다.) GPU 클럭을 강제 200Mhz로 고정시킨다 해도 제가 벤치마크에서 찍은거 처럼 CPU가 5Ghz 이상의 최대 성능을 지속해서 뽑을 수 있을진 좀 의문이긴 합니다.

7. 제품 및 기타 링크

eGPU io의 구축에 참고했던 글들 :


eGPU Community




eGPU Community



GPD 같이 OCulink포트가 있는 제품이 아닌, 없는 제품에 Oculink를 사용하기 위한

NVMe->OCulink 보드 :





amazon





출처 :https://www.clien.net/service/board/use/18494684?od=T31&po=0&category=0&groupCd=#comment-point

Scroll to Top