Twee bepalende kenmerken vallen op bij de NVIDIA DGX Spark: 128 GB verenigd geheugen in een desktop-eenheid van $ 4000, en een ingebouwd 200 Gb netwerk van datacenterkwaliteit. De snelle fabric onderscheidt hem van reguliere werkstations, waardoor clustering van meerdere knooppunten mogelijk is, ooit exclusief voor in racks gemonteerde servers. In deze review worden gedistribueerde inferenties gemeten over Dell-, GIGABYTE- en HP Spark-varianten in 200GbE-clusters met twee knooppunten over verschillende modellen en workloads. Het analyseert ook pijplijnparallellisme (PP), een alternatieve splitsingsmethode die beter presteert dan NVIDIA's standaard tensorparallellisme (TP).
200 Gb netwerkfabric
Elke Spark is uitgerust met twee QSFP56-kooien, gecombineerd met een geïntegreerde ConnectX-7 SmartNIC. Beperkt door PCIe Gen5 x4-bandbreedte, bedraagt de bruikbare netwerksnelheid 200 Gb, waarbij één poort voldoende is voor volledige bandbreedte; de tweede poort biedt topologieflexibiliteit. Er zijn drie veelgebruikte configuraties beschikbaar: directe Spark-to-Spark 200Gb-verbindingen, switch-free ringtopologie via dubbele 100Gb-poorten en hybride clustering met NVMe-oF snelle opslagtoegang. NVIDIA verkoopt desktops met één eenheid, gevalideerde clusters met twee knooppunten en nieuw uitgebrachte opstellingen met vier knooppunten. De dual-Spark-configuratie is het meest praktisch voor gevolgtrekking in productiestijl en de focus van deze test.
Reden voor Spark Clustering
Het belangrijkste voordeel is het uitbreiden van de modelcapaciteit: twee gekoppelde Sparks kunnen modellen met 120B-parameters uitvoeren die de geheugenlimieten van één eenheid overschrijden. Belangrijker nog is dat het platform dient als een betaalbaar educatief hulpmiddel. NVIDIA ontwerpt Spark voor beginners om AI-workflows te leren, met officiële handleidingen over modelimplementatie, verfijning en PyTorch/JAX-ontwikkeling. Clusters met twee knooppunten leren bovendien parallellisme met meerdere knooppunten en analyse van netwerkknelpunten zonder dure datacenterhardware. Met name is Spark niet geoptimaliseerd voor productie-inferentie. Beperkt door geheugenbandbreedte en latentie tussen knooppunten, is de 200GbE-verbinding langzamer dan interne PCIe-verbindingen. Grotere clusters hebben te kampen met ernstige prestatievermindering, met een lage tokendoorvoer, waardoor ze beperkt blijven tot educatief gebruik in plaats van commerciële dienstverlening.
Prestatietesten: PP versus TP
Parallellisme Strategieselectie
NVIDIA gebruikt standaard TP, waarbij elke transformatorlaag over twee GPU's wordt gesplitst met frequente, alles-reducerende gegevensuitwisselingen. Daarentegen verdeelt PP modellen per laag, waarbij activeringen slechts één keer tussen knooppunten worden overgedragen. Op 200GbE-verbindingen minimaliseert PP de communicatie tussen knooppunten. Voor grote modellen met grote batchgroottes presteert PP veel beter dan TP; TP blinkt alleen uit in chatscenario's met één verzoek en lage latentie.
Tests op GPT-OSS-120B bevestigen deze kloof. Bij batchgrootte 128 haalt PP 554,69 tok/s (2,20× sneller dan TP) bij gebalanceerde werklasten, 310,63 tok/s versus 164,99 tok/s bij taken met veel prefill-taken. TP is alleen toonaangevend bij batchgrootte 1. Voor kleine modellen zoals Llama-3.1-8B domineert TP de meeste batchgroottes vanwege de lichtgewicht laagberekening, waarbij PP TP alleen bij hoge gelijktijdigheid inhaalt.
Benchmarkresultaten voor meerdere modellen (PP=2)
GPT-OSS-serie
Voor de GPT-OSS-120B overtrof HP de piekdoorvoer bij gebalanceerde (504,88 tok/s) en prefill-zware (441,63 tok/s) werklasten; GIGABYTE heeft zware decoderingstests uitgevoerd (494,37 tok/s). Voor GPT-OSS-20B domineerde Dell de gebalanceerde (976,77 tok/s) en prefill-heavy (852,39 tok/s) scenario's, terwijl GIGABYTE de decoderingstaken leidde (945,55 tok/s).
Lama 3.1 8B varianten
Met BF16-precisie leidde Dell gebalanceerde (689,53 tok/s) en decodeerzware (581,43 tok/s) workloads; GIGABYTE won zware prefill-tests (539,27 tok/s). FP4-optimalisatie verhoogde de doorvoer aanzienlijk: GIGABYTE leidde gebalanceerde (1458,86 tok/s) en prefill-zware (954,23 tok/s) taken. Voor FP8 handhaafde Dell kleine voorsprong in gebalanceerde (1105,42 tok/s) en decoderingszware (862,33 tok/s) scenario's.
Mistral & Qwen-modellen
Mistral Small 3.1 24B zag minimale hiaten: GIGABYTE piekte op 255,09 tok/s bij gebalanceerde werklasten. Voor Qwen3 Coder 30B (A3B-basis) leidde GIGABYTE zware prefill-taken (1862,40 tok/s); Dell blonk uit in decoderingsscenario's. Onder FB8-kwantisering stond GIGABYTE bovenaan de prefill-zware doorvoer (3088,62 tok/s), terwijl Dell de decoderingstaken leidde (705,77 tok/s).
Samenvatting van het piekvermogen van Dual Spark-systemen
|
Model
|
Scenario (BS – 64)
|
Dell piekoutput
|
GIGABYTE Piekuitgang
|
HP piekvermogen
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
Gelijke ISL/OSL
|
463,97 tok/s
|
497,26 tok/s
|
504,88 tok/s
|
|
GPT-OSS-120B
|
Voorvulling zwaar
|
419,56 tok/s
|
417,34 tok/s
|
441,63 tok/s
|
|
GPT-OSS-120B
|
Decodeer zwaar
|
451,18 tok/s
|
494,37 tok/s
|
474,85 tok/s
|
|
GPT-OSS-20B
|
Gelijke ISL/OSL
|
976,77 tok/s
|
952,31 tok/s
|
915,72 tok/s
|
|
GPT-OSS-20B
|
Voorvulling zwaar
|
852,39 tok/s
|
802,37 tok/s
|
757,05 tok/s
|
|
GPT-OSS-20B
|
Decodeer zwaar
|
938,65 tok/s
|
945,55 tok/s
|
865,78 tok/s
|
|
Lama-3.1-8B-Instrueer
|
Gelijke ISL/OSL
|
689,53 tok/s
|
687,48 tok/s
|
618,87 tok/s
|
|
Lama-3.1-8B-Instrueer
|
Voorvulling zwaar
|
515,45 tok/s
|
539,27 tok/s
|
463,39 tok/s
|
|
Lama-3.1-8B-Instrueer
|
Decodeer zwaar
|
581,43 tok/s
|
576,91 tok/s
|
531,07 tok/s
|
|
Lama-3.1-8B-FP4
|
Gelijke ISL/OSL
|
1427,39 tok/s
|
1458,86 tok/s
|
1413,51 tok/s
|
|
Lama-3.1-8B-FP4
|
Voorvulling zwaar
|
884,22 tok/s
|
954,23 tok/s
|
843,57 tok/s
|
|
Lama-3.1-8B-FP4
|
Decodeer zwaar
|
1008,98 tok/s
|
1007,23 tok/s
|
943,73 tok/s
|
|
Lama-3.1-8B-FP8
|
Gelijke ISL/OSL
|
1105,42 tok/s
|
1089,85 tok/s
|
1076,68 tok/s
|
|
Lama-3.1-8B-FP8
|
Voorvulling zwaar
|
759,50 tok/s
|
827,40 tok/s
|
725,51 tok/s
|
|
Lama-3.1-8B-FP8
|
Decodeer zwaar
|
862,33 tok/s
|
855,81 tok/s
|
800,78 tok/s
|
|
Mistral-Klein-3.1-24B
|
Gelijke ISL/OSL
|
249,77 tok/s
|
255,09 tok/s
|
239,09 tok/s
|
|
Mistral-Klein-3.1-24B
|
Voorvulling zwaar
|
216,01 tok/sec
|
214,38 tok/s
|
197,92 tok/s
|
|
Mistral-Klein-3.1-24B
|
Decodeer zwaar
|
238,44 tok/s
|
237,97 tok/s
|
221,41 tok/s
|
Conclusie
Dell-, GIGABYTE- en HP Spark-eenheden leveren verwaarloosbare prestatieverschillen, met kleine batchspecifieke leads. Aankoopbeslissingen moeten prioriteit geven aan chassisontwerp, thermische prestaties, garantie en after-salesondersteuning boven triviale benchmarkverschillen. De parallellismestrategie heeft een veel grotere impact dan OEM-varianten: PP presteert beter dan TP wat betreft batchgewijze inferentie, terwijl TP geschikt is voor single-stream interactie met lage latentie. De TP-aanbeveling van NVIDIA sluit aan bij de positionering van Spark als een interactief leerapparaat in plaats van een productie-infrastructuur. Een Spark-cluster met twee knooppunten dient als een betaalbaar onderwijsplatform voor gedistribueerde AI. Toekomstige tests zullen betrekking hebben op grotere clusters en end-to-end training op kleine modellen, in afwachting van de implementatie van 800Gb-switches in het laboratorium.
Peking Qianxing Jietong Technologie Co., Ltd.
Sandy Yang/directeur mondiale strategie
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zakelijke focus:
ICT-productdistributie/Systeemintegratie en -diensten/Infrastructuuroplossingen
Met meer dan 20 jaar ervaring in IT-distributie werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
“Technologie gebruiken om een intelligente wereld te bouwen”Uw vertrouwde ICT-productdienstverlener!
Sandy Yang/directeur mondiale strategie
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zakelijke focus:
ICT-productdistributie/Systeemintegratie en -diensten/Infrastructuuroplossingen
Met meer dan 20 jaar ervaring in IT-distributie werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
“Technologie gebruiken om een intelligente wereld te bouwen”Uw vertrouwde ICT-productdienstverlener!



