logo
Thuis Gevallen

NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP

Certificaat
China Beijing Qianxing Jietong Technology Co., Ltd. certificaten
China Beijing Qianxing Jietong Technology Co., Ltd. certificaten
Klantenoverzichten
De verkoopdeskundigen van de Technologieco. van Peking Qianxing Jietong, Ltd zijn zeer en geduldig. Zij kunnen citaten snel verstrekken. De kwaliteit en de verpakking van de producten zijn ook zeer goed. Onze samenwerking is zeer vlot.

—— 《Festfing DV》 LLC

Toen ik Intel cpu en Toshiba SSD dringend zocht, Zandig van Peking Qianxing Jietong gaf Technologieco., Ltd me heel wat hulp en kreeg me de producten die ik snel heb gewenst. Ik waardeer haar werkelijk.

—— Kitty Yen

Zandig van Peking Qianxing Jietong is Technologieco., Ltd een zeer zorgvuldige verkoper, die me aan configuratiefouten kan op tijd herinneren wanneer ik een server koop. De ingenieurs zijn ook zeer professioneel en kunnen het testende proces snel voltooien.

—— Strelkin Mikhail Vladimirovich

We zijn erg blij met onze ervaring met Beijing Qianxing Jietong. De productkwaliteit is uitstekend en de levering is altijd op tijd. Hun verkoopteam is professioneel, geduldig en zeer behulpzaam met al onze vragen. We waarderen hun steun enorm en kijken uit naar een langdurige samenwerking. Sterk aanbevolen!

—— Ahmad Navid

Kwaliteit: “Grote ervaring met mijn leverancier. De MikroTik RB3011 was al gebruikt, maar het was in zeer goede staat en alles werkte perfect.en al mijn zorgen werden snel aangepakt.- Zeer betrouwbare leverancier.

—— Geran Colesio

Ik ben online Chatten Nu

NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP

May 15, 2026
Twee bepalende kenmerken vallen op bij de NVIDIA DGX Spark: 128 GB verenigd geheugen in een desktop-eenheid van $ 4000, en een ingebouwd 200 Gb netwerk van datacenterkwaliteit. De snelle fabric onderscheidt hem van reguliere werkstations, waardoor clustering van meerdere knooppunten mogelijk is, ooit exclusief voor in racks gemonteerde servers. In deze review worden gedistribueerde inferenties gemeten over Dell-, GIGABYTE- en HP Spark-varianten in 200GbE-clusters met twee knooppunten over verschillende modellen en workloads. Het analyseert ook pijplijnparallellisme (PP), een alternatieve splitsingsmethode die beter presteert dan NVIDIA's standaard tensorparallellisme (TP).

laatste bedrijfscasus over NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP  0

200 Gb netwerkfabric


Elke Spark is uitgerust met twee QSFP56-kooien, gecombineerd met een geïntegreerde ConnectX-7 SmartNIC. Beperkt door PCIe Gen5 x4-bandbreedte, bedraagt ​​de bruikbare netwerksnelheid 200 Gb, waarbij één poort voldoende is voor volledige bandbreedte; de tweede poort biedt topologieflexibiliteit. Er zijn drie veelgebruikte configuraties beschikbaar: directe Spark-to-Spark 200Gb-verbindingen, switch-free ringtopologie via dubbele 100Gb-poorten en hybride clustering met NVMe-oF snelle opslagtoegang. NVIDIA verkoopt desktops met één eenheid, gevalideerde clusters met twee knooppunten en nieuw uitgebrachte opstellingen met vier knooppunten. De dual-Spark-configuratie is het meest praktisch voor gevolgtrekking in productiestijl en de focus van deze test.

laatste bedrijfscasus over NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP  1

Reden voor Spark Clustering


Het belangrijkste voordeel is het uitbreiden van de modelcapaciteit: twee gekoppelde Sparks kunnen modellen met 120B-parameters uitvoeren die de geheugenlimieten van één eenheid overschrijden. Belangrijker nog is dat het platform dient als een betaalbaar educatief hulpmiddel. NVIDIA ontwerpt Spark voor beginners om AI-workflows te leren, met officiële handleidingen over modelimplementatie, verfijning en PyTorch/JAX-ontwikkeling. Clusters met twee knooppunten leren bovendien parallellisme met meerdere knooppunten en analyse van netwerkknelpunten zonder dure datacenterhardware. Met name is Spark niet geoptimaliseerd voor productie-inferentie. Beperkt door geheugenbandbreedte en latentie tussen knooppunten, is de 200GbE-verbinding langzamer dan interne PCIe-verbindingen. Grotere clusters hebben te kampen met ernstige prestatievermindering, met een lage tokendoorvoer, waardoor ze beperkt blijven tot educatief gebruik in plaats van commerciële dienstverlening.

Prestatietesten: PP versus TP


Parallellisme Strategieselectie


NVIDIA gebruikt standaard TP, waarbij elke transformatorlaag over twee GPU's wordt gesplitst met frequente, alles-reducerende gegevensuitwisselingen. Daarentegen verdeelt PP modellen per laag, waarbij activeringen slechts één keer tussen knooppunten worden overgedragen. Op 200GbE-verbindingen minimaliseert PP de communicatie tussen knooppunten. Voor grote modellen met grote batchgroottes presteert PP veel beter dan TP; TP blinkt alleen uit in chatscenario's met één verzoek en lage latentie.
Tests op GPT-OSS-120B bevestigen deze kloof. Bij batchgrootte 128 haalt PP 554,69 tok/s (2,20× sneller dan TP) bij gebalanceerde werklasten, 310,63 tok/s versus 164,99 tok/s bij taken met veel prefill-taken. TP is alleen toonaangevend bij batchgrootte 1. Voor kleine modellen zoals Llama-3.1-8B domineert TP de meeste batchgroottes vanwege de lichtgewicht laagberekening, waarbij PP TP alleen bij hoge gelijktijdigheid inhaalt.

Benchmarkresultaten voor meerdere modellen (PP=2)


GPT-OSS-serie


Voor de GPT-OSS-120B overtrof HP de piekdoorvoer bij gebalanceerde (504,88 tok/s) en prefill-zware (441,63 tok/s) werklasten; GIGABYTE heeft zware decoderingstests uitgevoerd (494,37 tok/s). Voor GPT-OSS-20B domineerde Dell de gebalanceerde (976,77 tok/s) en prefill-heavy (852,39 tok/s) scenario's, terwijl GIGABYTE de decoderingstaken leidde (945,55 tok/s).

Lama 3.1 8B varianten


Met BF16-precisie leidde Dell gebalanceerde (689,53 tok/s) en decodeerzware (581,43 tok/s) workloads; GIGABYTE won zware prefill-tests (539,27 tok/s). FP4-optimalisatie verhoogde de doorvoer aanzienlijk: GIGABYTE leidde gebalanceerde (1458,86 tok/s) en prefill-zware (954,23 tok/s) taken. Voor FP8 handhaafde Dell kleine voorsprong in gebalanceerde (1105,42 tok/s) en decoderingszware (862,33 tok/s) scenario's.

Mistral & Qwen-modellen


Mistral Small 3.1 24B zag minimale hiaten: GIGABYTE piekte op 255,09 tok/s bij gebalanceerde werklasten. Voor Qwen3 Coder 30B (A3B-basis) leidde GIGABYTE zware prefill-taken (1862,40 tok/s); Dell blonk uit in decoderingsscenario's. Onder FB8-kwantisering stond GIGABYTE bovenaan de prefill-zware doorvoer (3088,62 tok/s), terwijl Dell de decoderingstaken leidde (705,77 tok/s).

Samenvatting van het piekvermogen van Dual Spark-systemen


Model
Scenario (BS – 64)
Dell piekoutput
GIGABYTE Piekuitgang
HP piekvermogen
GPT-OSS-120B
Gelijke ISL/OSL
463,97 tok/s
497,26 tok/s
504,88 tok/s
GPT-OSS-120B
Voorvulling zwaar
419,56 tok/s
417,34 tok/s
441,63 tok/s
GPT-OSS-120B
Decodeer zwaar
451,18 tok/s
494,37 tok/s
474,85 tok/s
GPT-OSS-20B
Gelijke ISL/OSL
976,77 tok/s
952,31 tok/s
915,72 tok/s
GPT-OSS-20B
Voorvulling zwaar
852,39 tok/s
802,37 tok/s
757,05 tok/s
GPT-OSS-20B
Decodeer zwaar
938,65 tok/s
945,55 tok/s
865,78 tok/s
Lama-3.1-8B-Instrueer
Gelijke ISL/OSL
689,53 tok/s
687,48 tok/s
618,87 tok/s
Lama-3.1-8B-Instrueer
Voorvulling zwaar
515,45 tok/s
539,27 tok/s
463,39 tok/s
Lama-3.1-8B-Instrueer
Decodeer zwaar
581,43 tok/s
576,91 tok/s
531,07 tok/s
Lama-3.1-8B-FP4
Gelijke ISL/OSL
1427,39 tok/s
1458,86 tok/s
1413,51 tok/s
Lama-3.1-8B-FP4
Voorvulling zwaar
884,22 tok/s
954,23 tok/s
843,57 tok/s
Lama-3.1-8B-FP4
Decodeer zwaar
1008,98 tok/s
1007,23 tok/s
943,73 tok/s
Lama-3.1-8B-FP8
Gelijke ISL/OSL
1105,42 tok/s
1089,85 tok/s
1076,68 tok/s
Lama-3.1-8B-FP8
Voorvulling zwaar
759,50 tok/s
827,40 tok/s
725,51 tok/s
Lama-3.1-8B-FP8
Decodeer zwaar
862,33 tok/s
855,81 tok/s
800,78 tok/s
Mistral-Klein-3.1-24B
Gelijke ISL/OSL
249,77 tok/s
255,09 tok/s
239,09 tok/s
Mistral-Klein-3.1-24B
Voorvulling zwaar
216,01 tok/sec
214,38 tok/s
197,92 tok/s
Mistral-Klein-3.1-24B
Decodeer zwaar
238,44 tok/s
237,97 tok/s
221,41 tok/s


Conclusie


Dell-, GIGABYTE- en HP Spark-eenheden leveren verwaarloosbare prestatieverschillen, met kleine batchspecifieke leads. Aankoopbeslissingen moeten prioriteit geven aan chassisontwerp, thermische prestaties, garantie en after-salesondersteuning boven triviale benchmarkverschillen. De parallellismestrategie heeft een veel grotere impact dan OEM-varianten: PP presteert beter dan TP wat betreft batchgewijze inferentie, terwijl TP geschikt is voor single-stream interactie met lage latentie. De TP-aanbeveling van NVIDIA sluit aan bij de positionering van Spark als een interactief leerapparaat in plaats van een productie-infrastructuur. Een Spark-cluster met twee knooppunten dient als een betaalbaar onderwijsplatform voor gedistribueerde AI. Toekomstige tests zullen betrekking hebben op grotere clusters en end-to-end training op kleine modellen, in afwachting van de implementatie van 800Gb-switches in het laboratorium.

Peking Qianxing Jietong Technologie Co., Ltd.
Sandy Yang/directeur mondiale strategie
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zakelijke focus:
ICT-productdistributie/Systeemintegratie en -diensten/Infrastructuuroplossingen
Met meer dan 20 jaar ervaring in IT-distributie werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
“Technologie gebruiken om een ​​intelligente wereld te bouwen”Uw vertrouwde ICT-productdienstverlener!
Contactgegevens
Beijing Qianxing Jietong Technology Co., Ltd.

Contactpersoon: Ms. Sandy Yang

Tel.: 13426366826

Direct Stuur uw aanvraag naar ons (0 / 3000)