Thuis Gevallen

NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP

Alle producten

De Server van de rekopslag
(165)

De Server van de Huaweifusie
(31)

Dell Poweredge Server
(59)

H3C-server
(31)

Datacomschakelaars
(96)

WLAN-Apparaat
(21)

Slimme Draadloze Router
(10)

Harde Aandrijving HDD
(78)

Interne Harde Aandrijving SSD
(16)

Geforce Grafische Kaart
(27)

De Bewerker van INTEL cpu
(20)

Servergeheugen RAM
(6)

Gerenoveerde Opslagserver
(6)

SFP-Zendontvangermodule
(4)

Fibre Channel-Schakelaar
(42)

Certificaat

China Beijing Qianxing Jietong Technology Co., Ltd. certificaten

Klantenoverzichten

De verkoopdeskundigen van de Technologieco. van Peking Qianxing Jietong, Ltd zijn zeer en geduldig. Zij kunnen citaten snel verstrekken. De kwaliteit en de verpakking van de producten zijn ook zeer goed. Onze samenwerking is zeer vlot.

—— 《Festfing DV》 LLC

Toen ik Intel cpu en Toshiba SSD dringend zocht, Zandig van Peking Qianxing Jietong gaf Technologieco., Ltd me heel wat hulp en kreeg me de producten die ik snel heb gewenst. Ik waardeer haar werkelijk.

—— Kitty Yen

Zandig van Peking Qianxing Jietong is Technologieco., Ltd een zeer zorgvuldige verkoper, die me aan configuratiefouten kan op tijd herinneren wanneer ik een server koop. De ingenieurs zijn ook zeer professioneel en kunnen het testende proces snel voltooien.

—— Strelkin Mikhail Vladimirovich

We zijn erg blij met onze ervaring met Beijing Qianxing Jietong. De productkwaliteit is uitstekend en de levering is altijd op tijd. Hun verkoopteam is professioneel, geduldig en zeer behulpzaam met al onze vragen. We waarderen hun steun enorm en kijken uit naar een langdurige samenwerking. Sterk aanbevolen!

—— Ahmad Navid

Kwaliteit: Grote ervaring met mijn leverancier. De MikroTik RB3011 was al gebruikt, maar het was in zeer goede staat en alles werkte perfect.en al mijn zorgen werden snel aangepakt.- Zeer betrouwbare leverancier.

—— Geran Colesio

Ik ben online Chatten Nu

NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP

May 15, 2026

Twee bepalende kenmerken vallen op bij de NVIDIA DGX Spark: 128 GB verenigd geheugen in een desktop-eenheid van $ 4000, en een ingebouwd 200 Gb netwerk van datacenterkwaliteit. De snelle fabric onderscheidt hem van reguliere werkstations, waardoor clustering van meerdere knooppunten mogelijk is, ooit exclusief voor in racks gemonteerde servers. In deze review worden gedistribueerde inferenties gemeten over Dell-, GIGABYTE- en HP Spark-varianten in 200GbE-clusters met twee knooppunten over verschillende modellen en workloads. Het analyseert ook pijplijnparallellisme (PP), een alternatieve splitsingsmethode die beter presteert dan NVIDIA's standaard tensorparallellisme (TP).

200 Gb netwerkfabric

Elke Spark is uitgerust met twee QSFP56-kooien, gecombineerd met een geïntegreerde ConnectX-7 SmartNIC. Beperkt door PCIe Gen5 x4-bandbreedte, bedraagt de bruikbare netwerksnelheid 200 Gb, waarbij één poort voldoende is voor volledige bandbreedte; de tweede poort biedt topologieflexibiliteit. Er zijn drie veelgebruikte configuraties beschikbaar: directe Spark-to-Spark 200Gb-verbindingen, switch-free ringtopologie via dubbele 100Gb-poorten en hybride clustering met NVMe-oF snelle opslagtoegang. NVIDIA verkoopt desktops met één eenheid, gevalideerde clusters met twee knooppunten en nieuw uitgebrachte opstellingen met vier knooppunten. De dual-Spark-configuratie is het meest praktisch voor gevolgtrekking in productiestijl en de focus van deze test.

Reden voor Spark Clustering

Het belangrijkste voordeel is het uitbreiden van de modelcapaciteit: twee gekoppelde Sparks kunnen modellen met 120B-parameters uitvoeren die de geheugenlimieten van één eenheid overschrijden. Belangrijker nog is dat het platform dient als een betaalbaar educatief hulpmiddel. NVIDIA ontwerpt Spark voor beginners om AI-workflows te leren, met officiële handleidingen over modelimplementatie, verfijning en PyTorch/JAX-ontwikkeling. Clusters met twee knooppunten leren bovendien parallellisme met meerdere knooppunten en analyse van netwerkknelpunten zonder dure datacenterhardware. Met name is Spark niet geoptimaliseerd voor productie-inferentie. Beperkt door geheugenbandbreedte en latentie tussen knooppunten, is de 200GbE-verbinding langzamer dan interne PCIe-verbindingen. Grotere clusters hebben te kampen met ernstige prestatievermindering, met een lage tokendoorvoer, waardoor ze beperkt blijven tot educatief gebruik in plaats van commerciële dienstverlening.

Prestatietesten: PP versus TP

Parallellisme Strategieselectie

NVIDIA gebruikt standaard TP, waarbij elke transformatorlaag over twee GPU's wordt gesplitst met frequente, alles-reducerende gegevensuitwisselingen. Daarentegen verdeelt PP modellen per laag, waarbij activeringen slechts één keer tussen knooppunten worden overgedragen. Op 200GbE-verbindingen minimaliseert PP de communicatie tussen knooppunten. Voor grote modellen met grote batchgroottes presteert PP veel beter dan TP; TP blinkt alleen uit in chatscenario's met één verzoek en lage latentie.

Tests op GPT-OSS-120B bevestigen deze kloof. Bij batchgrootte 128 haalt PP 554,69 tok/s (2,20× sneller dan TP) bij gebalanceerde werklasten, 310,63 tok/s versus 164,99 tok/s bij taken met veel prefill-taken. TP is alleen toonaangevend bij batchgrootte 1. Voor kleine modellen zoals Llama-3.1-8B domineert TP de meeste batchgroottes vanwege de lichtgewicht laagberekening, waarbij PP TP alleen bij hoge gelijktijdigheid inhaalt.

Benchmarkresultaten voor meerdere modellen (PP=2)

GPT-OSS-serie

Voor de GPT-OSS-120B overtrof HP de piekdoorvoer bij gebalanceerde (504,88 tok/s) en prefill-zware (441,63 tok/s) werklasten; GIGABYTE heeft zware decoderingstests uitgevoerd (494,37 tok/s). Voor GPT-OSS-20B domineerde Dell de gebalanceerde (976,77 tok/s) en prefill-heavy (852,39 tok/s) scenario's, terwijl GIGABYTE de decoderingstaken leidde (945,55 tok/s).

Lama 3.1 8B varianten

Met BF16-precisie leidde Dell gebalanceerde (689,53 tok/s) en decodeerzware (581,43 tok/s) workloads; GIGABYTE won zware prefill-tests (539,27 tok/s). FP4-optimalisatie verhoogde de doorvoer aanzienlijk: GIGABYTE leidde gebalanceerde (1458,86 tok/s) en prefill-zware (954,23 tok/s) taken. Voor FP8 handhaafde Dell kleine voorsprong in gebalanceerde (1105,42 tok/s) en decoderingszware (862,33 tok/s) scenario's.

Mistral & Qwen-modellen

Mistral Small 3.1 24B zag minimale hiaten: GIGABYTE piekte op 255,09 tok/s bij gebalanceerde werklasten. Voor Qwen3 Coder 30B (A3B-basis) leidde GIGABYTE zware prefill-taken (1862,40 tok/s); Dell blonk uit in decoderingsscenario's. Onder FB8-kwantisering stond GIGABYTE bovenaan de prefill-zware doorvoer (3088,62 tok/s), terwijl Dell de decoderingstaken leidde (705,77 tok/s).

Samenvatting van het piekvermogen van Dual Spark-systemen

Model	Scenario (BS – 64)	Dell piekoutput	GIGABYTE Piekuitgang	HP piekvermogen
GPT-OSS-120B	Gelijke ISL/OSL	463,97 tok/s	497,26 tok/s	504,88 tok/s
GPT-OSS-120B	Voorvulling zwaar	419,56 tok/s	417,34 tok/s	441,63 tok/s
GPT-OSS-120B	Decodeer zwaar	451,18 tok/s	494,37 tok/s	474,85 tok/s
GPT-OSS-20B	Gelijke ISL/OSL	976,77 tok/s	952,31 tok/s	915,72 tok/s
GPT-OSS-20B	Voorvulling zwaar	852,39 tok/s	802,37 tok/s	757,05 tok/s
GPT-OSS-20B	Decodeer zwaar	938,65 tok/s	945,55 tok/s	865,78 tok/s
Lama-3.1-8B-Instrueer	Gelijke ISL/OSL	689,53 tok/s	687,48 tok/s	618,87 tok/s
Lama-3.1-8B-Instrueer	Voorvulling zwaar	515,45 tok/s	539,27 tok/s	463,39 tok/s
Lama-3.1-8B-Instrueer	Decodeer zwaar	581,43 tok/s	576,91 tok/s	531,07 tok/s
Lama-3.1-8B-FP4	Gelijke ISL/OSL	1427,39 tok/s	1458,86 tok/s	1413,51 tok/s
Lama-3.1-8B-FP4	Voorvulling zwaar	884,22 tok/s	954,23 tok/s	843,57 tok/s
Lama-3.1-8B-FP4	Decodeer zwaar	1008,98 tok/s	1007,23 tok/s	943,73 tok/s
Lama-3.1-8B-FP8	Gelijke ISL/OSL	1105,42 tok/s	1089,85 tok/s	1076,68 tok/s
Lama-3.1-8B-FP8	Voorvulling zwaar	759,50 tok/s	827,40 tok/s	725,51 tok/s
Lama-3.1-8B-FP8	Decodeer zwaar	862,33 tok/s	855,81 tok/s	800,78 tok/s
Mistral-Klein-3.1-24B	Gelijke ISL/OSL	249,77 tok/s	255,09 tok/s	239,09 tok/s
Mistral-Klein-3.1-24B	Voorvulling zwaar	216,01 tok/sec	214,38 tok/s	197,92 tok/s
Mistral-Klein-3.1-24B	Decodeer zwaar	238,44 tok/s	237,97 tok/s	221,41 tok/s

Conclusie

Dell-, GIGABYTE- en HP Spark-eenheden leveren verwaarloosbare prestatieverschillen, met kleine batchspecifieke leads. Aankoopbeslissingen moeten prioriteit geven aan chassisontwerp, thermische prestaties, garantie en after-salesondersteuning boven triviale benchmarkverschillen. De parallellismestrategie heeft een veel grotere impact dan OEM-varianten: PP presteert beter dan TP wat betreft batchgewijze inferentie, terwijl TP geschikt is voor single-stream interactie met lage latentie. De TP-aanbeveling van NVIDIA sluit aan bij de positionering van Spark als een interactief leerapparaat in plaats van een productie-infrastructuur. Een Spark-cluster met twee knooppunten dient als een betaalbaar onderwijsplatform voor gedistribueerde AI. Toekomstige tests zullen betrekking hebben op grotere clusters en end-to-end training op kleine modellen, in afwachting van de implementatie van 800Gb-switches in het laboratorium.

Peking Qianxing Jietong Technologie Co., Ltd.
Sandy Yang/directeur mondiale strategie
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zakelijke focus:
ICT-productdistributie/Systeemintegratie en -diensten/Infrastructuuroplossingen
Met meer dan 20 jaar ervaring in IT-distributie werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
“Technologie gebruiken om een intelligente wereld te bouwen”Uw vertrouwde ICT-productdienstverlener!

PREV: ORICO X50 Review: Thunderbolt 5-snelheid in een draagbare SSD-behuizing

NEXT: Seagate IronWolf Pro 32TB Review: Top-of-Stack Capaciteit voor Multi-Bay NAS

Contactgegevens

Beijing Qianxing Jietong Technology Co., Ltd.

Contactpersoon: Ms. Sandy Yang

Tel.: 13426366826

NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP

De Server van de rekopslag

De Server van de Huaweifusie

Dell Poweredge Server

H3C-server

Datacomschakelaars

WLAN-Apparaat

Slimme Draadloze Router

Harde Aandrijving HDD

Interne Harde Aandrijving SSD

Geforce Grafische Kaart

De Bewerker van INTEL cpu

Servergeheugen RAM

Gerenoveerde Opslagserver

SFP-Zendontvangermodule

Fibre Channel-Schakelaar

NVIDIA DGX Spark Cluster Review: gedistribueerde gevolgtrekking op Dell, GIGABYTE en HP

200 Gb netwerkfabric

Reden voor Spark Clustering

Prestatietesten: PP versus TP

Parallellisme Strategieselectie

Benchmarkresultaten voor meerdere modellen (PP=2)

GPT-OSS-serie

Lama 3.1 8B varianten

Mistral & Qwen-modellen

Samenvatting van het piekvermogen van Dual Spark-systemen

Conclusie

De Server van de rekopslag

12 het Rekserver van Lenovo ThinkSystem SR630 van de baaien1u Rackmount Server

Van de de Opslagserver van het ThinkSystemsr250 V2 4SFF Rek de Bewerker van Intel Xeon e-2378G

Van de het Rekopslag van Intel C621A het Rek van de Serverinspur NF5180M6 1U zet Server op

De Server van de Huaweifusie

FusionServer 5288 het Rekserver 32 DDR4 DIMMs van V6 4U 44 3,5 Duimharde schijven

Ultra Hoog - van de de Fusieserver 1U van dichtheidshuawei van de het Netwerkopslag de Server 1288H V5

Nieuw Gen OceanStor 5310 Huawei-Hybride de Flitsopslag van de Rekserver