Belangrijkste lessen
- Ongekende doorvoer in een enkel knooppunt:De R7725xd ondersteunde meer dan 300 GB/s interne bandbreedte en 160 GB/s via NVMe-oF RDMA, wat concurrerend was met multi-node opslagclusters binnen een 2U chassis.
- Echte 5e generatie architectuur, geen schakelaars, geen fan-out:Alle 24 Micron 9550 PRO SSD's ontvangen toegewijde x4 PCIe Gen5 lanes rechtstreeks van het CPU-complex, waardoor line-rate-scaling zonder strijd mogelijk is.
- Aangedreven door AMD EPYC 9005 serie:Dual AMD EPYC 9575F-processors zorgen voor het aantal rijstroken, de geheugenbandbreedte en de NUMA-topologie die nodig zijn voor duurzame I/O met een hoge gelijktijdigheid.
- Ontworpen voor AI, Analytics en Checkpoint-Heavy Workloads:Het systeem elimineert de I/O knelpunten die moderne GPU-pipelines blokkeren, waardoor continue, hoge bandbreedte datalevering mogelijk is.
- PEAK: AIO ontsluit volledige parallelisme:PEAK: AIO's software stack zorgt ervoor dat wachtrijen onder druk verzadigd blijven, waardoor bedrijfsprestaties een overtuigende dollar-per-GB-verhouding bieden.
Het opslaggedeelte van iDRAC 10 geeft een volledig overzicht van alle fysieke schijven die in de R7725xd zijn geïnstalleerd.met een visuele cirkelgrafiek die de aandrijfsituaties toontIn deze configuratie zijn 24 NVMe SSD's actief en rapporteren als klaar, met twee extra opstartapparaten in het systeem, los van de primaire NVMe-bank.
Aan de rechterkant van het paneel is een samenvatting van de schijven die deze opsplitsen in fysieke schijven en eventuele bijbehorende virtuele schijven.,alle schijven worden gerapporteerd als niet-RAID en individueel adresserbaar, in overeenstemming met het ontwerp van het systeem voor grote NVMe-pools en SDS-platforms.
Onder de status samenvatting, de Recent geregistreerde opslaggebeurtenissen gebied bevat een lijst van invoegingslogs voor elke PCIe SSD, georganiseerd per baai en slot.Dit record bevestigt de juiste detectie in alle aandrijvingen en helpt bij het identificeren van eventuele problemen met zitplaatsenVoor grote implementaties zijn deze logs handig bij het volgen van de aandrijvingvoorziening of bij het controleren of de capaciteit zoals verwacht is gevuld.
De laatste schermopname toont de gedetailleerde NVMe-apparaatweergave binnen iDRAC10. Elke NVMe-drive die in het systeem is geïnstalleerd, wordt vermeld met zijn status, capaciteit en locatie.Het selecteren van een individuele schijf opent een volledige verdeling van de kenmerken.
In dit voorbeeld toont het aandrijfinformatiepaneel de volledige modelreeks, het apparaatprotocol, de vormfactor en de onderhandelde PCIe-instellingen.De NVMe-apparaten werken met 32 GT/s verbindingssnelheid met een onderhandelde x4-verbinding, waarbij wordt bevestigd dat de schijven op de volledige bandbreedte van het PCIe Gen5-backplane van het systeem werken.het helpen van beheerders bij het monitoren van de verwachtingen van de gezondheid en levenscyclus van de auto.
Deze gedetailleerde schijfrapportering is waardevol in NVMe-configuraties met een hoge dichtheid, waarbij de linkbreedte, de onderhandelde snelheid en de gezondheid van het media rechtstreeks van invloed zijn op het werkladingsverkeer en de opslagprestaties.
Over het algemeen biedt de iDRAC 10-interface een helder, hardware-gecentreerd beeld van de NVMe-opslagarchitectuur van de R7725xd, waardoor de linkgezondheid, de status van de schijf,en systeemintegriteit in een oogopslag.
Dell PowerEdge R7725xd Prestaties
Voor de test werd ons systeem geconfigureerd met een evenwichtige, maar toch hoogwaardige loadout.en gepaard met 24 32 GB DDR5 DIMM's die werken bij 6400 MT/sVoor opslag is het chassis volledig gevuld met 24 15.36TB Micron 9550 PRO U.2 NVMe SSD's, elk verbonden via een speciale PCIe Gen5 x4 link.en de Micron 9550 PRO drives leveren opeenvolgende leessnelheden tot 14,000 MB/s en opeenvolgende schrijfsnelheden tot 10.000 MB/s. Het netwerk wordt beheerd door vier Broadcom BCM57608-adapters die samen acht 200Gb-poorten leveren,samen met een BCM57412 OCP NIC die twee extra 10-gigabit poorten biedt.
Specificaties van het testsysteem
- CPU:2x AMD EPYC 9575F 64-Core High-Frequency Processors
- Geheugen:24 x 32 GB DDR5 @ 6400MT/s
- Bewaarplaats:24x 15,36TB Micron 9550 PRO U.2 schijven (verbind bij 4x banen van PCIe Gen5 elk); ondersteunt tot 128TB schijven vandaag met hogere capaciteiten op de horizon
- Netwerk:4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
- Schakelaar:Dell PowerSwitch Z9664
FIO-prestatie-benchmark
Om de opslagprestaties van de PowerEdge R7725xd te meten, gebruikten we industriestandaardmetrics en de FIO-tool.
- Willekeurige 4K 1M
- Sequentiële 4K 1M
FIO ️ Lokaal ️ Bandbreedte
Bij het testen van lokale toegang tot de 24 PCIe Gen5 NVMe schijven in de Dell PowerEdge R7725xd,Het systeem laat precies zien wat je zou verwachten van een platform waar elke schijf is verbonden met de CPU's met behulp van een full x4 lane PCIe Gen5 linkMet geen netwerklaag betrokken, is dit de pure, interne doorvoer van Dell's Gen5 opslag lay-out en het AMD EPYC platform's PCIe bandbreedte werken zonder beperking.
Sequentiële lezingen beginnen bij 184 GB/s met 4K blokken en schalen snel naarmate de blokgrootte toeneemt.wat een sterke indicatie is van hoe goed het systeem alle 24 × 4 Gen5-sporen kan samenvoegen in een duurzame leesbandbreedte zonder knelpunten in de controllerfase.
Sequentiële schrijven volgen een andere curve, maar blijven stevig binnen het verwachte bereik.Dit strookt met het schrijfgedrag van de Micron 9550 PRO SSD's en de overhead die inherent is aan hoge parallelle NVMe-schrijft over zoveel onafhankelijke apparaten.
Het systeem bereikt snelheden van bijna 300 GB/s bij de kleinste blokgroottes, daalt licht in het middenbereik,en dan herstelt naar de bovenste 200s en lage 300s bij grotere blokgroottesBij 1M bereiken willekeurige lezingen een maximum van 318 GB/s, wat het vermogen van het platform aantoont om gemengde bewerkingen gelijkmatig over alle 24 schijven te verdelen.
Willekeurige schrijven komen met een lagere snelheid binnen, wat typisch is voor verspreide metadata en schrijftoewijzingstaken over een brede NVMe-set.De resultaten blijven voor het grootste deel van de test in het bereik van 140 tot 160 GB/s en dalen tot iets minder dan 100 GB/s bij 1 M.
FIO
Bij onderzoek van de IOPS-kant, toont de R7725xd robuuste kleine blok prestaties,met aanvraag snelheden die goed in de tienduizenden miljoenen voordat grotere blokgroottes verschuiven de werklast naar een bandbreedte gedreven profiel.
Bij 4K, lezen bereikt 44,9 miljoen IOPS en schrijven komen in op 36,3 miljoen.Het systeem is in staat om werklasten met een hoge wachtrij efficiënt over alle schijven te verdelen.Deze waarden vertonen van nature een afname naarmate de blokgrootte toeneemt, maar de progressie blijft consistent in de 8K-, 16K- en 32K-bereiken.
Bij 16K en 32K blokken, lezen vestigen zich op 17,4 miljoen en 8,35 miljoen IOPS, met willekeurige lezen nauw overeenkomen op 16,5 miljoen en 8,15 miljoen.tracking lager maar stabiel blijft in zowel sequentiële als willekeurige toegangspatronen.
Naarmate we naar 64K en hoger gaan, gaan de tests over van pure IOPS naar een meer bandbreedtegebonden scenario.Bij blokgrootte 1M, lees IOPS land rond 300K, schrijft op ongeveer 174K, en willekeurige operaties eindigen in dezelfde buurt.
Over het algemeen laten de lokale IOPS-resultaten duidelijk zien dat het systeem in staat is om zeer hoge wachtrij-diepte-werkbelastingen in kleine blokken te ondersteunen.met voorspelbare schaalbaarheid naarmate de overdrachten groeien en bandbreedte de dominante factor wordt.
PEAK:AIO: Waarom de Dell PowerEdge R7725xd past bij deze werkdruk
PEAK: AIO is ontworpen voor omgevingen die extreem snelle, lage latentie toegang tot grote datasets vereisen, meestal voor AI-training, inferentiepijplijnen, financiële modellering en real-time analyse.Het platform werkt op NVMe-opslag., een evenwichtige PCIe-bandbreedte en een voorspelbare latentie op schaal.de onderliggende hardware moet een duurzaam doorvoervermogen leveren en tegelijkertijd een consistente en herhaalbare prestatie onder gelijktijdige zware belastingen behouden.
De architectuur van het systeem is ontworpen om de PCIe Gen5-bronnen te maximaliseren, waardoor de volledige bandbreedte van de 24 front-mounted U's wordt blootgesteld.2 NVMe-bakken rechtstreeks naar de CPU'sDeze lay-out geeft PEAK:AIO het parallelisme en latentieprofiel dat het verwacht van moderne NVMe-gebaseerde datapipelines.De systeemconfiguratie verdeelde de NVMe SSD's in twee RAID0 groepen.
In het geteste scenario gebruikten we twee client systemen verbonden met de R7725xd, elk uitgerust met Broadcom BCM57608 2x 200G NIC's.De R7725xd wordt in een realistische, high-performance configuratie geplaatst die weerspiegelt wat PEAKDit niveau van netwerkbandbreedte gaf ons de ruimte om het NVMe-subsysteem volledig te benadrukken, de PCIe-topologie,en de CPU verbindingen zonder knelpunten op de NIC laag.
Het resultaat is een platform dat effectief aansluit bij PEAK:AIO-werklasten. De R7725xd biedt dichte NVMe-capaciteit, PCIe Gen5 doorvoer, dubbele AMD EPYC 9005 processors voor parallelisme,en de netwerkcapaciteit om data-inname met meerdere klanten te ondersteunen bij honderden gigabits per klantAl deze kenmerken zijn van fundamenteel belang voor het bereiken van de prestatieverwachtingen van PEAK:AIO.
PEAK:AIO ️ NVMe-of RDMA ️ Bandbreedte
Bij het onderzoeken van de NVMe-oF RDMA-bandbreedte resultaten op de PowerEdge R7725xd met PEAK: AIO, is de algemene trend precies wat we verwachten van een systeem met zoveel PCIe en netwerkbandbreedte.Als de blokgrootte toeneemtDe doorvoer stijgt snel totdat het vlak bij de praktische limiet van het platform komt te liggen.
Bij de kleine blokgroottes begint de prestatie in het midden van het 20GB/s-bereik voor zowel lezen als schrijven, wat normaal is omdat 4K- en 8K-overdrachten het IOPS-pad veel harder duwen dan het doorvoerpad.Zodra we in de 16K en 32K blokken, de pijplijn opent. lezen springen naar ongeveer 154 GB/s bij 32K en blijven klimmen naar de 160 GB/s bereik, dat is precies waar we een dual-client setup over vier 200 Gb/s links naar land zou verwachten.
AIO zorgt er goed voor dat de wachtrijen worden gevoed.Dus willekeurige leesbandbreedte volgt in wezen sequentiële leesbandbreedte helemaal naar boven., met een snelheid van ongeveer 159 tot 161 GB/s, van 32K tot 1M. Dit geeft aan dat de opslagstapel bij gemengde toegangspatronen geen knelpunten ondervindt,en de PCIe-topologie van R7725xd ̇s verdeelt de belasting gelijkmatig over de 24 Gen5 NVMe-drive.
Schrijfprestaties volgen een vergelijkbare curve, hoewel ze iets lager zijn dan lezen.een daling tot ongeveer 117 GB/s bij 128K, maar een herstel naarmate de blokgrootte toeneemt. Willekeurige schrijven gedragen zich anders en vlakken zich dichter bij 110-117 GB/s, wat normaal is voor gemengde wachtrij werkbelastingen die extra overhead introduceren.
De belangrijkste conclusie uit dit gedeelte is dat de R7725xd geen problemen heeft met het handhaven van extreem hoge bandbreedte via NVMe-oF, zelfs met meerdere klanten die het systeem tot zijn grenzen brengen.Zodra de blokgrootte 32K of hoger isDit is precies het soort prestaties PEAK:AIO is ontworpen om te extraheren,De resultaten zijn een sterke validatie van het schaalvermogen van het platform onder reële omstandigheden..
PEAK AIO NVMe-of RDMA IOPS
Aan de IOPS-kant vertoont de PowerEdge R7725xd een sterke prestatie op kleine blokken, hoewel we aanvankelijk lagere cijfers hebben waargenomen dan verwacht;Dit probleem zal naar verwachting in de toekomst worden opgelost met verbeterde ondersteuning van netwerkstuurders.Zelfs met dat in het spel verschijnt de algemene schaaltrend precies zoals NVMe-of RDMA zich meestal gedraagt wanneer de blokgrootte toeneemt.
Bij de kleinste blokgrootte, kan het systeem meer dan 6 miljoen IOPS leveren over zowel sequentiële als willekeurige workloads.en willekeurig schrijven allemaal zitten in ongeveer hetzelfde bereik bij 4K en 8K, wat aangeeft dat de front-endclients, de PCIe-infrastructuur en de NVMe-stations zelf geen problemen hebben met het bijhouden van de aanvraagrate.
Als de blokgroottes groeien, begint de verwachte daling in IOPS. op 32K, leest land rond 4,7 miljoen IOPS, terwijl schrijft spoor iets achter op ongeveer 4,4 miljoen.,Het is duidelijk dat het gebruik van de nieuwe technologieën in de VS in het verlengde van de afgelopen decennia is toegenomen tot ongeveer 3,3 miljoen IOPS.
Als we naar de grote blokken gaan, blijft IOPS afnemen in een voorspelbare lineaire manier.en IOPS daalt natuurlijk in het midden van de honderdduizendenBij een blokgrootte van 1M convergeren alle workloads naar 140K-153K IOPS, consistent met de bandbreedtecijfers die we in de vorige sectie zagen.
GPUDirect opslagprestaties
Eén van de tests die we op de R7725xd hebben uitgevoerd was de Magnum IO GPUDirect Storage (GDS) test.GDS is een functie ontwikkeld door NVIDIA waarmee GPU's de CPU kunnen omzeilen bij het openen van gegevens die zijn opgeslagen op NVMe-drive's of andere hogesnelheidsopslagapparaten.In plaats van gegevens door de CPU en het systeemgeheugen te routeren, maakt GDS directe communicatie mogelijk tussen de GPU en het opslagapparaat, waardoor de latentie aanzienlijk wordt verminderd en de doorvoer van gegevens wordt verbeterd.
Hoe GPUDirect Storage werkt
Traditioneel, wanneer een GPU gegevens verwerkt die zijn opgeslagen op een NVMe-station, moeten de gegevens eerst door de CPU en het systeemgeheugen reizen voordat ze de GPU bereiken.Als de CPU een tussenpersoon wordtGPUDirect Storage elimineert deze inefficiëntie door de GPU toegang te geven tot gegevens rechtstreeks vanaf het opslagapparaat via de PCIe-bus.Dit directe pad vermindert de gegevensbeweging overhead, waardoor snellere en efficiëntere gegevensoverdrachten mogelijk zijn.
AI-werklasten, met name die met deep learning, zijn zeer data-intensief.en elke vertraging in gegevensoverdracht kan leiden tot onderbenutte GPU's en langere trainingstijden. GPUDirect Storage neemt deze uitdaging aan door ervoor te zorgen dat gegevens zo snel mogelijk naar de GPU worden geleverd, waardoor de rusttijd wordt geminimaliseerd en de berekeningsdoeltreffendheid wordt geoptimaliseerd.
Bovendien is GDS bijzonder gunstig voor werklasten waarbij grote datasets worden gestreamd, zoals videoverwerking, natuurlijke taalverwerking of real-time inferentie.Door de afhankelijkheid van de CPU te verminderen, GDS versnelt gegevensverkeer en bevrijdt CPU-middelen voor andere taken, waardoor de algehele systeemprestaties verder worden verbeterd.
Naast de ruwe bandbreedte levert GPUDirect met NVMe-oF (TCP/RDMA) ook I/O met een ultra-lage latentie. Dit zorgt ervoor dat GPU's nooit honger lijden aan gegevens, waardoor het systeem ideaal is voor real-time AI-afleidingen,analytische pijpleidingen, en video herhaling.
GDSIO-lezen in volgorde
Bij het onderzoeken van PEAK:AIO met één client met behulp van GDSIO vertoont de leesdoorvoer een duidelijk schaalpatroon naarmate zowel de blokgrootte als het aantal draadjes toenemen.Deze enkele client was verbonden via twee 400G-links., waardoor het totale vermogen tot 90 GB/s wordt beperkt.
Bij de kleinste blokgroottes en het lage aantal draadjes is de prestatie bescheiden, met 4K-lezen vanaf ongeveer 189 MiB / s bij een enkele draad.Het systeem reageert onmiddellijk., 691 MiB/s drukken op vier draden en breken in het multi-GiB/s bereik als we stap in grotere blokken.
Bij 32K groeit de doorvoer van 1,3 GiB/s bij een enkele draad tot bijna 20 GiB/s bij 64 draad.met slechts een lichte aftakeling daarbuitenEen vergelijkbaar patroon treedt op bij 64K en 128K, waarbij het systeem bij laag parallelisme overschakelt van een laag enkelcijferig GiB/s naar meer dan 30 GiB/s naarmate de werklast schaalt.
Zodra we de grotere blokgroottes bereiken, begint de doorvoer te dalen naarmate het systeem het prestatieplafond van een enkele klant nadert.de prestaties stijgen van 11 GiB/s bij één draad tot ongeveer 88 GiB/s bij een hoog aantal draadDe 5 MiB- en 10 MiB-overdrachten laten hetzelfde plateau zien, met een hoogtepunt van ongeveer 89 ‰ 90 GiB/s, ongeacht of de test op 64, 128 of 256 threads wordt uitgevoerd.
GDSIO Schrijf sequentieel
Aan de schrijfzijde volgt het schaalgedrag een vergelijkbaar patroon als bij het lezen, maar met iets lagere prestaties in de meeste blokgroottes, wat wordt verwacht voor opeenvolgende schrijfwerklasten.Bij de kleinste blokgroottesDe doorvoer begint bij 165 MiB/s voor een enkele thread bij 4K en stijgt gestaag naarmate het parallelisme toeneemt.
Bij 32K begint de doorvoer bij iets minder dan 1 GiB/s en schaalt tot meer dan 21 GiB/s bij hogere draadniveaus.De 64K en 128K variëteiten blijven de trend, van een laag eencijferig GiB/s naar midden 30 GiB/s en 50 GiB/s naarmate de werklast meer parallel wordt.
Bij 1 MiB stijgt de prestaties van 13,3 GiB/s bij een enkele thread tot iets minder dan 90 GiB/s bij hoge thread tellen.De 5 MiB- en 10 MiB-tests volgen een vergelijkbaar patroon, met resultaten van een piek van ongeveer 90 GiB/s, ongeacht of het systeem op 64, 128 of 256 threads draait.
Performance herdefiniëren in het tijdperk van Gen5
Sandy Yang, directeur Global Strategy
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zaken:
Distributie van ICT-producten/Systeemintegratie en diensten/Infrastructuuroplossingen
Met meer dan 20 jaar IT-distributie-ervaring werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
Technologie gebruiken om een intelligente wereld te bouwenUw betrouwbare ICT-productdienstverlener!



