Belangrijkste conclusies
- Flash-first NVMe RAID: PERC13 H975i stapt volledig af van SAS/SATA, gebouwd op Broadcom SAS51xx voor een NVMe-native, AI-ready architectuur.
- Grote generatiesprong: PCIe Gen5 x16 met maximaal 16 NVMe-drives per controller (32 met twee) leverde 52,5 GB/s en 12,5M IOPS per controller in tests, met winst ten opzichte van PERC12, waaronder +88% leesbandbreedte, +318% schrijfbandbreedte, +31% 4K lees-IOPS en +466% 4K schrijf-IOPS.
- Geschikt voor AI-servers: Front-geïntegreerd ontwerp maakt achterste PCIe-slots vrij voor GPU's, verkort MCIO-verbindingen en maakt een speciale opslagpijplijn per accelerator mogelijk voor stabielere, meer deterministische doorvoer zonder CPU-overhead.
- Veerkracht onder stress: Supercondensator-beschermde cache en snellere herbouw verkorten de tijd tot wel 10 min/TiB, terwijl hoge prestaties tijdens herbouw behouden blijven (tot 53,7 GB/s lezen, 68 GB/s schrijven, 17,3M/5,33M 4K IOPS).
- End-to-end beveiliging: Hardware Root of Trust, SPDM-apparaatidentiteit en volledige spectrum-encryptie die drives, data tijdens transport en controllercache omvat.
Specificaties Dell PERC12 H965i en PERC13 H975i
| Functie | PERC12 H965i Voorzijde | PERC13 H975i Voorzijde |
|---|---|---|
| RAID-niveaus | 0, 1, 5, 6, 10, 50, 60 | 0, 1, 5, 6, 10, 50, 60 |
| Niet-RAID (JBOD) | Ja | Ja |
| Host Bus Type | PCIe Gen4 x16 | PCIe Gen5 x16 |
| Side-band Management | I2C, PCIe VDM | I2C, PCIe VDM |
| Enclosures per poort | Niet van toepassing | Niet van toepassing |
| Processor / Chipset | Broadcom RAID-on-Chip, SAS4116W | Broadcom RAID-on-Chip, SAS5132W |
| Energiepakket / Stroomback-up | Batterij | Supercondensator |
| Lokale sleutelbeheerbeveiliging | Ja | Ja |
| Secure Enterprise Key Manager | Ja | Ja |
| Controller Queue Depth | 8.192 | 8.192 |
| Niet-vluchtige cache | Ja | Ja |
| Cachegeheugen | 8 GB DDR4 3200 MT/s | Geïntegreerde RAID-cache |
| Cachefuncties | Write-back, read-ahead, write-through, always write-back, no read-ahead | Write-back, write-through, always write-back, no read-ahead |
| Max. complexe virtuele schijven | 64 | 16 |
| Max. eenvoudige virtuele schijven | 240 | 64 |
| Max. schijfgroepen | 64 | 32 |
| Max. VD's per schijfgroep | 16 | 8 |
| Max. Hot-spare apparaten | 64 | 8 |
| Hot-swap apparaten ondersteund | Ja | Ja |
| Automatisch configureren (Primair & Eenmalig uitvoeren) | Ja | Ja |
| Hardware XOR-engine | Ja | Ja |
| Online capaciteitsuitbreiding | Ja | Ja |
| Speciale & Globale Hot Spare | Ja | Ja |
| Ondersteunde schijftypen | NVMe Gen3 en Gen4 | NVMe Gen3, Gen4 en Gen5 |
| VD Strip Elementgrootte | 64KB | 64KB |
| NVMe PCIe-ondersteuning | Gen4 | Gen5 |
| Configuratie Max. NVMe-schijven | 8 schijven per controller | 16 schijven per controller |
| Ondersteunde sectorgroottes | 512B, 512e, 4Kn | 512B, 512e, 4Kn |
| Opslag Boot-ondersteuning | Alleen UEFI | Alleen UEFI |
De PERC13 H975i frontcontroller in Dell PowerEdge-servers is ontworpen voor naadloze integratie in de systeemarchitectuur. In tegenstelling tot traditionele add-in kaarten die achterste PCIe-slots bezetten, maakt de H975i rechtstreeks verbinding met de front-drive backplane en communiceert met de front-MCIO-connectoren op het moederbord via speciale PCIe 5.0-interfaces. Dit geïntegreerde ontwerp behoudt achterste PCIe-slots voor high-performance GPU's en extra PCIe-uitbreiding, terwijl de kabellengtes aanzienlijk worden verkort. Dit helpt bij het handhaven van signaalintegriteit, waardoor het systeem betrouwbaarder en gemakkelijker te onderhouden is. Het resultaat is een schonere interne lay-out en verbeterde luchtstroom voor dichte, rekenintensieve implementaties.
De H975i implementeert een uitgebreide beveiligingsarchitectuur die zich uitstrekt van hardwarematige attestation op siliciumniveau tot volledige spectrum-gegevensencryptie van data in rust met SED-drives. Aan de basis legt Hardware Root of Trust een onveranderlijke keten van cryptografische verificatie vast, van de interne boot-ROM tot elke firmwarecomponent, waardoor alleen geauthenticeerde Dell-gecertificeerde firmware op de controller kan worden uitgevoerd. Deze hardwarematige beveiliging strekt zich uit tot de implementatie van Security Protocol and Data Model (SPDM), waarbij elke controller een uniek Device Identity-certificaat bevat dat iDRAC in staat stelt real-time authenticatieverificatie uit te voeren. De controller breidt cryptografische bescherming uit buiten traditionele data-in-rust scenario's om ook het cachegeheugen te omvatten. Het onderhoudt encryptiesleutels in beveiligde geheugengebieden die ontoegankelijk zijn voor ongeautoriseerde firmware. Als gevolg hiervan blijven gevoelige gegevens beschermd, ongeacht of ze op schijven staan of actief worden verwerkt in de cache.
Stroombeveiliging in de H975i is een andere belangrijke evolutie ten opzichte van traditionele batterij-gevoede systemen door de integratie van een supercondensator. De supercondensator levert onmiddellijke stroom tijdens onverwachte stroomuitval, waardoor een versleutelde en volledige cache-flush naar niet-vluchtige opslag wordt gegarandeerd, waar gegevens voor onbepaalde tijd beschermd blijven. Bovendien, in tegenstelling tot batterijgebaseerde systemen die 4-8 uur nodig hebben voor leercycli, voltooit de H975i's supercondensator zijn Transparante Leercyclus binnen 5-10 minuten zonder prestatieverlies tijdens kalibratie. Dit ontwerp elimineert de onderhoudskosten en degradatiezorgen die inherent zijn aan batterijoplossingen, terwijl het superieure betrouwbaarheid biedt voor bedrijfskritische gegevensbescherming.
Geïntegreerde Monitoring en Beheer
De PERC13 RAID-controller van Dell, net als veel van Dell's RAID-oplossingen, kan op vele manieren worden beheerd en gemonitord, waaronder tijdens het opstarten van het platform via System Setup in de BIOS, via de iDRAC web GUI, de PERC12 utility, en zelfs Dell OpenManage UI en CLI.
iDRAC Controller Beheer
Bij het bekijken van de iDRAC-beheerinterface biedt het tabblad controllers een overzicht van de opslaghardware van de server. Naast de BOSS-kaart ziet u de dubbele PERC H975i-controllers, compleet met informatie over firmwareversies, cachegeheugen en batterijstatus. Deze samenvatting stelt u in staat om snel de gereedheid en configuratie van de controllers te verifiëren zonder toegang te hoeven krijgen tot de BIOS of CLI-tools te gebruiken.
Het tabblad Virtuele Schijven in iDRAC toont de opgeslagen arrays die zijn gemaakt, inclusief hun RAID-niveau, grootte en caching-beleid. In dit systeem worden twee RAID-10 groepen vermeld, allemaal gebouwd op SSD's. Vanuit dit venster kunnen beheerders bevestigen dat volumes online zijn, nieuwe virtuele schijven maken of het menu Acties gebruiken om bestaande configuraties aan te passen of te verwijderen.
RAID Controller Configuratie Utility
De bovenstaande afbeelding toont een voorbeeld van het openen van de PERC H975i Front Configuration Utility System Setup op het PowerEdge R7715-platform. Vanuit deze interface kunt u alle belangrijke RAID-controllerinstellingen beheren, waaronder Configuratiebeheer, Controllerbeheer, Apparaatbeheer en meer. Deze utility biedt een gestroomlijnde manier om virtuele schijven in te stellen en hardwarecomponenten rechtstreeks tijdens het opstartproces van het platform te monitoren.
Na het selecteren van het RAID-niveau gaan we verder met het kiezen van fysieke schijven voor de array. In dit voorbeeld worden alle beschikbare NVMe SSD's vermeld en gemarkeerd als RAID-compatibel. We selecteren meerdere 3,2 TiB Dell DC NVMe-schijven uit de ongeconfigureerde capaciteitspool. Filters zoals mediatype, interface en logische sectorgrootte helpen bij het verfijnen van de selectie. Zodra de gewenste schijven zijn aangevinkt, kunnen we doorgaan door op "OK" te klikken om de schijfselectie te voltooien en door te gaan met het maken van de Virtuele Schijf.
Voordat de creatie van de virtuele schijf wordt voltooid, toont het systeem een waarschuwing die bevestigt dat alle gegevens op de geselecteerde fysieke schijven permanent worden verwijderd. Om door te gaan, vinken we het vakje "Bevestigen" aan en selecteren we "Ja" om de bewerking te autoriseren. Deze beveiliging helpt onbedoeld gegevensverlies tijdens het RAID-creatieproces te voorkomen.
Zodra de virtuele schijf is gemaakt, verschijnt deze onder het menu "Virtuele Schijf Beheer". In dit voorbeeld wordt onze nieuwe RAID 5 virtuele schijf vermeld met een capaciteit van 43,656 TiB en een status van "Klaar". Met slechts een paar eenvoudige stappen is de opslag geconfigureerd en klaar voor gebruik.
Hoewel de PERC BIOS Configuration Utility en de iDRAC-interface intuïtieve opties bieden voor lokaal en extern beheer, biedt Dell ook een krachtige command-line tool genaamd PERC CLI (perccli2). Deze utility ondersteunt Windows, Linux en VMware, waardoor het ideaal is voor scripting, automatisering of het beheren van PERC-controllers in headless omgevingen. Dell biedt ook gedetailleerde documentatie over installatie en commando-gebruik voor PERC CLI op hun ondersteuningssite.
Dell PERC13 Prestatie Tests
Voordat we ons verdiepen in prestatie tests, hebben we onze omgeving voorbereid met behulp van het Dell PowerEdge R7715-platform, geconfigureerd met dubbele PERC H975i frontcontrollers. Deze werden gekoppeld aan tweeëndertig 3,2 TB Dell NVMe-schijven, elk beoordeeld voor maximaal 12.000 MB/s sequentiële lezingen en 5.500 MB/s sequentiële schrijvingen met blokgroottes van 128 KiB. Deze high-performance basis stelt ons in staat om de grenzen van de doorvoer van de PERC13-controller te verleggen en het RAID-gedrag op schaal te evalueren.
- Platform: Dell PowerEdge R7715
- CPU: AMD EPYC 9655P 96-Core Processor
- RAM: 768 GB (12 x 64 GB) DDR5-5200 ECC
- RAID-controller: 2 x PERC13 H975i
- Opslag: 32 x 3,2 TB Dell CD8P NVMe-schijven
- PCIe-accelerators: 2 x NVIDIA H100 GPU
NVIDIA Magnum IO GPU Direct Storage: AI Ontmoet Opslag
Moderne AI-pipelines zijn vaak I/O-gebonden, niet rekenkundig gebonden. Databatchs, embeddings en checkpoints moeten snel genoeg van opslag naar GPU-geheugen worden overgedragen om accelerators bezig te houden. NVIDIA's Magnum IO GDS (via cuFile) omzeilt het traditionele "SSD -> CPU DRAM -> GPU"-pad en laat data DMA direct van NVMe naar GPU-geheugen gaan. Dit verwijdert CPU bounce-buffer overhead, verlaagt latentie en maakt doorvoer voorspelbaarder onder belasting, wat allemaal resulteert in hogere GPU-benutting, kortere epoch-tijden en snellere checkpoint save/load-cycli.
Onze GDSIO-test is gericht op het meten van het opslag-naar-GPU-datapfad zelf, waarbij blokgroottes en thread-aantallen worden geveegd om te laten zien hoe snel een PERC13-ondersteunde NVMe-set in H100-geheugen kan streamen. Met elke H975i op een PCIe 5.0 x16-link (theoretisch ~64 GB/s per controller, unidirectioneel), stellen twee controllers een geaggregeerd plafond van bijna ~112 GB/s in; waar onze curves afvlakken, vertelt u of u gelimiteerd bent door de link of de media. Voor beoefenaars, lees de grafieken als proxy's voor echte workloads: grote sequentiële lezingen komen overeen met dataset-streaming en checkpoint-herstel; grote sequentiële schrijvingen komen overeen met checkpoint-saves; kleinere overdrachten met gelijktijdigheid weerspiegelen dataloader-shuffles en prefetch. Kortom, sterke GDSIO-schaling betekent minder GPU-vertragingen en consistentere prestaties tijdens zowel training als high-throughput inferentie.
GDSIO Lees Sequentiële Doorvoer
Beginnend met sequentiële lezing, begon de doorvoer bescheiden bij lagere blokgroottes en thread-aantallen, beginnend rond 0,3 GiB/s bij 8K blokken met één thread. De prestaties schaalden scherp tussen 16K en 512K blokken, vooral bij het verhogen van het thread-aantal van 4 naar 16. De meest substantiële winst werd behaald bij blokgroottes van 1M, 5M en 10M, waar de doorvoer dramatisch steeg, met een piek van 103 GiB/s bij een blokgrootte van 10M met 256 threads. Deze progressie toont aan dat de PERC13-array profiteert van grotere blokgroottes en multithreaded parallellisme, met optimale verzadiging rond 64-128 threads, waarna de winst afvlakt.
GDSIO Lees Sequentiële Doorvoer Verschil
In sequentiële lees-tests over blokgroottes van 8K tot 10M, presteerde de PERC13 (H975i) consequent beter dan de PERC12 (H965i), met procentuele winst die dramatisch schaalde bij grotere blokgroottes en hogere thread-aantallen.
Bij kleinere blokgroottes (8K-16K) waren de verbeteringen bescheiden (doorgaans variërend van 0-20%), en in sommige geïsoleerde gevallen liep de H975i licht achter vanwege testvariabiliteit bij lage wachtrijdieptes. Bij blokgroottes van 32K-64K werd het voordeel consistenter, waarbij de H975i 30-50% hogere doorvoer leverde over de meeste thread-aantallen.
De meest significante verschillen werden waargenomen bij grotere blokgroottes (128K tot 10M), waar de PERC13-controller het volledige sequentiële leespotentieel van het systeem ontgrendelde. Hier toonde de H975i winsten van 50-120% vergeleken met de H965i. Bijvoorbeeld, bij een blokgrootte van 1M met 8-16 threads, was de doorvoer meer dan 55 GiB/s hoger, wat neerkomt op ongeveer een 90% verbetering. Bij blokgroottes van 5M en 10M overtroffen de verbeteringen regelmatig 100%, met sommige configuraties die bijna dubbele prestaties lieten zien vergeleken met de vorige generatie.
Over het algemeen vestigde de PERC13 (H975i) een dominante voorsprong in sequentiële lees-workloads, vooral naarmate de blokgrootte en het thread-aantal schaalden. Hoewel kleinere blokgroottes incrementele verbeteringen lieten zien, leverde de nieuwere controller bij 256K en hoger consequent 50-100%+ hogere prestaties, wat duidelijk de architecturale vooruitgang in Dell's nieuwste RAID-platform benadrukt.
GDSIO Lees Sequentiële Latentie
Naarmate de sequentiële leesdoorvoer toenam, bleef de latentie beheersbaar bij kleinere blokgroottes en lagere thread-aantallen. Bijvoorbeeld, de latentie bleef onder de 100 µs tot 64K blokken en 16 threads, wat efficiënte verwerking van lezingen in dat bereik aantoont. Zodra de blokgroottes en thread-aantallen hoger schaalden, vooral bij 5M en 10M met 64 of meer threads, klom de latentie snel, met een piek van 211,8 ms bij een blokgrootte van 10M met 256 threads. Dit benadrukt hoe controller- of wachtrijknelpunten ontstaan onder extreme workloads, ook al blijft de doorvoer hoog.
De beste balans tussen prestaties en efficiëntie werd waargenomen bij de blokgrootte van 1M met 8-16 threads, waar de array 87,5-93,7 GiB/s doorvoer aanhield, terwijl de latentie tussen 179-334 µs bleef. Deze zone vertegenwoordigt de 'sweet spot' voor het maximaliseren van de bandbreedte, terwijl vertragingen ruim onder een milliseconde blijven.
GDSIO Schrijf Sequentiële Doorvoer
Schrijfprestaties vertoonden een sterke vroege schaling naarmate de blokgroottes toenamen, met een doorvoer die steeg van 1,2 GiB/s bij 8K en 1 thread naar 13,9 GiB/s bij 256K. De meest substantiële groei verscheen tussen blokgroottes van 128K en 1M, waar de doorvoer meer dan 80 GiB/s bereikte bij 8 tot 16 threads. De piekprestaties kwamen bij blokgroottes van 5M en 10M, waarbij 100 tot 101 GiB/s werd aangehouden vanaf 8 threads.
De prestaties stabiliseerden zich over 8 tot 64 threads voor deze grotere blokken, wat aangeeft dat de controllers vroeg in de schaalcurve verzadiging bereikten. Bij hogere thread-aantallen, met name 128 en 256 threads, varieerde de doorvoerstabiliteit, bleef stabiel bij grote 5M en 10M blokken op 101 GiB/s, maar daalde voor middelgrote blokgroottes, zoals 256K, van 61,2 GiB/s bij 32 threads naar 45,3 GiB/s bij 256 threads.
GDSIO Schrijf Sequentiële Doorvoer Verschil
In sequentiële schrijf-tests leverde de PERC13 (H975i) aanzienlijke winst op ten opzichte van de PERC12 (H965i), met name naarmate de blokgroottes en thread-aantallen schaalden. Bij kleine blokgroottes (8K-32K) waren de verbeteringen bescheiden, over het algemeen binnen 0-10%, met af en toe testruis die verwaarloosbare verschillen liet zien.
Vanaf 64K werd het voordeel van de H975i duidelijker. Bij een blokgrootte van 64K bereikten de verbeteringen 40-70%, met een doorvoer die met meer dan 12-17 GiB/s toenam vergeleken met de H965i. Bij 128K-256K werd de verbetering sterker, waarbij de H975i consistent 50-70% hogere doorvoer leverde bij gematigde tot hoge thread-aantallen.
De meest dramatische prestatiekloof verscheen bij grotere blokgroottes (512K tot 10M). Bij 512K behaalde de H975i winsten van +31 tot +56 GiB/s, wat overeenkomt met een verbetering van 60-80% ten opzichte van de H965i. Bij een blokgrootte van 1M werd de voorsprong verder vergroot, met doorvoerpieken van +40 tot +68 GiB/s, wat neerkomt op 70-90% winst. Ten slotte verdubbelde de PERC 13 bij blokgroottes van 5M en 10M bijna de doorvoer vergeleken met de PERC 12, met verschillen van +75 tot +79 GiB/s, wat in sommige draad-rijke scenario's resulteerde in 100% verbetering.
Over het algemeen toonde de PERC 13-controller een duidelijke generatiesprong in sequentiële schrijfprestaties. Hoewel de verschillen klein zijn bij de kleinste blokgroottes, levert de H975i naarmate workloads groter worden dan 64K, consequent 50-100% hogere doorvoer, wat zijn superioriteit ten opzichte van de H965i in schrijf-intensieve sequentiële workloads stevig vestigt.
GDSIO Schrijf Sequentiële Latentie
De latentie tijdens sequentiële schrijvingen bleef indrukwekkend laag bij kleinere blokgroottes en lagere thread-aantallen, vaak onder de 50 µs tot 128K blokken met maximaal 8 threads. Naarmate de thread-aantallen toenamen, schaalde de latentie merkbaarder. Bijvoorbeeld, de latentie bereikte 392 µs bij 512K met 32 threads en overschreed 1 ms bij een blokgrootte van 1M met 64 threads.
Verzadigingseffecten werden duidelijker bij de grootste blokgroottes en hoogste gelijktijdigheidsniveaus. De latentie steeg tot 12,4 ms bij 5M met 128 threads en piekte op 50,3 ms bij 10M met 256 threads.
Het meest efficiënte werkingspunt voor sequentiële schrijf-workloads werd waargenomen bij blokgroottes van 1M of 5M met 8 tot 16 threads, waar de doorvoer 87,9 tot 101,2 GiB/s bereikte, terwijl de latentie binnen 178 µs – 1,7 ms bleef, wat sterke aanhoudende prestaties levert zonder excessieve schrijf-wachtrijvertragingen te veroorzaken.
MLPerf Storage 2.0 Prestaties
Om real-world prestaties in AI-trainingsomgevingen te evalueren, hebben we de MLPerf Storage 2.0 testsuite gebruikt. MLPerf Storage is speciaal ontworpen om I/O-patronen in echte, gesimuleerde deep learning-workloads te testen. Het biedt inzichten in hoe opslagsystemen omgaan met uitdagingen zoals checkpointing en modeltraining.
Checkpointing Benchmark
Bij het trainen van machine learning-modellen zijn checkpoints essentieel voor het periodiek opslaan van de status van het model. Dit helpt verlies van voortgang door onderbrekingen, zoals hardwarefouten, te voorkomen, maakt vroegtijdig stoppen tijdens training mogelijk en stelt onderzoekers in staat om vanuit verschillende checkpoints te vertakken voor experimenten en ablations.
De vergelijking van de duur van het opslaan van checkpoints toonde aan dat Dell PERC13 consequent beter presteerde dan PERC12 voor alle modelconfiguraties. PERC 13 behaalde opslagtijden variërend van 7,61 tot 10,17 seconden, terwijl PERC12 10,41 tot 20,67 seconden nodig had voor dezelfde bewerkingen. Het prestatieverschil was het meest uitgesproken bij het 1T-parameter model, waar PERC13 saves in iets meer dan 10 seconden voltooide vergeleken met de 20+ seconden van PERC12. Dit vertegenwoordigt een reductie van ongeveer 50% in opslagtijd voor de grootste modellen.
Bij het onderzoeken van de resultaten van de opslagdoorvoer, toont de data de superieure bandbreedtebenutting van PERC13, die consequent hogere gegevensoverdrachtsnelheden levert. PERC13 behaalt een doorvoer tussen 11,46 en 14,81 GB/s, met piekprestaties op het 1T-model. Daarentegen haalt PERC12 maximaal 9,49 GB/s en daalt tot 6,98 GB/s voor de grootste configuratie. De nieuwere controller handhaaft stabielere prestaties over verschillende modelgroottes, wat suggereert dat deze beter is geoptimaliseerd voor het verwerken van grote sequentiële schrijvingen die typisch zijn voor checkpoint-bewerkingen.
Contactpersoon: Ms. Sandy Yang
Tel.: 13426366826



