Thuis Gevallen

Schaalvergroting van AI-checkpoints: De impact van SSD's met hoge capaciteit op modeltraining

Alle producten

De Server van de rekopslag
(179)

De Server van de Huaweifusie
(31)

Dell Poweredge Server
(59)

H3C-server
(31)

Datacomschakelaars
(96)

WLAN-Apparaat
(21)

Slimme Draadloze Router
(17)

Harde Aandrijving HDD
(78)

Interne Harde Aandrijving SSD
(16)

Geforce Grafische Kaart
(27)

De Bewerker van INTEL cpu
(20)

Servergeheugen RAM
(6)

Gerenoveerde Opslagserver
(6)

SFP-Zendontvangermodule
(4)

Fibre Channel-Schakelaar
(125)

Certificaat

China Beijing Qianxing Jietong Technology Co., Ltd. certificaten

Klantenoverzichten

De verkoopdeskundigen van de Technologieco. van Peking Qianxing Jietong, Ltd zijn zeer en geduldig. Zij kunnen citaten snel verstrekken. De kwaliteit en de verpakking van de producten zijn ook zeer goed. Onze samenwerking is zeer vlot.

—— 《Festfing DV》 LLC

Toen ik Intel cpu en Toshiba SSD dringend zocht, Zandig van Peking Qianxing Jietong gaf Technologieco., Ltd me heel wat hulp en kreeg me de producten die ik snel heb gewenst. Ik waardeer haar werkelijk.

—— Kitty Yen

Zandig van Peking Qianxing Jietong is Technologieco., Ltd een zeer zorgvuldige verkoper, die me aan configuratiefouten kan op tijd herinneren wanneer ik een server koop. De ingenieurs zijn ook zeer professioneel en kunnen het testende proces snel voltooien.

—— Strelkin Mikhail Vladimirovich

We zijn erg blij met onze ervaring met Beijing Qianxing Jietong. De productkwaliteit is uitstekend en de levering is altijd op tijd. Hun verkoopteam is professioneel, geduldig en zeer behulpzaam met al onze vragen. We waarderen hun steun enorm en kijken uit naar een langdurige samenwerking. Sterk aanbevolen!

—— Ahmad Navid

Kwaliteit: Grote ervaring met mijn leverancier. De MikroTik RB3011 was al gebruikt, maar het was in zeer goede staat en alles werkte perfect.en al mijn zorgen werden snel aangepakt.- Zeer betrouwbare leverancier.

—— Geran Colesio

Ik ben online Chatten Nu

Schaalvergroting van AI-checkpoints: De impact van SSD's met hoge capaciteit op modeltraining

March 13, 2026

Checkpointing is essentieel voor de opleiding van AI-modellen, omdat het veerkracht, operationele efficiëntie en de mogelijkheid biedt om de opleiding vanaf opgeslagen toestanden te hervatten of af te stemmen.De eisen van de moderne AI-werklasten, die worden gekenmerkt door steeds complexere modellen en uitgebreide trainingsdatabanken, brengen opslagsystemen tot hun absolute grenzen..

De rol van checkpoints in AI-workflows

Checkpointing in AI training is een essentieel proces waarbij periodiek de volledige staat van een model tijdens de trainingscyclus wordt opgeslagen.Optimalisator-toestandenHet is de bedoeling dat de onderwijsactiviteiten van de onderwijsinstellingen worden gecoördineerd en dat de onderwijsactiviteiten van de onderwijsinstellingen worden uitgebreid.de controlepunten zorgen voor continuïteit van de opleiding en zorgen voor herstel in geval van onderbrekingen.

Checkpoints worden meestal vastgelegd in iteratie-gebaseerde intervallen (bijv. elke duizend trainingsstappen). Modern large language model (LLM) training— which can span weeks or even months and consume massive computational resources—relies heavily on these checkpoints as a safety net against potential failuresBijvoorbeeld, het trainen van een GPT-4-klasse model kan checkpoints genereren die variëren van enkele honderden gigabytes tot meerdere terabytes, afhankelijk van de modelgrootte en trainingsconfiguratie.

Trainingsproces gegenereerd door DALL-E

Het belangrijkste doel van checkpoints gaat verder dan alleen back-upfunctionaliteit.het mogelijk maken om de training te hervatten vanaf de laatste opgeslagen staat in plaats van opnieuw te starten bij systeemfalenDe controlepunten zijn bovendien van onschatbare waarde voor de modelanalyse:Zij stellen onderzoekers in staat de evolutie van het model in verschillende trainingsstadia te onderzoeken en eventueel terug te keren naar eerdere toestanden indien een afname van de prestaties wordt vastgesteld..

Wanneer een checkpoint wordt geactiveerd, moet het systeem enorme hoeveelheden gegevens in een barstpatroon schrijven.Dit creëert een duidelijk I/O profiel: perioden van relatief lage opslagactiviteit tijdens trainingsberekeningen, gevolgd door intense, high-bandwidth write-operaties tijdens checkpoints.Deze schrijfoperaties zijn meestal sequentieel en kunnen aanzienlijk profiteren van opslagsystemen die zijn geoptimaliseerd voor sequentieel schrijven met een hoge bandbreedte.

Verschillende parallelisme-strategieën in gedistribueerde training kunnen een aanzienlijke impact hebben op het gedrag van checkpoints.Deze strategieën beïnvloeden wanneer tijdens de training checkpoints worden geplaatst en welk deel van het model wordt opgeslagenIn moderne gedistribueerde trainingsopstellingen kunnen meerdere GPU's tegelijkertijd verschillende delen van dezelfde laag schrijven, waardoor complexe I/O-patronen worden gecreëerd.Deze parallelle schrijfcapaciteit is de sleutel tot efficiëntie, maar vereist een zorgvuldige coördinatie en robuuste opslagsystemen die gelijktijdige schrijfoperaties kunnen verwerken en tegelijkertijd de consistentie van de gegevens behoudenEen eventuele knelpunt in dit proces kan leiden tot grote vertraging van de opleiding.

Een langzame controle kan aanzienlijke training knelpunten veroorzaken, omdat het hele trainingsproces moet worden onderbroken terwijl de controle op de opslag wordt geschreven.als de controle elke paar uur 30 minuten duurt, kan dit resulteren in een aantal uren aan geaccumuleerde stilstand gedurende de gehele opleidingsperiode.Dit heeft rechtstreeks invloed op de efficiëntie van de opleiding en verhoogt de operationele kosten, vooral in cloudomgevingen waar rekenkrachten per uur worden gefactureerd..

Een snellere checkpointing stelt teams ook in staat om vaker checkpoints te creëren, waardoor het maximale potentiële gegevensverlies bij storingen wordt verminderd.Dit maakt agressievere opleidingsbenaderingen en verbeterde experimentele iteratiecycli mogelijkBovendien vergemakkelijken snelle laadtijden van checkpoints snellere experimenten met verschillende trainingsconfiguraties en modelarchitecturen.Het is de bedoeling dat de onderzoekers de resultaten van de onderzoeksprocedures kunnen herstellen..

Het vermogen van het opslagsysteem om deze controleposten efficiënt te beheren, wordt een cruciale factor in de algemene opleidingsinfrastructuur. High-performance storage solutions that can manage both the burst write patterns of checkpointing and the sustained read/write operations of training can significantly reduce the total time and cost of training large language modelsDus, the storage subsystem’s performance characteristics—particularly its ability to handle large sequential writes and maintain consistent high bandwidth—are crucial considerations when designing LLM training infrastructure.

Voor dit rapport probeerden we de prestaties van SSD's te evalueren voor AI checkpointing, waarbij de voordelen van de nieuwste Gen5 SSD's werden beoordeeld wanneer de snelheid van het checkpoint kritisch is,In vergelijking met de grootste QLC-SSD's op de markt, die een groot aantal checkpoints kunnen opslaan als dat voordeliger is voor het getrainde model..

Checkpoint Performance ¢ Benchmarking met DLIO

Om de real-world prestaties van de Solidigm SSD's in AI-trainingsomgevingen te evalueren, gebruikten we de Data and Learning Input/Output (DLIO) benchmark tool.DLIO is speciaal ontworpen voor het testen van I/O-patronen in deep learning-workloads, die inzichten verschaft in de manier waarop opslagsystemen omgaan met de uitdagingen van checkpoints, gegevensinname en modeltraining.

Met behulp van DLIO wilden we de doorvoer, latentie en betrouwbaarheid van de schijf meten onder intensieve checkpoint-scenario's.de eerste prestatiegegevens geven aan dat de Solidigm D5-P5336 122TB-versie een vergelijkbaar prestatieprofiel biedtWe hebben ook resultaten opgenomen van een TLC-gebaseerde D7-PS1010 om de voordelen van PCIe Gen5 in deze test aan te tonen.een die zich richt op de snelst mogelijke tijd van het controlepunt, en de andere op het opslaan van het maximale aantal checkpoints op een enkele SSD.

Het platform dat werd gekozen voor dit werk was onze Dell PowerEdge R760 met Ubuntu 22.04.02 LTS. We gebruikten DLIO benchmark versie 2.0 vanaf de release van 13 augustus 2024.

2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
16 x 64 GB DDR5-4400
480 GB Dell BOSS SSD
Serial Cables Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336

Om ervoor te zorgen dat onze benchmarking realistische scenario's weerspiegelt, hebben we onze testen gebaseerd op de LLAMA 3.1 405B-modelarchitectuur, waarbij we checkpoints implementeren via torch.save() om modelparameters vast te leggen,Optimalisator-toestandenOnze setup simulateerde een 8-GPU systeem, implementeren van een hybride parallelisme strategie met 4-way tensor parallel en 2-way pipeline parallel verwerking verdeeld over de acht GPU's.Deze configuratie resulteerde in checkpointgroottes van 1.636 GB, representatief voor de moderne grote taalmodelopleidingsvereisten.

Onze testprocedure voor de DLIO-checkpoint werklast bestond uit het vullen van elke schijf tot een vergelijkbaar gebruiksniveau.in totaal 54 TBDe kleinere 7,68 TB D7-PS1010 past comfortabel in drie checkpointintervallen, met een totale afdruk van 4,9 TB. Een extra checkpoint zou in de D7-PS1010 kunnen passen,Hoewel het haar benutting iets hoger bracht dan we wilden.

De DLIO checkpoint werklast leverde interessante resultaten op toen we de Gen4 QLC-gebaseerde 61.44TB D5-P5536 vergeleken met de Gen5 TLC-gebaseerde 7.68TB D7-PS1010.We zagen een bredere kloof in prestaties tussen de twee SSD-modellenDe snellere Gen5 PS1010 voltooide elk controlepunt gemiddeld in 464 seconden, vergeleken met 623 seconden van de Gen4 P5336.de kloof is verkleind tot 579 en 587 seconden voor de PS1010 en 676 en 680 seconden voor de P5336.

Voor bedrijven die op zoek zijn naar de kleinste mogelijke kloof in checkpointintervallen, biedt de op TLC gebaseerde Gen5 PS1010 een voordeel in de snelste voltooiingstijd.Als het doel is om veel controleposten kosteneffectief te behoudenWe hebben gemeten dat de gemiddelde checkpointtijden minder dan 17% verschillen tussen de twee ritten tijdens passes twee en drie.

GPUDirect Storage Bandwidth

Terwijl DLIO flashprestaties toont in een AI-workflow, is de werklast volledig op schrijven gebaseerd totdat een checkpoint wordt hersteld.Om een vollediger beeld te krijgen van de Solidigm D7-PS1010 en D5-P5336 in AI-werkbelastingen, hebben we bandbreedte metingen met GDSIO opgenomen.

Hoe werkt GPU Direct Storage

Traditioneel, wanneer een GPU gegevens verwerkt die zijn opgeslagen op een NVMe-station, moeten de gegevens eerst door de CPU en het systeemgeheugen reizen voordat ze de GPU bereiken.Als de CPU een tussenpersoon wordtGPU Direct Storage elimineert deze inefficiëntie door de GPU toegang te geven tot gegevens rechtstreeks vanaf het opslagapparaat via de PCIe-bus.Dit directe pad vermindert de overhead verbonden aan gegevensverplaatsing, waardoor snellere en efficiëntere gegevensoverdrachten mogelijk zijn.

AI-werklasten, met name die met deep learning, zijn zeer data-intensief.en elke vertraging in gegevensoverdracht kan leiden tot onderbenutte GPU's en langere trainingstijden. GPU Direct Storage gaat deze uitdaging aan door ervoor te zorgen dat gegevens zo snel mogelijk naar de GPU worden geleverd, waardoor de rusttijd wordt geminimaliseerd en de berekeningsdoeltreffendheid wordt geoptimaliseerd.

Net als de DLIO-test is het doel om de verschillen tussen high-speed Gen5 SSD's en QLC's met een hoge capaciteit beter te begrijpen en te karakteriseren.En elke aandrijving biedt duidelijke voordelen., afhankelijk van de behoefte.

Testing Configuration Matrix

We hebben systematisch elke combinatie van de volgende parameters getest met een NVIDIA L4 in ons testplatform:

Blockgroottes: 1M, 128K, 64K, 16K, 8K
Aantal draden: 128, 64, 32, 16, 8, 4, 1
Aantal banen: 16
Batchgroottes: 16

Onze eerste blik was op de QLC-gebaseerde D5-P5336, die een topsnelheid van 4,2 GiB/s bereikte met behulp van een 1M-transfergrootte op een IO-diepte van 128.van 8K naar 1M.Het voordeel van een grotere IO-diepte begon op 32 te verminderen, waar de werkdrukken begonnen te verdwijnen.

Vervolgens kijken we naar de Gen5 PS-1010, die kan schalen tot 6,2 GiB/s bij een blokgrootte van 1M en een IO-diepte van 128.met specifieke werkbelastingen die een aanzienlijke opheffing aantonenEen opmerkelijk gebied van verbetering kwam in de 128K blokgrootte, waar de PS1010 bij een IO-diepte van 64 en 128 het dubbele van de leesbandbreedte van de P5336 bood.

Het is belangrijk om op te merken dat beide SSD's werden getest met de NVIDIA L4. Terwijl de Gen4 D5-P5336 aan of nabij zijn bovenste einde is, is de NVIDIA L4 een van de meest bekende SSD's.hogere modellen NVIDIA GPU's zoals de H100 toonden een hogere prestaties met de D7-PS1010Voor sommige klanten is de snelheid van een aandrijving de uiteindelijke beslissende factor, terwijl voor anderen de algemene dichtheid een prioriteit is.SolidigmeHet biedt oplossingen voorbeide, met zijnQLC en TLC SSD-aanbiedingen.

Conclusies

Aangezien de schaal en complexiteit van AI-opleiding steeds groter wordt, moet de onderliggende opslaginfrastructuur niet alleen het tempo bijhouden, maar ook het tempo bepalen. Our tests with two distinctly different SSDs highlight the importance of aligning storage solutions with specific training priorities—whether that means minimizing checkpoint latency or maximizing checkpoint density for cost-effective scalability.

In onze evaluatie testten we de Solidigm D5-P5336 (61.44TB) en de D7-PS1010 (7.68TB) onder realistische AI-trainingsomstandigheden.Het gebruik van de DLIO-benchmark en een uitgebreide hybride-parallelle LLM-checkpointing-workflowWe hebben metingen vastgelegd die de prestaties van het schrijven van checkpoints weerspiegelen tijdens meerdere testruns terwijl de schijven werden gevuld.het onderstrepen van de prestatieverschillen in voltooiingstijden tussen de op Gen4 QLC gebaseerde D5-P5336 en de op Gen5 TLC gebaseerde D7-PS1010.

Terwijl de D7-PS1010 het snelst mogelijke checkpoint schrijft, heeft de D5-P5336 een overtuigende kosteneffectiviteit en capaciteitsvoordelen aangetoond, met slechts een bescheiden prestatiecompensatie.We onderzochten verder GPU Direct Storage (GDS) leesbandbreedten met behulp van GDSIO met een NVIDIA L4 GPUOnze bevindingen toonden aan dat de Solidigm D5-P5336 tot 4,2 GiB/s leesbandbreedte leverde met een transfergrootte van 1M, terwijl de D7-PS1010 een aanzienlijke uplift leverde tot 6,2 GiB/s.De prestaties zouden nog indrukwekkender zijn als je een krachtigere GPU gebruikt., zoals de NVIDIA L40s of de H100/H200.

De ongekende capaciteit van de Solidigm D5-P5336 122TB SSD is klaar om AI training en inzet te veranderen.Deze hoge capaciteit aandrijvingen ontsluiten nieuwe niveaus van efficiëntie en flexibiliteit, waardoor trainingstrategieën mogelijk zijn die voorheen onbereikbaar waren. Solidigm's leiderschap op het gebied van SSD-oplossingen met een hoge capaciteit stelt organisaties in staat om meer gegevens en checkpoints op minder schijven op te slaan,en hun infrastructuur toekomstbestendig maken tegen de volgende golf van AI-complexiteit..

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, directeur Global Strategy
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com

Zaken:
Distributie van ICT-producten/Systeemintegratie en diensten/Infrastructuuroplossingen
Met meer dan 20 jaar IT-distributie-ervaring werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
Technologie gebruiken om een intelligente wereld te bouwenUw betrouwbare ICT-productdienstverlener!

PREV: De Micron 6550 ION SSD: Gen5 prestaties, energie-efficiëntie en hoge capaciteit in één schijf

NEXT: Vloeistofkoeling Komt naar uw Datacenter: Dell Tech World Belicht de Opties

Contactgegevens

Beijing Qianxing Jietong Technology Co., Ltd.

Contactpersoon: Ms. Sandy Yang

Tel.: 13426366826

Schaalvergroting van AI-checkpoints: De impact van SSD's met hoge capaciteit op modeltraining

De Server van de rekopslag

De Server van de Huaweifusie

Dell Poweredge Server

H3C-server

Datacomschakelaars

WLAN-Apparaat

Slimme Draadloze Router

Harde Aandrijving HDD

Interne Harde Aandrijving SSD

Geforce Grafische Kaart

De Bewerker van INTEL cpu

Servergeheugen RAM

Gerenoveerde Opslagserver

SFP-Zendontvangermodule

Fibre Channel-Schakelaar

Schaalvergroting van AI-checkpoints: De impact van SSD's met hoge capaciteit op modeltraining

GPUDirect Storage Bandwidth

Hoe werkt GPU Direct Storage

Testing Configuration Matrix

Conclusies

De Server van de rekopslag

12 het Rekserver van Lenovo ThinkSystem SR630 van de baaien1u Rackmount Server

Van de de Opslagserver van het ThinkSystemsr250 V2 4SFF Rek de Bewerker van Intel Xeon e-2378G

Van de het Rekopslag van Intel C621A het Rek van de Serverinspur NF5180M6 1U zet Server op

De Server van de Huaweifusie

FusionServer 5288 het Rekserver 32 DDR4 DIMMs van V6 4U 44 3,5 Duimharde schijven

Ultra Hoog - van de de Fusieserver 1U van dichtheidshuawei van de het Netwerkopslag de Server 1288H V5

Nieuw Gen OceanStor 5310 Huawei-Hybride de Flitsopslag van de Rekserver