| NVIDIA L4 specificaties | |
|---|---|
| FP 32 | 30.3 teraFLOP's |
| TF32 Tensor Core | 60 teraFLOP's |
| FP16 Tensor Core | 121 teraFLOP's |
| BFLOAT16 Tensor Core | 121 teraFLOP's |
| FP8 Tensor Core | 242.5 teraFLOP |
| INT8 Tensor Core | 242.5 TOP's |
| GPU-geheugen | 24 GB GDDR6 |
| GPU geheugen bandbreedte | 300 GB/s |
| Maximaal thermisch ontwerpvermogen (TDP) | 72 W |
| Vormfactor | 1-slot laagprofiel PCIe |
| Interconnectie | PCIe Gen4 x16 |
| Spec Grafiek | L4 |
Natuurlijk, met de L4 ergens in de buurt van $2500, de A2 komt bij ongeveer de helft van de prijs, en de oudere (nog steeds vrij bekwaam) T4 beschikbaar voor minder dan $1000 gebruikt,De voor de hand liggende vraag is wat het verschil is tussen deze drie inferentie GPU's..
| NVIDIA L4, A2 en T4 specificaties | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 teraFLOP's | 4.5 teraFLOP | 8.1 teraFLOP's |
| TF32 Tensor Core | 60 teraFLOP's | 9 teraFLOP's | N/A |
| FP16 Tensor Core | 121 teraFLOP's | 18 teraFLOP's | N/A |
| BFLOAT16 Tensor Core | 121 teraFLOP's | 18 teraFLOP's | N/A |
| FP8 Tensor Core | 242.5 teraFLOP | N/A | N/A |
| INT8 Tensor Core | 242.5 TOP's | 36 TOPS | 130 TOPS |
| GPU-geheugen | 24 GB GDDR6 | 16 GB GDDR6 | 16 GB GDDR6 |
| GPU geheugen bandbreedte | 300 GB/s | 200 GB/s | 320+ GB/s |
| Maximaal thermisch ontwerpvermogen (TDP) | 72 W | 40-60 W | 70 W |
| Vormfactor | 1-slot laagprofiel PCIe | ||
| Interconnectie | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Spec Grafiek | L4 | A2 | T4 |
Eén ding om te begrijpen als je naar deze drie kaarten kijkt is dat ze niet precies generatie-op-generatie vervangingen zijn, wat verklaart waarom de T4 nog steeds, vele jaren later,een populaire keuze voor sommige gebruiksgevallenDe A2 kwam als vervanging voor de T4 als een minder krachtige en meer compatibele optie (x8 versus x16 mechanische).met de A2 over een in-tussen dat kan of niet kan worden vernieuwd op een gegeven moment in de toekomst.
MLPerf Inferentie 3.1 Prestaties
MLPerf is een consortium van AI-leiders uit de academische wereld, onderzoek en industrie dat is opgericht om eerlijke en relevante AI-hardware- en software-benchmarks te bieden.Deze benchmarks zijn ontworpen om de prestaties van machine learning hardware te meten, software en diensten voor verschillende taken en scenario's.
Onze tests richten zich op twee specifieke MLPerf benchmarks: Resnet50 en BERT.
- Resnet50: Dit is een convolutioneel neuraal netwerk dat voornamelijk wordt gebruikt voor beeldclassificatie.
- BERT (Bidirectional Encoder Representations from Transformers): deze benchmark richt zich op natuurlijke taalverwerkingstaken,het bieden van inzichten in hoe een systeem presteert bij het begrijpen en verwerken van menselijke taal.
Beide tests zijn cruciaal voor het evalueren van de mogelijkheden van AI-hardware in real-world scenario's met behulp van beeld- en taalverwerking.
Het evalueren van de NVIDIA L4 met deze benchmarks is van cruciaal belang om de mogelijkheden van de L4 GPU in specifieke AI-taken te begrijpen.Het biedt ook inzicht in hoe verschillende configuraties (eenvoudigeDeze informatie is essentieel voor professionals en organisaties die hun AI-infrastructuur willen optimaliseren.
De modellen werken in twee belangrijke modus: Server en Offline.
- Offline-modus: deze modus meet de prestaties van een systeem wanneer alle gegevens tegelijkertijd beschikbaar zijn voor verwerking.wanneer het systeem een grote dataset in één partij verwerktOffline-modus is cruciaal voor scenario's waarin latentie niet een primaire zorg is, maar doorvoer en efficiëntie wel.
- Servermodus: In tegenstelling hiertoe evalueert de servermodus de prestaties van het systeem in een scenario dat een echte serveromgeving nabootst, waarbij verzoeken één voor één binnenkomen.het meten van de snelheid waarmee het systeem kan reageren op elk verzoekHet is essentieel voor real-time toepassingen, zoals webservers of interactieve toepassingen, waar onmiddellijke reactie nodig is.
1 x NVIDIA L4 Dell PowerEdge XR7620
Als onderdeel van onze recente review van de Dell PowerEdge XR7620, uitgerust met een enkele NVIDIA L4, namen we het naar de rand om verschillende taken uit te voeren, waaronder MLPerf.
Onze testconfiguratie omvatte de volgende componenten:
- 2 x Xeon Gold 6426Y ∙ 16-kern 2,5 GHz
- 1 x NVIDIA L4
- 8 x 16 GB DDR5
- 480 GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Score |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 13,010.20 |
| BERT K99 Server | 898.945 |
| BERT K99 Offline | 973.435 |
De prestaties in server- en offline-scenario's voor Resnet50 en BERT K99 zijn bijna identiek, wat aangeeft dat de L4 consistent presteert in verschillende servermodellen.
1, 2 & 4 NVIDIA L4 ¢ s ¢ Dell PowerEdge T560
Onze configuratie van de herzieningseenheid omvatte de volgende componenten:
- 2 x Intel Xeon Gold 6448Y (32-core/64-thread elk, 225-watt TDP, 2,1-4,1 GHz)
- 8 x 1,6 TB Solidigm P5520 SSD's met PERC 12 RAID-kaart
- 1-4x NVIDIA L4 GPU's
- 8 x 64 GB RDIMM's
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge T560 1x NVIDIA L4 | Score |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 12,872.10 |
| Bert K99 Server | 898.945 |
| Bert K99 Offline | 945.146 |
In onze tests met twee L4's in de Dell T560 zagen we deze bijna lineaire schaal in de prestaties voor zowel Resnet50 als BERT K99 benchmarks.Deze schaalbaarheid is een bewijs van de efficiëntie van de L4 GPU's en hun vermogen om in tandem te werken zonder aanzienlijke verliezen als gevolg van overhead of inefficiëntie.
| Dell PowerEdge T560 2x NVIDIA L4 | Score |
|---|---|
| Resnet50 Server | 24,407.50 |
| Resnet50 Offline | 25,463.20 |
| BERT K99 Server | 1,801.28 |
| BERT K99 Offline | 1,904.10 |
De consistente lineaire schaalbaarheid die we zagen met twee NVIDIA L4-GPU's strekt zich indrukwekkend uit tot configuraties met vier L4-eenheden. This scaling is particularly noteworthy as maintaining linear performance gains becomes increasingly challenging with each added GPU due to the complexities of parallel processing and resource management.
| Dell PowerEdge T560 4x NVIDIA L4 | Score |
|---|---|
| Resnet50 Server | 48,818.30 |
| Resnet50 Offline | 51,381.70 |
| BERT K99 Server | 3,604.96 |
| BERT K99 Offline | 3,821.46 |
Deze resultaten zijn uitsluitend voor illustratieve doeleinden en geen concurrerende of officiële MLPerf-resultaten.
Naast het valideren van de lineaire schaalbaarheid van de NVIDIA L4 GPU's, werpen onze tests in het laboratorium licht op de praktische implicaties van het inzetten van deze eenheden in verschillende operationele scenario's.Bijvoorbeeld:, de consistentie in prestaties tussen server- en offline-modi in alle configuraties met de L4-GPU's onthult hun betrouwbaarheid en veelzijdigheid.
Dit aspect is met name relevant voor bedrijven en onderzoeksinstellingen waar de operationele context aanzienlijk verschilt. our observations on the minimal impact of interconnect bottlenecks and the efficiency of GPU synchronization in multi-GPU setups provide valuable insights for those looking to scale their AI infrastructureDeze inzichten gaan verder dan louter referentienummers en bieden een dieper inzicht in hoe dergelijke hardware optimaal kan worden gebruikt in real-world scenario's.het begeleiden van betere architectonische beslissingen en investeringsstrategieën in AI- en HPC-infrastructuur.
NVIDIA L4 ¢ Applicatieprestaties
We hebben de prestaties van de nieuwe NVIDIA L4 vergeleken met de NVIDIA A2 en NVIDIA T4 die daarvoor kwamen.We hebben alle drie de modellen in een server in ons lab geplaatst., met Windows Server 2022 en de nieuwste NVIDIA stuurprogramma's, gebruikmakend van onze volledige GPU test suite.
Deze kaarten zijn getest op een Dell Poweredge R760 met de volgende configuratie:
- 2 x Intel Xeon Gold 6430 (32 kernen, 2,1 GHz)
- Windows Server 2022
- NVIDIA Driver 538.15
- ECC uitgeschakeld op alle kaarten voor 1x bemonstering
Terwijl we de prestatietests tussen deze groep van drie enterprise GPU's starten, is het belangrijk om de unieke prestatieverschillen tussen de eerdere A2- en T4-modellen op te merken.Toen de A2 werd uitgebrachtHet biedt enkele opmerkelijke verbeteringen, zoals lager stroomverbruik en het werken op een kleinere PCIe Gen4 x8 slot, in plaats van de grotere PCIe Gen3 x16 slot die de oudere T4 vereiste.Hij kon meteen in meer systemen inloggen., vooral met de kleinere voetafdruk die nodig is.
Blender OptiX 4.0
Blender OptiX is een open-source 3D-modellering applicatie.Deze benchmark is uitgevoerd met het Blender Benchmark CLI hulpprogrammaDe score is monsters per minuut, hoger is beter.
| Blender vier.0 (Hoger is beter) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| Grafiek blender CLI Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI Classroom | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW snelheidstest
We testen CPU's en GPU's met Blackmagic's RAW Speed Test, die video-afspeel snelheden test.Deze worden weergegeven als afzonderlijke resultaten maar we zijn alleen gericht op de GPU's hier, dus de CPU resultaten worden weggelaten.
| Blackmagic RAW snelheidstest (Hoger is beter) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon's Cinebench 2024 is een CPU en GPU rendering benchmark die alle CPU cores en threads gebruikt.Hogere cijfers zijn beter.
| Cinebench 2024 (Hoger is beter) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU's | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 is een versie van het lichtgewicht benchmarkinghulpprogramma dat is ontworpen om π (pi) tot miljarden decimalen te berekenen met behulp van hardwareversnelling via GPU's en CPU's.Het maakt gebruik van de rekenkracht van OpenCL en CUDA, die zowel centrale als grafische verwerkingseenheden omvat.We hebben CUDA alleen op alle 3 GPU's uitgevoerd en de cijfers hier zijn de berekeningstijd zonder reductietijd toegevoegd.
| GPU PI Berekeningstijd in seconden (Lager is beter) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 1B | 3.732's | 19.799's | 7.504's |
| GPUPI v3.3 32B | 244.380's | 1,210.801's | 486.231's |
Terwijl de eerdere resultaten slechts een enkele iteratie van elke kaart zagen, hadden we ook de kans om te kijken naar een 5x NVIDIA L4 implementatie in de Dell PowerEdge T560.
| GPU PI Berekeningstijd in seconden (Lager is beter) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) met 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 1B | 0sec 850 ms |
| GPUPI v3.3 32B | 50sec 361ms |
Octanebench
OctaneBench is een benchmarking hulpprogramma voor OctaneRender, een andere 3D-renderer met RTX-ondersteuning vergelijkbaar met V-Ray.
| Octane (Hoger is beter) | ||||
| Scène | Kernel | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Interieur | Informatiekanalen | 15.59 | 4.49 | 6.39 |
| Directe verlichting | 50.85 | 14.32 | 21.76 | |
| Tracering van paden | 64.02 | 18.46 | 25.76 | |
| Een idee. | Informatiekanalen | 9.30 | 2.77 | 3.93 |
| Directe verlichting | 39.34 | 11.53 | 16.79 | |
| Tracering van paden | 48.24 | 14.21 | 20.32 | |
| ATV's | Informatiekanalen | 24.38 | 6.83 | 9.50 |
| Directe verlichting | 54.86 | 16.05 | 21.98 | |
| Tracering van paden | 68.98 | 20.06 | 27.50 | |
| Doos | Informatiekanalen | 12.89 | 3.88 | 5.42 |
| Directe verlichting | 48.80 | 14.59 | 21.36 | |
| Tracering van paden | 54.56 | 16.51 | 23.85 | |
| Totaal score | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6 is een cross-platform benchmark die de algehele systeemprestaties meet. Er zijn testopties voor zowel CPU- als GPU-benchmarking. Hogere scores zijn beter.We keken alleen naar de GPU resultaten..
Je kunt vergelijkingen vinden met elk systeem dat je wilt in de Geekbench Browser.
| Geekbench 6.1.0 (Hoger is beter) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark is een OpenCL cross-platform benchmarking tool van degenen die de open-source 3D rendering engine LuxRender onderhouden.Voor dit onderzoekIn LuxMark is hoger beter als het gaat om de score.
| Luxmark v4.0alpha0 OpenCL GPU's (Hoger is beter) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Hall Bench | 14,328 | 3,759 | 5,893 |
| Voedselbank | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
We hebben ook GROMACS gecompileerd, een moleculaire dynamica software, speciaal voor CUDA.essentieel voor het versnellen van computationele simulaties.
Het proces omvatte het gebruik van nvcc, NVIDIA's CUDA compiler,Samen met vele iteraties van de juiste optimalisatie vlaggen om ervoor te zorgen dat de binaire gegevens waren goed afgestemd op de server architectuurDe opname van CUDA-ondersteuning in de GROMACS-compilatie stelt de software in staat om rechtstreeks met de GPU-hardware te communiceren, wat de rekentijd voor complexe simulaties drastisch kan verbeteren.
De test: Interactie met aangepaste eiwitten in Gromacs
Gebruikmakend van een inputbestand van onze diverse Discord, met parameters en structuren op maat van een specifieke proteïne-interactie studie,We hebben een moleculaire dynamica simulatie gestart.De resultaten waren opmerkelijk: het systeem bereikte een simulatiesnelheid van 170,268 nanoseconden per dag.
| GPU's | Systemen | ns/dag | kerntijd (en) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 w/ 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Meer dan AI
Sandy Yang, directeur Global Strategy
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zaken:
Distributie van ICT-producten/Systeemintegratie en diensten/Infrastructuuroplossingen
Met meer dan 20 jaar IT-distributie-ervaring werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
Technologie gebruiken om een intelligente wereld te bouwenUw betrouwbare ICT-productdienstverlener!



