AMD heeft zijn MLPerf Inference v6.0 benchmark resultaten aangekondigd, positionering van de Instinct MI355X GPU als een zeer schaalbaar inferentie platform in staat om single-node, multi-node,en heterogene inzetBehalve de incrementele prestatiewinst introduceert de inzending nieuwe werkbelastingen, toont cluster-schaal doorvoer van meer dan 1 miljoen tokens per seconde,en valideert consistente prestatiereproduceerbaarheid in een groeiend partner-ecosysteem.
CDNA 4 Architectuurdoelstellingen High-Capacity Inference
De Instinct MI355X is gebouwd op AMD's CDNA 4-architectuur, waarbij gebruik wordt gemaakt van een TSMC dual-process chiplet-ontwerp: compute dies (XCD's) gebruiken een 3nm-knooppunt, terwijl I/O dies gebruik maken van 6nm FinFET-technologie.Het multi-chipletpakket bevat 185 miljard transistors en ondersteunt FP4 en FP6 gegevensformaten, die van cruciaal belang zijn voor een efficiënte inferentie van grote modellenElke GPU is uitgerust met maximaal 288 GB HBM3E-geheugen (met 8 TB/sec geheugenbandbreedte), waardoor ondersteuning voor modellen tot 520 miljard parameters op een enkel apparaat mogelijk is.AMD benadrukt dat deze combinatie van berekeningsdichtheid en geheugencapaciteit de noodzaak van overmatige modelpartitionering wegneemt, een belangrijk voordeel voor grootschalige inferentiewerkbelastingen.
Het platform is verkrijgbaar in UBB8-configuraties en biedt zowel luchtgekoelde als directe vloeistofgekoelde opties.de MI355X beschikt over een 1400W TBP (Thermal Design Power) met vloeistofkoeling, met een hogere prestatie dan de luchtgekoelde MI350X.
Multinode doorvoer overschrijdt 1 miljoen tokens per seconde
Een opvallende prestatie van de MLPerf v6.0 ronde is AMD's cluster-scale doorvoer van meer dan 1 miljoen tokens per seconde.AMD bereikte deze mijlpaal met Llama 2 70B in zowel Server als Offline scenario's, evenals met GPT-OSS-120B in offline modus.
AMD MLPerf 1 miljoen tokens per seconde grafiek
Deze resultaten weerspiegelen een groeiende verschuiving van de industrie naar het evalueren van inferentieprestaties op clusterniveau, in plaats van per individuele versneller.De totale doorvoer en de time-to-serve zijn de belangrijkste maatstaven geworden voor het bepalen van de productiegereedheid bij grootschalige AI-implementaties.
Voor Llama 2 70B bereikte een 11-knoop, 87-GPU-configuratie meer dan 1 miljoen tokens per seconde in Offline, Server en Interactieve scenario's.met een schaal-uit-efficiëntie van 93% tot 98%Voor GPT-OSS-120B leverde een cluster met 12 nodes en 94 GPU's een vergelijkbare doorvoer met een schaalingsdoeltreffendheid van meer dan 90%.
Generatiegewinnen en concurrerende prestaties op één knooppunt
AMD rapporteerde aanzienlijke generatieverbeteringen, waarbij de Instinct MI355X 3,1 keer betere prestaties leverde op Llama 2 70B Server in vergelijking met de vorige generatie Instinct MI325X, met een bereik van 100,282 tokens per secondeDeze verbetering is te danken aan zowel CDNA 4-architectuurverbeteringen als ROCm-software-optimalisaties. Offline scores verbeterd met 4,4x en Server scores verbeterd met 4,8x in vergelijking met eerdere MLPerf-rondes,Voornamelijk aangedreven door FP4 kwantificatie, een belangrijk kenmerk van de MI355X dat een hogere doorvoer voor AI-werklasten ontsluit..
AMD Inferentie resultaten versus vorige generatie grafiek
In single-node vergelijkingen met NVIDIA-platforms toonde de MI355X een sterke concurrentiepositie aan.bereikte bijna pariteit in Server prestatiesDe MI355X leverde 92% van de Offline-prestaties, 93% van de Server-prestaties en overtrof deze met 4% in de Interactive-modus.De MI355X biedt ook een superieure kostenefficiëntie., leverend 40% meer tokens per dollar vergeleken met de NVIDIA B200.
Voor het eerst in staat stellen van modellen vergroot de dekking
MLPerf Inference v6.0 introduceerde een aantal nieuwe workloads, en AMD gebruikte deze ronde om de snelle model-activatie te laten zien.het bereiken van concurrerende resultaten ten opzichte van NVIDIA-systemen in zowel Offline- als Server-scenario's.
AMD heeft ook resultaten ingediend voor Wan-2.2 tekst-naar-video-generatie, waarmee het zijn intrede in multimodale en generatieve video-afleidingen markeert.de resultaten waren gelijk aan die van bestaande platforms. Na indiening verbeterde de prestaties verder, waardoor er ruimte is voor optimalisatie naarmate de software stack volwassen wordt.
Deze toevoegingen onderstrepen AMD's toewijding om verder te gaan dan traditionele LLM-benchmarks om opkomende AI-werklasten in verschillende gebruiksgevallen te ondersteunen.
ROCm-software maakt schaalbaarheid en heterogene inferentie mogelijk
AMD schrijft veel van de MI355X's prestaties en schaalbaarheid toe aan de ROCm-software.en ondersteuning voor een dynamische verdeling van de werklast over heterogene omgevingen, wat van cruciaal belang is voor de implementatie van gemengde GPU's.
AMD MLPerf inferentie resultaten instinct mI355x grafiek
Een mijlpaal heterogene indiening ontwikkeld door Dell en MangoBoost gebruikte drie AMD Instinct GPU modellen: MI300X, MI325X en MI355X.521 tokens per seconde op Llama 2 70B Server en 151Het MI355X-platform was gevestigd in Dell's Amerikaanse lab.Terwijl de MI300X en MI325X systemen in Korea waren, demonstreerde het de mogelijkheid om gedistribueerde systemen over geografische locaties te coördineren..
Groei en reproductie van ecosystemen
AMD's partner-ecosysteem is in deze MLPerf-ronde aanzienlijk uitgebreid, met negen bedrijven die resultaten over meerdere Instinct GPU-generaties hebben ingediend.Gigacomputing, HPE, MangoBoost, MiTAC, Oracle, Supermicro en Red Hat, die de brede industriële acceptatie van de inferentieoplossingen van AMD weerspiegelen.
De inlichtingen van de partners waren nauw afgestemd op de interne resultaten van AMD, meestal binnen 4% en in sommige gevallen binnen 1%.Deze consistentie bevestigt dat MI355X prestaties reproduceerbaar zijn op OEM en cloud platforms., het verminderen van het inzetrisico en het verhogen van het vertrouwen in de prestatie van de praktijk.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, directeur Global Strategy
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zaken:
Distributie van ICT-producten/Systeemintegratie en diensten/Infrastructuuroplossingen
Met meer dan 20 jaar IT-distributie-ervaring werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
Technologie gebruiken om een intelligente wereld te bouwenUw betrouwbare ICT-productdienstverlener!
Sandy Yang, directeur Global Strategy
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zaken:
Distributie van ICT-producten/Systeemintegratie en diensten/Infrastructuuroplossingen
Met meer dan 20 jaar IT-distributie-ervaring werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
Technologie gebruiken om een intelligente wereld te bouwenUw betrouwbare ICT-productdienstverlener!



