logo
Thuis Nieuws

bedrijfsnieuws over Lightbits en ScaleFlux demo 100x tot 280x KV Cache versnelling

Certificaat
China Beijing Qianxing Jietong Technology Co., Ltd. certificaten
China Beijing Qianxing Jietong Technology Co., Ltd. certificaten
Klantenoverzichten
De verkoopdeskundigen van de Technologieco. van Peking Qianxing Jietong, Ltd zijn zeer en geduldig. Zij kunnen citaten snel verstrekken. De kwaliteit en de verpakking van de producten zijn ook zeer goed. Onze samenwerking is zeer vlot.

—— 《Festfing DV》 LLC

Toen ik Intel cpu en Toshiba SSD dringend zocht, Zandig van Peking Qianxing Jietong gaf Technologieco., Ltd me heel wat hulp en kreeg me de producten die ik snel heb gewenst. Ik waardeer haar werkelijk.

—— Kitty Yen

Zandig van Peking Qianxing Jietong is Technologieco., Ltd een zeer zorgvuldige verkoper, die me aan configuratiefouten kan op tijd herinneren wanneer ik een server koop. De ingenieurs zijn ook zeer professioneel en kunnen het testende proces snel voltooien.

—— Strelkin Mikhail Vladimirovich

We zijn erg blij met onze ervaring met Beijing Qianxing Jietong. De productkwaliteit is uitstekend en de levering is altijd op tijd. Hun verkoopteam is professioneel, geduldig en zeer behulpzaam met al onze vragen. We waarderen hun steun enorm en kijken uit naar een langdurige samenwerking. Sterk aanbevolen!

—— Ahmad Navid

Kwaliteit: “Grote ervaring met mijn leverancier. De MikroTik RB3011 was al gebruikt, maar het was in zeer goede staat en alles werkte perfect.en al mijn zorgen werden snel aangepakt.- Zeer betrouwbare leverancier.

—— Geran Colesio

Ik ben online Chatten Nu
Bedrijf Nieuws
Lightbits en ScaleFlux demo 100x tot 280x KV Cache versnelling
Lightbits Labs en ScaleFlux hebben een100x tot 280x prestatieverbeteringvoor KV-cache-workloads door gebruik te maken van LightInferra-cache-software om gegevens uit ScaleFlux-computationele opslag-SSD's te lezen.

De twee bedrijven leverden KV-cachegegevens aan GPU's die zijn ingezet in een FarmGPU-datacenteromgeving en zullen deze doorbraak presenteren op de komende GTC-conferentie van Nvidia.Een KV-cache slaat tokenvectoren op in het high-bandwidth geheugen (HBM) van een GPUZodra de capaciteit van de HBM is uitgeput, moeten de KV-cache-gegevensblokken opnieuw worden berekend, een proces dat tijdrovend is en de AI-training en inferentiesnelheden vermindert.Deze vertraging wordt vooral uitgesproken naarmate de werklast van AI toeneemt, wat leidt tot een sterke toename van het aantal tokens dat wordt gebruikt om vectoren te genereren.

KV-cache-software breidt logisch de cache-laag naar buiten uit: eerst naar de x86-CPU en de DRAM op de GPU-server, vervolgens naar lokale NVMe-stations in hetzelfde x86-systeem en verder naar externe NVMe-SSD's.Deze gelaagde uitbreiding elimineert de noodzaak om tokenvectoren opnieuw te berekenenHoewel NVMe SSD's van nature een hogere toegangslatentie hebben dan HBM of DRAM, is het halen van vooraf berekende tokenvectoren veel sneller dan het opnieuw berekenen van tienduizenden van hen vanaf nul.Lightbits en ScaleFlux beweren dat hun oplossing het KV-cache-gegevensophalen van SSD's drastisch versnelt.

Arthur Rasmusson, directeur van AI-architectuur bij Lightbits Labs, verklaarde: "We transformeren inferentiegeheugen van een reactieve cache in een intelligente, gestreamde datalaag".

- Hoe dan wel?


Door alleen de gegevens die belangrijk zijn te pre-ophalen en deze naar GPU's te sturen via high-speed RDMA voordat deze nodig zijn, elimineren we de stalletjes die traditioneel de prestaties van lange context beperken.Het resultaat is een lagere Time-to-First-Token (TTFT), een stabielere doorvoer onder reële belasting en een aanzienlijk hogere effectieve GPU-uitbuiting.

Keith McKay, Senior Director van Solutions Architecture en Technical Partnerships bij ScaleFlux, merkte op:Wat we op GTC laten zien is een eerste blik op hoe slimmere dataplaatsing en aanhoudend aandachtstoestandbeheer inferentiesystemen kunnen helpen reactief te blijven naarmate contextuele vensters groeienDit is een samenwerking die we samen met echte operators willen opbouwen.

Zowel Lightbits als ScaleFlux streven ernaar om cloud- en infrastructuuroperators aan te moedigen hun software en SSD's aan te nemen, waardoor kostbare GPU-idle time wordt geëlimineerd.

Laten we eerst de bijdrage van ScaleFlux bekijken, en dan naar de meer geavanceerde Lightbits-softwarelaag gaan.

ScaleFlux levert NVMe SSD's en Computational Storage Drives (CSD's) die zijn uitgerust met hardware-gebaseerde Write Reduction Technology (WRT).Met behulp van hardware-versnelde compressie en SoC-gedreven metagegevensbeheer, leveren deze schijven tot vier keer meer logische capaciteit dan fysieke opslag, terwijl ze volledig transparant blijven voor hostsystemen.Het bedrijf is lid van het Open Flash Platform (OFP) consortium., die werkt aan het herdefiniëren van AI-data-infrastructuur met dichte, lage latentie,energiezuinige systemen .

Gebaseerd op deze opslagstations voegt Lightbits intelligente prefetching van KV Cache-gegevens toevoorheenGPU's vereisen het, waardoor stallingen worden voorkomen die worden veroorzaakt door onvoldoende KV-capaciteit of kostbare tokenvectorherrekening.De LightInferra-software maakt gebruik van KV Cache-geoptimaliseerde caching-algoritmen om de vereiste gegevens in het GPU-geheugen te halen bij RDMA-snelheden vóór de werkelijke vraag.

Hoe nogmaals?


De software draait op de x86-host die in GPU-servers is ingebed en volgt toegangspatronen van KV Cache-gegevensblokken.het werkt met een sublineaire Sparse Attention Prefetch (SLSAP) -motor om de KV-blokken te identificeren die het meest waarschijnlijk nodig zijn als volgende.

Deze engine combineert locatie-gevoelige hashing (LSH) met statistisch hergebruiksmodellering analyse van historische toegangslocaliteit in aandachtsberekeningen om KV-blokken te scoren en te prioriteren,selecteert vervolgens degenen met de hoogste waarschijnlijkheid van worden gevraagd door GPU's.

Dit selectieproces maakt gebruik van de inherente sparsiteit in GPU-gegevenstoegang: de meeste tokens hebben alleen een betekenisvolle relatie met een kleine deelverzameling van eerdere tokens.de oplossing drastisch vermindert het volume van token vectoren die moeten worden gestreamd terug naar GPU's.

Een tweede algoritme richt zich op hergebruikpatronen: recente tokens, semantisch vergelijkbare tokens,en structurele patronen die gebruikelijk zijn in RAG- of multi-turn-chat-scenario's, worden vaak hergebruikt en dienovereenkomstig worden prioriteiten gegeven.

LightInferra haalt deze tokenblokken eerst op van de DRAM van de x86-servers, of van externe ScaleFlux SSD's indien nodig, en laadt ze vervolgens vooraf in de HBM van de GPU via RDMA-links.

Lightbits heeft deze aanpak vergelijkt met het opnieuw berekenen van cache-inhoud vanaf nul met behulp van grote taalmodelwerkbelastingen, waarbij verbeteringen in Time-to-First-Token (TTFT) worden gemeten.De gerapporteerde versnellingscijfers van 100 tot 280x zijn rechtstreeks afgeleid van deze testresultaten..

laatste bedrijfsnieuws over Lightbits en ScaleFlux demo 100x tot 280x KV Cache versnelling  0

Natuurlijk willen we graag benchmarkresultaten zien die de Lightbits-ScaleFlux KV Cache versnelling vergelijken.

Het programma is gebaseerd op de KV Cache-versnellers van DDN, Hammerspace, VAST Data, WEKA en anderen.

zijn niet beschikbaar.


Er zijn grafieken die laten zien hoe LightInferra-ScaleFlux geleidelijk verbeterde op cache regeneratie TTFT

bij toename van de modelgrootte.


laatste bedrijfsnieuws over Lightbits en ScaleFlux demo 100x tot 280x KV Cache versnelling  1


Alle gerelateerde benchmarkgegevens worden gepresenteerd in grafieken op log-schaal, die voornamelijk zijn ontworpen voor professionals in de informatica, maar eenvoudige taal maakt de impact in de echte wereld veel gemakkelijker te begrijpen:¢Het resultaat is een duurzame Time-to-First-Token (TTFT) -prestatie als de context schaalt van 100k tokens naar 1 miljoen en verder.??
Zoals Jonmichael Hands van FarmGPU het stelt, wanneer een gesprek van 400k tokens hervat wordt en het systeem de hele KV-cache moet regenereren vanaf nul,Dat betekent twee volle minuten GPU runtime met nul tokens geproduceerd. LightInferra verandert het economische model volledig – dezelfde werklast genereert zijn eerste token in minder dan een halve seconde, waardoor een niet-levensvatbare productlaag in een winstgevende wordt omgezet.

Lightbits en ScaleFlux hebben deze gezamenlijke oplossing speciaal ontworpen voor next-gen neocloud GPU-farms, waar grote GPU-pods honderden of zelfs duizenden gelijktijdige AI-modelworkloads uitvoeren.Bijna elk van deze workloads zal de limiet van de KV cache capaciteit in de GPU's hoge bandbreedte geheugen (HBM) raken.

Bij traditionele opstellingen worden teams geconfronteerd met twee dure opties: langzaam tokenvectoren halen uit generieke externe opslag,Of het veel tijdrovende proces van het opnieuw berekenen van die vectoren vanaf nul, die beide GPU's urenlang in onbruik laten.De combinatie van LightInferra en ScaleFlux elimineert dit verlammende pijnpunt van de industrie volledig.

FarmGPU-CEO Jonmichael Hands voegde eraan toe: "De snelle netwerkopslag van Lightbits ontsluit een schat aan nieuwe gebruiksgevallen voor lange-context-afleidingen.Door onze beheerde service te koppelen aan Lightbits' high-performance opslag die draait op ScaleFlux NVMe drives, kunnen we de tijd tot de eerste token verkorten en het gebruik van de GPU verhogen, waardoor de totale eigendomskosten (TCO) voor inferentie-werklasten drastisch dalen.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, directeur Global Strategy
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website:De Commissie heeft de Commissie verzocht de volgende informatie te verstrekken:

Zaken:
Distributie van ICT-producten/Systeemintegratie en diensten/Infrastructuuroplossingen
Met meer dan 20 jaar IT-distributie-ervaring werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
“Technologie gebruiken om een intelligente wereld te bouwen”Uw betrouwbare ICT-productdienstverlener!
Bartijd : 2026-03-18 11:34:46 >> Nieuwslijst
Contactgegevens
Beijing Qianxing Jietong Technology Co., Ltd.

Contactpersoon: Ms. Sandy Yang

Tel.: 13426366826

Direct Stuur uw aanvraag naar ons (0 / 3000)