IBM heeft een content-aware storage (CAS) architectuur onthuld die AI-gebaseerde gegevensverwerking direct in de opslaglaag integreert. Deze aanpak is afgestemd op retrieval-augmented generation (RAG) workflows, omdat het documentvectorisatie integreert in het opslagsysteem zelf – wat de noodzaak voor externe preprocessing-pipelines vermindert.
CAS verplaatst een belangrijke RAG-functie – document embedding via methoden gebaseerd op grote taalmodellen (LLM) – naar de opslaginfrastructuur. Dit stelt ondernemingen in staat gegevens op hun bestaande locatie te verwerken en te indexeren, waardoor opslagsystemen worden afgestemd op AI-gestuurde workloads en gegevensverplaatsing tussen verschillende infrastructuurlagen wordt geminimaliseerd. IBM positioneert dit als een middel om de implementatie te vereenvoudigen, terwijl de prestaties worden verbeterd en de datalocaliteit voor AI-toepassingen wordt vergroot.
Vector Database op Schaal
De kern van IBM's CAS-implementatie is een vector database geoptimaliseerd voor semantische zoekopdrachten. Vector databases ondersteunen approximate nearest-neighbor (ANN) zoekopdrachten, waardoor AI-systemen relevante gegevensblokken kunnen ophalen op basis van similariteitsmetrieken zoals cosinus similariteit of L2-afstand. Deze functionaliteit is fundamenteel voor RAG, waarbij gebruikersvragen worden omgezet in vectoren en worden gematcht met geïndexeerde bedrijfsgegevens om contextbewuste antwoorden te leveren.
IBM CAS GrafiekBron: IBM
IBM Research heeft, in samenwerking met Samsung en NVIDIA, een prototypesysteem gedemonstreerd dat kan schalen naar 100 miljard vectoren op één server. Het systeem behaalde meer dan 90 procent recall en precisie, met een gemiddelde query-latentie van minder dan 700 milliseconden. Deze schaal is geschikt voor enterprise-omgevingen waar datasets miljarden bestanden kunnen omvatten en, eenmaal volledig geïndexeerd, kunnen uitgroeien tot honderden miljarden vectoren.
RAG Pipeline Integratie
RAG wordt een favoriete aanpak voor enterprise AI, omdat het de nauwkeurigheid van de output verbetert zonder dat het model opnieuw getraind hoeft te worden. Het werkt door prompts aan te vullen met bedrijfsspecifieke gegevens die uit een vector database worden opgehaald.
De pipeline begint met data-inname, waarbij documenten zoals PDF's en presentaties worden geparsed, opgedeeld in stukken en omgezet in embeddings. Deze embeddings worden opgeslagen in een vector database die gegevens organiseert voor efficiënte similariteitszoekopdrachten. Tijdens het bevragen wordt gebruikersinvoer ge-embed en gematcht met opgeslagen vectoren, waarbij relevante inhoud als context wordt doorgegeven aan het taalmodel. Dit grounding-mechanisme vermindert hallucinaties en vergroot het vertrouwen in door AI gegenereerde outputs.
IBM's CAS integreert deze gehele pipeline direct in de opslag, waarbij inname, indexering en retrieval dicht bij de gegevens worden geconsolideerd.
Schaal- en Kostenuitdagingen Aanpakken
Enterprise opslagsystemen draaien al op petabyte-schaal. Wanneer uitgebreid naar CAS, kan elk bestand honderden vectoren genereren, waardoor de datasetgrootte snel toeneemt. Traditionele vector databases schalen doorgaans uit over meerdere servers, wat extra kosten en operationele complexiteit met zich meebrengt. Het indexeren en opnieuw indexeren van grote datasets wordt ook tijdrovende taken.
IBM's aanpak richt zich op het verbeteren van de vector-dichtheid en het verminderen van de indexeringsoverhead om de infrastructuur-sprawl te beperken. De architectuur scheidt vector- en indexopslag van query-compute, waardoor onafhankelijke schaling van opslag- en compute-resources mogelijk is. Dit wordt mogelijk gemaakt door IBM Storage Scale en zijn high-performance parallelle bestandssysteem.
Opslag- en Hardware Architectuur
De CAS-implementatie maakt gebruik van het IBM Storage Scale System 6000 (ESS 6000), een all-flash platform ontworpen voor AI en high-performance workloads. Het systeem ondersteunt tot 48 NVMe-drives per 4U-behuizing, met individuele drive-capaciteiten variërend van 7 TB tot 60 TB. Het integreert PCIe Gen5, 400 Gb InfiniBand of 200 Gb Ethernet-connectiviteit, wat resulteert in tot 340 GB/s lees- en 175 GB/s schrijfdoorvoer per node, samen met tot 7 miljoen IOPS.
Het platform ondersteunt ook NVIDIA GPUDirect Storage, wat directe datapad tussen opslag en GPU's faciliteert, evenals BlueField-3 DPUs om netwerk- en gegevensverwerkingstaken te ontlasten.
Samsung PM9D3a PCIe Gen5 NVMe SSD's bieden high-throughput, high-density opslag. Gebaseerd op achtste generatie TLC V-NAND, bieden deze drives tot 30,72 TB per apparaat, met sequentiële leessnelheden tot 12 GB/s en schrijfsnelheden tot 6,8 GB/s. Het gebruik van commercieel verkrijgbare enterprise SSD's stelt de architectuur in staat om te schalen met standaardcomponenten.
Hiërarchische Indexering en GPU-versnelling
Om indexering op schaal aan te pakken, heeft IBM een hiërarchisch indexeringsmodel ontwikkeld dat bestaat uit meerdere sub-indexen die onafhankelijk kunnen worden geoptimaliseerd. Deze structuur maakt incrementele updates en gelokaliseerde herindexering mogelijk zonder de gehele dataset te verstoren, wat zowel de beschikbaarheid als de operationele efficiëntie verbetert.
GPU-versnelling vermindert de indexeringstijd drastisch in vergelijking met CPU-only benaderingen. Taken die uren op CPU's zouden duren, kunnen in minuten worden voltooid met NVIDIA GPU's. In tests duurde het bouwen van indexen voor 100 miljard vectoren 4 dagen met 6 NVIDIA H200 GPU's, vergeleken met een geschatte 120 dagen op een dual-socket CPU-systeem.
De volledige dataset, inclusief vectoren en indexen, verbruikte ongeveer 153 TiB aan opslag. De initiële data-invoer en partitionering duurden negen dagen. Het resulterende systeem leverde een gemiddelde query-latentie van 694 ms met 90% recall, gevalideerd tegen brute-force ground-truth berekeningen.
Roadmap
IBM en NVIDIA blijven het platform optimaliseren, met de focus op het verminderen van indexerings- en query-latentie. Huidige doelen zijn onder meer het indexeren van 100 miljard of meer vectoren binnen één dag, het terugbrengen van de data-invoertijd van negen dagen naar één dag, en het verlagen van de query-latentie naar het bereik van 50-100 milliseconden, terwijl 90 procent recall behouden blijft.
Het integreren van vector-indexering in standaard bestandssystemen is bedoeld om de implementatie te vereenvoudigen en de drempels voor adoptie van enterprise AI te verlagen. Door RAG-mogelijkheden direct in de opslag te integreren, positioneert IBM CAS als een fundamentele laag voor AI-enabled infrastructuur.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zakelijke Focus:
ICT Product Distributie/Systeemintegratie & Diensten/Infrastructuuroplossingen
Met meer dan 20 jaar ervaring in IT-distributie werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
“Technologie gebruiken om een intelligente wereld te bouwen”Uw Betrouwbare ICT Product Service Provider!
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Zakelijke Focus:
ICT Product Distributie/Systeemintegratie & Diensten/Infrastructuuroplossingen
Met meer dan 20 jaar ervaring in IT-distributie werken we samen met toonaangevende wereldwijde merken om betrouwbare producten en professionele diensten te leveren.
“Technologie gebruiken om een intelligente wereld te bouwen”Uw Betrouwbare ICT Product Service Provider!



