Hacker News

MDST Engine: voer GGUF-modellen uit in de browser met WebGPU/WASM

MDST Engine: voer GGUF-modellen uit in de browser met WebGPU/WASM Deze verkenning duikt in mdst en onderzoekt de betekenis en po — Mewayz Business OS.

4 min gelezen

Mewayz Team

Editorial Team

Hacker News

MDST-engine: voer GGUF-modellen uit in de browser met WebGPU/WASM

De MDST Engine is een opkomende runtime waarmee ontwikkelaars en bedrijven grote taalmodellen in GGUF-formaat rechtstreeks in de browser kunnen uitvoeren met behulp van WebGPU en WebAssembly (WASM), waardoor de noodzaak voor een speciale server of cloud-GPU overbodig wordt. Deze verschuiving naar AI-inferentie aan de clientzijde herschrijft de regels voor de manier waarop intelligente functies in webapplicaties worden geleverd, waardoor private AI met lage latentie toegankelijk wordt voor iedereen met een moderne browser.

Wat is de MDST-engine precies en waarom is dit belangrijk?

MDST Engine is een browser-native AI-inferentieframework dat is ontworpen om gekwantiseerde GGUF-modellen (hetzelfde formaat dat populair is geworden door projecten als llama.cpp) rechtstreeks binnen een webcontext te laden en uit te voeren. In plaats van elk AI-verzoek via een cloud-eindpunt te routeren, voert MDST modelinferentie uit op de eigen hardware van de gebruiker met behulp van de WebGPU API van de browser voor GPU-versnelde berekeningen en WebAssembly voor bijna-native CPU-fallback-prestaties.

Dit is om een ​​aantal redenen enorm belangrijk. Ten eerste elimineert het de round-trip latentie die inherent is aan gevolgtrekkingen aan de serverzijde. Ten tweede houdt het gevoelige gebruikersgegevens volledig op het apparaat, wat een cruciaal privacyvoordeel is voor zowel bedrijfs- als consumententoepassingen. Ten derde worden de infrastructuurkosten dramatisch verlaagd voor bedrijven die anders per API-oproep zouden betalen of hun eigen GPU-clusters zouden onderhouden.

"Het uitvoeren van AI-inferentie in de browser is niet langer een proof-of-concept-nieuwsgierigheid - het is een productie-levensvatbare architectuur die gecentraliseerde cloudkosten inruilt voor gedecentraliseerde gebruikershardware, waardoor fundamenteel verandert wie de rekenlast draagt ​​van AI-aangedreven applicaties."

Hoe maken WebGPU en WASM In-Browser AI mogelijk?

💡 WIST JE DAT?

Mewayz vervangt 8+ zakelijke tools in één platform

CRM · Facturatie · HR · Projecten · Boekingen · eCommerce · POS · Analytics. Voor altijd gratis abonnement beschikbaar.

Begin gratis →

Om de technische onderbouwing van MDST Engine te begrijpen, is een korte blik nodig op de twee belangrijkste browserprimitieven die er gebruik van maken. WebGPU is de opvolger van WebGL en biedt GPU-toegang op laag niveau rechtstreeks vanuit JavaScript en WGSL-shadercode. In tegenstelling tot zijn voorganger ondersteunt WebGPU compute shaders, de werkpaarden van matrixvermenigvuldigingsoperaties die de LLM-gevolgtrekking domineren. Dit betekent dat MDST tensorbewerkingen op een sterk parallelle manier naar de GPU kan sturen, waardoor een doorvoer wordt bereikt die voorheen onmogelijk was in een browsersandbox.

WebAssembly fungeert als reserve en compilatiedoel voor de kernruntimelogica van de engine. Voor apparaten zonder WebGPU-ondersteuning (oudere browsers, bepaalde mobiele omgevingen of headless testcontexten) biedt WASM een performante, draagbare uitvoeringslaag die gecompileerde C++- of Rust-code uitvoert met snelheden die veel hoger zijn dan standaard JavaScript. Samen vormen WebGPU en WASM een gelaagde uitvoeringsstrategie: GPU-eerst indien beschikbaar, CPU-via-WASM indien niet.

Wat zijn GGUF-modellen en waarom staat dat format centraal in deze aanpak?

GGUF (GPT-Generated Unified Format) is een binair bestandsformaat dat modelgewichten, tokenizergegevens en metagegevens verpakt in één draagbaar artefact. Oorspronkelijk ontworpen om efficiënt laden in llama.cpp te ondersteunen, werd GGUF de de facto standaard voor gekwantiseerde open-weight-modellen omdat het meerdere kwantiseringsniveaus ondersteunt (van 2-bit tot 8-bit), waardoor ontwikkelaars de afweging konden maken tussen modelgrootte, geheugenvoetafdruk en uitvoerkwaliteit.

Voor browsergebaseerde inferentie is kwantisering niet optioneel, maar essentieel. Een 7B-parametermodel met volledige precisie vereist ongeveer 14 GB geheugen. Bij kwantisering in het vierde kwartaal krimpt datzelfde model tot ongeveer 4 GB, en in het tweede kwartaal kan het onder de 2 GB vallen. De ondersteuning van MDST Engine voor GGUF betekent dat ontwikkelaars direct gebruik kunnen maken van het enorme ecosysteem van reeds gekwantiseerde modellen zonder enige extra conversiestap, waardoor de barrière voor integratie dramatisch wordt verlaagd.

Wat zijn de praktijkvoorbeelden voor bedrijven die GGUF-modellen in de browser gebruiken?

De praktische toepassingen van GGUF-inferentie in de browser bestrijken vrijwel elke branche. Bedrijven die deze aanpak hanteren, ontsluiten mogelijkheden die voorheen beschikbaar waren

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

Probeer Mewayz Gratis

Alles-in-één platform voor CRM, facturatie, projecten, HR & meer. Geen creditcard nodig.

Begin vandaag nog slimmer met het beheren van je bedrijf.

Sluit je aan bij 30,000+ bedrijven. Voor altijd gratis abonnement · Geen creditcard nodig.

Klaar om dit in de praktijk te brengen?

Sluit je aan bij 30,000+ bedrijven die Mewayz gebruiken. Voor altijd gratis abonnement — geen creditcard nodig.

Start Gratis Proefperiode →

Klaar om actie te ondernemen?

Start vandaag je gratis Mewayz proefperiode

Alles-in-één bedrijfsplatform. Geen creditcard vereist.

Begin gratis →

14 dagen gratis proefperiode · Geen creditcard · Altijd opzegbaar