Hacker News

Motori MDST: ekzekutoni modelet GGUF në shfletues me WebGPU/WASM

Motori MDST: ekzekutoni modelet GGUF në shfletues me WebGPU/WASM Ky eksplorim depërton në mdst, duke shqyrtuar rëndësinë e tij dhe po — Mewayz Business OS.

8 min lexim

Mewayz Team

Editorial Team

Hacker News

Motori MDST: Ekzekutoni modelet GGUF në shfletuesin me WebGPU/WASM

Motori MDST është një kohë ekzekutimi në zhvillim që u mundëson zhvilluesve dhe bizneseve të ekzekutojnë modele gjuhësore të mëdha me format GGUF direkt brenda shfletuesit duke përdorur WebGPU dhe WebAssembly (WASM), duke eliminuar nevojën për një server të dedikuar ose GPU të resë kompjuterike. Ky ndryshim drejt konkluzionit të AI plotësisht nga ana e klientit po rishkruan rregullat se si funksionet inteligjente ofrohen në aplikacionet në ueb, duke e bërë AI private me vonesë të ulët të aksesueshme për këdo që ka një shfletues modern.

Çfarë është saktësisht motori MDST dhe pse ka rëndësi?

MDST Engine është një kornizë konkluzionesh e inteligjencës artificiale e bazuar në shfletues, e krijuar për të ngarkuar dhe ekzekutuar modele të kuantizuara GGUF - i njëjti format i popullarizuar nga projekte si llama.cpp - drejtpërdrejt brenda një konteksti ueb. Në vend që të drejtojë çdo kërkesë të AI përmes një pike fundore të resë kompjuterike, MDST ekzekuton konkluzionet e modelit në harduerin e vetë përdoruesit duke përdorur API-në WebGPU të shfletuesit për llogaritjen e përshpejtuar nga GPU dhe WebAssembly për performancën e CPU-së afërsisht vendase.

Kjo ka një rëndësi të madhe për një sërë arsyesh. Së pari, ai heq vonesën e udhëtimit vajtje-ardhje e natyrshme për përfundimin nga ana e serverit. Së dyti, ai mban të dhënat e ndjeshme të përdoruesit plotësisht në pajisje, gjë që është një avantazh kritik i privatësisë për aplikacionet e ndërmarrjeve dhe të konsumatorëve njësoj. Së treti, redukton në mënyrë dramatike kostot e infrastrukturës për bizneset që përndryshe do të paguanin për thirrje API ose do të ruanin grupet e tyre GPU.

"Drejtimi i konkluzioneve të AI në shfletues nuk është më një kuriozitet i provës së konceptit - është një arkitekturë e qëndrueshme për prodhimin që tregton kostot e centralizuara të cloud për harduerin e përdoruesit të decentralizuar, duke ndryshuar rrënjësisht se kush mban barrën llogaritëse të aplikacioneve të fuqizuara nga AI."

Si e bëjnë të mundur WebGPU dhe WASM AI në shfletues?

Kuptimi i bazave teknike të MDST Engine kërkon një vështrim të shkurtër në dy primitivët kryesorë të shfletuesit që ai përdor. WebGPU është pasardhësi i WebGL, duke siguruar qasje në GPU të nivelit të ulët direkt nga JavaScript dhe kodi shader WGSL. Ndryshe nga paraardhësi i tij, WebGPU mbështet compute shaders, të cilët janë shtyllat e punës së operacioneve të shumëzimit të matricës që dominojnë konkluzionet e LLM. Kjo do të thotë që MDST mund të dërgojë operacione tensori në GPU në një mënyrë shumë të paralelizuar, duke arritur xhiros që më parë ishte i pamundur brenda një sandbox të shfletuesit.

WebAssembly shërben si kthimi dhe objektivi i përpilimit për logjikën kryesore të kohës së funksionimit të motorit. Për pajisjet që nuk kanë mbështetje WebGPU - shfletues më të vjetër, mjedise të caktuara celulare ose kontekste testimi pa kokë - WASM ofron një shtresë ekzekutimi të lëvizshme dhe performuese që ekzekuton kodin e përpiluar C++ ose Rust me shpejtësi që tejkalojnë JavaScript standarde. Së bashku, WebGPU dhe WASM formojnë një strategji ekzekutimi me nivele: GPU-së pari kur disponohet, CPU-nëpërmjet-WASM kur jo.

💡 A E DINI?

Mewayz zëvendëson 8+ mjete biznesi në një platformë

CRM · Faturimi · HR · Projekte · Rezervime · eCommerce · POS · Analitikë. Plan falas përgjithmonë.

Filloni falas →

Cilat janë modelet GGUF dhe pse është ky format qendror në këtë qasje?

GGUF (GPT-Generated Unified Format) është një format skedari binar që paketon peshat e modelit, të dhënat e tokenizuesit dhe metadatat në një objekt të vetëm portativ. Projektuar fillimisht për të mbështetur ngarkimin efikas në llama.cpp, GGUF u bë standardi de fakto për modelet me peshë të hapur të kuantizuar sepse mbështet nivele të shumta kuantizimi - nga 2-bit në 8-bit - duke i lejuar zhvilluesit të zgjedhin shkëmbimin midis madhësisë së modelit, gjurmës së kujtesës dhe cilësisë së daljes.

Për konkluzionet e bazuara në shfletues, kuantizimi nuk është opsional - është thelbësor. Një model me parametra me precizion të plotë 7B kërkon afërsisht 14 GB memorie. Në kuantizimin Q4, i njëjti model zvogëlohet në afërsisht 4 GB, dhe në Q2 mund të bjerë nën 2 GB. Mbështetja e MDST Engine për GGUF do të thotë që zhvilluesit mund të përdorin drejtpërdrejt ekosistemin masiv të modeleve tashmë të kuantizuara pa ndonjë hap shtesë konvertimi, duke ulur në mënyrë dramatike pengesën ndaj integrimit.

Cilat janë rastet e përdorimit të botës reale për bizneset që ekzekutojnë modele GGUF në shfletues?

Aplikimet praktike të konkluzioneve GGUF në shfletues përfshijnë pothuajse çdo vertikale të industrisë. Bizneset që adoptojnë këtë qasje zhbllokojnë aftësitë që më parë ishin të kushtueshme

Frequently Asked Questions

Does running a GGUF model in the browser require users to download large files?

Yes, GGUF model files must be downloaded to the browser before inference begins, but modern implementations use progressive streaming and browser cache APIs to make this a one-time operation. After the initial download, the model is cached locally and subsequent sessions load near-instantly. Smaller quantized variants—Q4 or Q2—can be kept under 2–4 GB, which is practical for users with broadband connections.

Is WebGPU broadly supported across browsers and devices in 2026?

WebGPU has reached stable status in Chrome and Edge, with Firefox support shipping progressively through 2025 and into 2026. On mobile, support varies by device and OS version, but the WASM fallback in engines like MDST ensures functionality is preserved even when GPU acceleration is unavailable. Desktop environments with dedicated or integrated GPUs represent the optimal target for production deployments today.

How does in-browser inference compare to cloud API inference in terms of speed?

For smaller quantized models on modern consumer hardware, browser-based inference can achieve throughput of 10–30 tokens per second, which is comparable to mid-tier cloud API response speeds without the network round-trip latency. The first-token latency is often faster than cloud endpoints under load, since there is no queuing. Larger models and lower-end devices will naturally see reduced throughput, making model selection and quantization level the primary performance dials available to developers.


The convergence of WebGPU, WebAssembly, and the GGUF model ecosystem is creating a genuine inflection point for how AI capabilities are delivered inside web applications. Businesses that move early to integrate client-side inference frameworks like MDST Engine will gain a durable competitive advantage—lower operating costs, stronger privacy guarantees, and AI features that work anywhere, on any connection.

If you are building or scaling a business and want access to a platform engineered for exactly this kind of forward-looking operational efficiency, start your Mewayz journey at app.mewayz.com. With 207 integrated modules and plans from $19 per month, Mewayz gives your team the infrastructure to operate smarter—today and as AI capabilities continue to evolve.

Provoni Mewayz Falas

Platformë e gjithë-në-një për CRM, faturim, projekte, HR & më shumë. Nuk kërkohet kartelë krediti.

Filloni të menaxhoni biznesin tuaj më me zgjuarsi sot.

Bashkohuni me 30,000+ biznese. Plan falas përgjithmonë · Nuk kërkohet kartelë krediti.

E gjetët të dobishme? Shpërndajeni.

Gati për ta vënë në praktikë?

**Join 30,000+ business using Mewayz. Free forever plan — no credit card required.**

Fillo Versionin Falas →

Gati për të ndërmarrë veprim?

Filloni provën tuaj falas të Mewayz sot

Platformë biznesi all-in-one. Nuk kërkohet kartë krediti.

Filloni falas →

14-ditore provë falas · Pa kartelë krediti · Anuloni kur të doni