Hacker News

MDST Engine: запускайте моделі GGUF у браузері за допомогою WebGPU/WASM

MDST Engine: запускайте моделі GGUF у браузері за допомогою WebGPU/WASM Це дослідження заглиблюється в mdst, вивчаючи його значення та po — Mewayz Business OS.

4 min read

Mewayz Team

Editorial Team

Hacker News

Механізм MDST: запускайте моделі GGUF у браузері за допомогою WebGPU/WASM

MDST Engine — це нове середовище виконання, яке дозволяє розробникам і компаніям виконувати великі мовні моделі у форматі GGUF безпосередньо в браузері за допомогою WebGPU та WebAssembly (WASM), усуваючи потребу у виділеному сервері чи хмарному графічному процесорі. Цей перехід до висновків ШІ на стороні клієнта переписує правила надання інтелектуальних функцій у веб-додатках, роблячи приватний ШІ з низькою затримкою доступним для будь-кого, хто має сучасний браузер.

Що таке механізм MDST і чому це важливо?

MDST Engine — це вбудована в браузер структура висновків ШІ, призначена для завантаження та запуску квантованих моделей GGUF — того самого формату, який популяризували такі проекти, як llama.cpp — безпосередньо в веб-контексті. Замість того, щоб направляти кожен запит штучного інтелекту через хмарну кінцеву точку, MDST виконує висновок моделі на власному апаратному забезпеченні користувача, використовуючи API WebGPU браузера для обчислень із прискоренням графічного процесора та WebAssembly для майже рідної продуктивності ЦП.

Це має величезне значення з кількох причин. По-перше, це усуває затримку зворотного зв’язку, притаманну висновку на стороні сервера. По-друге, конфіденційні дані користувача повністю зберігаються на пристрої, що є важливою перевагою конфіденційності як для корпоративних, так і для споживчих програм. По-третє, це значно знижує витрати на інфраструктуру для компаній, які в іншому випадку платили б за виклик API або підтримували власні кластери GPU.

«Запуск штучного інтелекту в браузері більше не є дивним доказом концепції — це життєздатна архітектура, яка обмінює централізовані хмарні витрати на децентралізоване апаратне забезпечення користувача, докорінно змінюючи, хто несе обчислювальний тягар додатків на основі ШІ».

Як WebGPU і WASM роблять ШІ у браузері можливим?

Розуміння технічної основи MDST Engine вимагає короткого огляду двох основних примітивів браузера, які він використовує. WebGPU є наступником WebGL, забезпечуючи низькорівневий доступ до GPU безпосередньо з коду шейдера JavaScript і WGSL. На відміну від свого попередника, WebGPU підтримує обчислювальні шейдери, які є робочими конячками операцій множення матриць, які домінують у висновках LLM. Це означає, що MDST може надсилати тензорні операції на графічний процесор у дуже розпаралелізований спосіб, досягаючи пропускної здатності, яка раніше була неможливою в пісочниці браузера.

WebAssembly служить запасним варіантом і метою компіляції для основної логіки виконання двигуна. Для пристроїв, у яких відсутня підтримка WebGPU — старіших браузерів, певних мобільних середовищ або контекстів автономного тестування — WASM надає продуктивний портативний рівень виконання, який запускає скомпільований код C++ або Rust зі швидкістю, що набагато перевищує стандартний JavaScript. Разом WebGPU і WASM утворюють багаторівневу стратегію виконання: спочатку GPU, якщо доступно, CPU через WASM, коли його немає.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Почати безкоштовно →

Що таке моделі GGUF і чому цей формат є центральним у цьому підході?

GGUF (уніфікований формат, згенерований GPT) — це двійковий формат файлу, який об’єднує вагові коефіцієнти моделі, дані токенізера та метадані в один портативний артефакт. Спочатку розроблений для підтримки ефективного завантаження в llama.cpp, GGUF став стандартом де-факто для квантованих відкритих моделей, оскільки він підтримує кілька рівнів квантування — від 2-х до 8-бітних — що дозволяє розробникам вибирати компроміс між розміром моделі, обсягом пам’яті та якістю виводу.

Для висновків на основі браузера квантування не є необов’язковим — воно важливе. Модель з параметрами повної точності 7B вимагає приблизно 14 ГБ пам’яті. Під час квантування Q4 ця модель скорочується приблизно до 4 ГБ, а у Q2 вона може опуститися нижче 2 ГБ. Підтримка MDST Engine для GGUF означає, що розробники можуть безпосередньо використовувати величезну екосистему вже квантованих моделей без будь-яких додаткових етапів перетворення, що значно знижує бар’єр для інтеграції.

Які реальні випадки використання для компаній, які використовують моделі GGUF у веб-переглядачі?

Практичні застосування внутрішньобраузерного висновку GGUF охоплюють майже всі галузі галузі. Підприємства, які використовують цей підхід, відкривають можливості, які раніше були непомірно дорогими

Frequently Asked Questions

Does running a GGUF model in the browser require users to download large files?

Yes, GGUF model files must be downloaded to the browser before inference begins, but modern implementations use progressive streaming and browser cache APIs to make this a one-time operation. After the initial download, the model is cached locally and subsequent sessions load near-instantly. Smaller quantized variants—Q4 or Q2—can be kept under 2–4 GB, which is practical for users with broadband connections.

Is WebGPU broadly supported across browsers and devices in 2026?

WebGPU has reached stable status in Chrome and Edge, with Firefox support shipping progressively through 2025 and into 2026. On mobile, support varies by device and OS version, but the WASM fallback in engines like MDST ensures functionality is preserved even when GPU acceleration is unavailable. Desktop environments with dedicated or integrated GPUs represent the optimal target for production deployments today.

How does in-browser inference compare to cloud API inference in terms of speed?

For smaller quantized models on modern consumer hardware, browser-based inference can achieve throughput of 10–30 tokens per second, which is comparable to mid-tier cloud API response speeds without the network round-trip latency. The first-token latency is often faster than cloud endpoints under load, since there is no queuing. Larger models and lower-end devices will naturally see reduced throughput, making model selection and quantization level the primary performance dials available to developers.


The convergence of WebGPU, WebAssembly, and the GGUF model ecosystem is creating a genuine inflection point for how AI capabilities are delivered inside web applications. Businesses that move early to integrate client-side inference frameworks like MDST Engine will gain a durable competitive advantage—lower operating costs, stronger privacy guarantees, and AI features that work anywhere, on any connection.

If you are building or scaling a business and want access to a platform engineered for exactly this kind of forward-looking operational efficiency, start your Mewayz journey at app.mewayz.com. With 207 integrated modules and plans from $19 per month, Mewayz gives your team the infrastructure to operate smarter—today and as AI capabilities continue to evolve.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Знайшли це корисним? Поділіться цим.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Почати пробний період →

Готові вжити заходів?

Почніть свій безкоштовний пробний період Mewayz сьогодні

Бізнес-платформа все в одному. Кредитна картка не потрібна.

Почати безкоштовно →

14-day free trial · No credit card · Cancel anytime