Hacker News

Mesin MDST: menjalankan model GGUF di browser dengan WebGPU/WASM

Mesin MDST: menjalankan model GGUF di browser dengan WebGPU/WASM Eksplorasi ini menyelidiki mdst, memeriksa signifikansi dan potensinya — Mewayz Business OS.

4 min baca

Mewayz Team

Editorial Team

Hacker News

Mesin MDST: Jalankan Model GGUF di Browser dengan WebGPU/WASM

MDST Engine adalah runtime baru yang memungkinkan pengembang dan bisnis mengeksekusi model bahasa besar berformat GGUF langsung di dalam browser menggunakan WebGPU dan WebAssembly (WASM), sehingga menghilangkan kebutuhan akan server khusus atau GPU cloud. Pergeseran menuju inferensi AI sisi klien sepenuhnya mengubah aturan tentang bagaimana fitur cerdas dikirimkan dalam aplikasi web, menjadikan AI pribadi dengan latensi rendah dapat diakses oleh siapa saja yang memiliki browser modern.

Apa Sebenarnya Mesin MDST Itu dan Mengapa Itu Penting?

MDST Engine adalah kerangka kerja inferensi AI asli browser yang dirancang untuk memuat dan menjalankan model GGUF terkuantisasi—format yang sama yang dipopulerkan oleh proyek seperti llama.cpp—langsung dalam konteks web. Daripada merutekan setiap permintaan AI melalui titik akhir cloud, MDST mengeksekusi inferensi model pada perangkat keras milik pengguna menggunakan API WebGPU browser untuk komputasi yang dipercepat GPU dan WebAssembly untuk performa fallback CPU yang mendekati aslinya.

Hal ini sangat penting karena beberapa alasan. Pertama, ini menghilangkan latensi bolak-balik yang melekat pada inferensi sisi server. Kedua, teknologi ini menyimpan data sensitif pengguna sepenuhnya di perangkat, yang merupakan keuntungan privasi penting bagi aplikasi perusahaan dan konsumen. Ketiga, hal ini secara signifikan mengurangi biaya infrastruktur bagi bisnis yang biasanya membayar per panggilan API atau memelihara cluster GPU mereka sendiri.

“Menjalankan inferensi AI di browser bukan lagi sebuah bukti konsep yang menarik—ini adalah arsitektur yang layak untuk diproduksi yang menukar biaya cloud terpusat dengan perangkat keras pengguna yang terdesentralisasi, sehingga secara mendasar mengubah siapa yang menanggung beban komputasi aplikasi yang didukung AI.”

Bagaimana WebGPU dan WASM Memungkinkan AI Dalam Browser?

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Mulai Gratis →

Memahami dasar-dasar teknis Mesin MDST memerlukan pandangan singkat tentang dua primitif browser inti yang dimanfaatkannya. WebGPU adalah penerus WebGL, menyediakan akses GPU tingkat rendah langsung dari kode shader JavaScript dan WGSL. Berbeda dengan pendahulunya, WebGPU mendukung komputasi shader, yang merupakan alat kerja operasi perkalian matriks yang mendominasi inferensi LLM. Ini berarti MDST dapat mengirimkan operasi tensor ke GPU dengan cara yang sangat paralel, mencapai throughput yang sebelumnya tidak mungkin dilakukan di dalam sandbox browser.

WebAssembly berfungsi sebagai cadangan dan target kompilasi untuk logika runtime inti mesin. Untuk perangkat yang tidak memiliki dukungan WebGPU—browser lama, lingkungan seluler tertentu, atau konteks pengujian tanpa kepala—WASM menyediakan lapisan eksekusi portabel yang berkinerja baik yang menjalankan kode C++ atau Rust yang dikompilasi dengan kecepatan jauh melebihi JavaScript standar. Bersama-sama, WebGPU dan WASM membentuk strategi eksekusi berjenjang: GPU-first jika tersedia, CPU-via-WASM jika tidak.

Apa Itu Model GGUF dan Mengapa Format Itu Penting dalam Pendekatan Ini?

GGUF (GPT-Generated Unified Format) adalah format file biner yang mengemas bobot model, data tokenizer, dan metadata ke dalam satu artefak portabel. Awalnya dirancang untuk mendukung pemuatan yang efisien di llama.cpp, GGUF menjadi standar de facto untuk model bobot terbuka terkuantisasi karena mendukung beberapa tingkat kuantisasi—dari 2-bit hingga 8-bit—memungkinkan pengembang memilih trade-off antara ukuran model, jejak memori, dan kualitas keluaran.

Untuk inferensi berbasis browser, kuantisasi bukanlah suatu pilihan—hal ini penting. Model parameter 7B presisi penuh memerlukan sekitar 14 GB memori. Pada kuantisasi Q4, model yang sama menyusut menjadi sekitar 4 GB, dan pada Q2 bisa turun hingga di bawah 2 GB. Dukungan MDST Engine untuk GGUF berarti pengembang dapat langsung menggunakan ekosistem besar model yang sudah terkuantisasi tanpa langkah konversi tambahan apa pun, sehingga secara signifikan mengurangi hambatan integrasi.

Apa Kasus Penggunaan di Dunia Nyata untuk Bisnis yang Menjalankan Model GGUF di Browser?

Aplikasi praktis inferensi GGUF dalam browser menjangkau hampir setiap vertikal industri. Bisnis yang mengadopsi pendekatan ini membuka kemampuan yang sebelumnya ada

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Apakah ini berguna? Bagikan itu.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Mulai Uji Coba Gratis →

Siap mengambil tindakan?

Mulai uji coba gratis Mewayz Anda hari ini

Platform bisnis semua-dalam-satu. Tidak perlu kartu kredit.

Mulai Gratis →

14-day free trial · No credit card · Cancel anytime