Hacker News

MDST Engine: запускайте модели GGUF в браузере с помощью WebGPU/WASM.

MDST Engine: запускайте модели GGUF в браузере с помощью WebGPU/WASM. Это исследование углубляется в mdst, изучая его значение и ПО — ОС Mewayz Business.

1 минута чтения

Mewayz Team

Editorial Team

Hacker News

Механизм MDST: запуск моделей GGUF в браузере с помощью WebGPU/WASM

MDST Engine — это новая среда выполнения, которая позволяет разработчикам и предприятиям выполнять большие языковые модели в формате GGUF непосредственно в браузере с использованием WebGPU и WebAssembly (WASM), устраняя необходимость в выделенном сервере или облачном графическом процессоре. Этот переход к полностью клиентскому выводу ИИ переписывает правила предоставления интеллектуальных функций в веб-приложениях, делая частный ИИ с малой задержкой доступным для любого, у кого есть современный браузер.

Что такое механизм MDST и почему это важно?

MDST Engine — это встроенная в браузер платформа вывода искусственного интеллекта, предназначенная для загрузки и запуска квантованных моделей GGUF — того же формата, который популяризируется такими проектами, как llama.cpp — непосредственно в веб-контексте. Вместо того, чтобы маршрутизировать каждый запрос ИИ через конечную точку облака, MDST выполняет вывод модели на собственном оборудовании пользователя, используя API браузера WebGPU для вычислений с ускорением на графическом процессоре и WebAssembly для обеспечения производительности резервного процессора, близкой к исходной.

Это имеет огромное значение по ряду причин. Во-первых, он устраняет двустороннюю задержку, присущую серверному выводу. Во-вторых, конфиденциальные пользовательские данные полностью сохраняются на устройстве, что является важнейшим преимуществом конфиденциальности как для корпоративных, так и для потребительских приложений. В-третьих, это значительно снижает затраты на инфраструктуру для компаний, которые в противном случае платили бы за вызов API или поддерживали бы свои собственные кластеры графических процессоров.

«Выполнение вывода ИИ в браузере больше не является любопытством для проверки концепции — это жизнеспособная в производстве архитектура, которая обменивает затраты на централизованное облако на децентрализованное пользовательское оборудование, фундаментально меняя то, кто несет вычислительное бремя приложений на базе ИИ».

Как WebGPU и WASM делают возможным использование искусственного интеллекта в браузере?

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Начать бесплатно →

Для понимания технической основы MDST Engine необходимо кратко рассмотреть два основных примитива браузера, которые он использует. WebGPU является преемником WebGL, обеспечивая низкоуровневый доступ к графическому процессору непосредственно из кода шейдера JavaScript и WGSL. В отличие от своего предшественника, WebGPU поддерживает вычислительные шейдеры, которые являются рабочими лошадками операций умножения матриц, которые доминируют в выводе LLM. Это означает, что MDST может отправлять тензорные операции на графический процессор с высокой степенью параллелизма, достигая пропускной способности, которая ранее была невозможна в изолированной программной среде браузера.

WebAssembly служит резервной копией и целью компиляции для основной логики времени выполнения движка. Для устройств, не имеющих поддержки WebGPU (старые браузеры, некоторые мобильные среды или контексты автономного тестирования), WASM предоставляет высокопроизводительный, переносимый уровень исполнения, который запускает скомпилированный код C++ или Rust со скоростью, намного превышающей стандартный JavaScript. Вместе WebGPU и WASM образуют многоуровневую стратегию выполнения: сначала графический процессор, если он доступен, а когда нет — процессор через WASM.

Что такое модели GGUF и почему этот формат занимает центральное место в этом подходе?

GGUF (унифицированный формат, созданный GPT) — это двоичный формат файла, который упаковывает веса модели, данные токенизатора и метаданные в один переносимый артефакт. Первоначально разработанный для поддержки эффективной загрузки в llama.cpp, GGUF стал фактическим стандартом для квантованных моделей с открытым весом, поскольку он поддерживает несколько уровней квантования — от 2-битного до 8-битного, что позволяет разработчикам выбирать компромисс между размером модели, объемом памяти и качеством вывода.

Для вывода на основе браузера квантование не является обязательным — оно необходимо. Модель полной точности с параметрами 7B требует примерно 14 ГБ памяти. При квантовании в четвертом квартале та же модель сжимается примерно до 4 ГБ, а во втором квартале он может упасть ниже 2 ГБ. Поддержка GGUF в MDST Engine означает, что разработчики могут напрямую использовать огромную экосистему уже квантованных моделей без какого-либо дополнительного этапа преобразования, что значительно снижает барьер для интеграции.

Каковы реальные варианты использования компаний, использующих модели GGUF в браузере?

Практическое применение вывода GGUF в браузере охватывает практически все отрасли промышленности. Компании, применяющие этот подход, открывают возможности, которые ранее были недоступны.

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Нашли это полезным? Поделиться.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Начать бесплатный пробный период →

Готовы действовать?

Начните ваш бесплатный пробный период Mewayz сегодня

Бизнес-платформа все-в-одном. Кредитная карта не требуется.

Начать бесплатно →

14-day free trial · No credit card · Cancel anytime