Hacker News

Ferret-UI Lite: Poučení z vytváření malých agentů GUI na zařízení

Komentáře

18 min read Via machinelearning.apple.com

Mewayz Team

Editorial Team

Hacker News

Vzestup agentů GUI na zařízení: Nová hranice v interakci člověk-počítač

Po celá desetiletí zůstávalo dominantní paradigma softwarové interakce tvrdohlavě statické: člověk čte obrazovku, pohybuje kurzorem, kliká na tlačítko a čeká na odpověď. Tato smyčka – vnímat, rozhodovat, jednat – definovala výpočetní techniku ​​od doby, kdy se v 70. letech objevil první grafický desktop. Ale probíhá tichá revoluce. Výzkumníci a inženýři vytvářejí malé, efektivní modely umělé inteligence schopné vnímat, uvažovat a jednat v rámci grafických uživatelských rozhraní zcela na zařízení, aniž by se museli obávat latence, nákladů nebo soukromí jako cloudové vyvozování. Ponaučení plynoucí z těchto projektů mění způsob, jakým přemýšlíme o inteligentním softwaru, automatizaci a budoucnosti obchodních nástrojů.

Vývoj kompaktních agentů GUI – modelů, jako je Ferret-UI od Apple a jeho lehčí protějšky – odhaluje něco hlubokého: nepotřebujete masivní jazykový model, abyste porozuměli obrazovce. Potřebujete správnou architekturu, správná školicí data a nemilosrdný závazek k efektivitě konkrétních úkolů. Jak tyto systémy dospívají, začínají přetvářet způsob, jakým podniky interagují se svými vlastními softwarovými balíky, a otevírají možnosti, které kdysi patřily pouze sci-fi.

Proč jsou lehké modely skutečným průlomem

V diskursu o umělé inteligenci je tendence ztotožňovat schopnosti s rozsahem. Větší modely, míní se, jsou chytřejší modely. Ale pro agenty GUI – systémy, které musí rozumět rozvržení na úrovni pixelů, analyzovat interaktivní prvky a provádět vícekrokové úlohy napříč komplexními aplikacemi – je nezpracovaný počet parametrů méně důležitý než prostorová přesnost a přesnost uzemnění. Model se 7 miliardami parametrů, který dokáže spolehlivě klepnout na správné tlačítko v mobilním rozhraní, překonává generalistu se 70 miliardami parametrů, který halucinuje pozice prvků.

Výzkum malých modelů GUI na zařízení soustavně prokazuje, že cílené jemné doladění dat specifických pro uživatelské rozhraní přináší dramatická zlepšení oproti pouhému vyvolání velkého základního modelu. Modely trénované na anotovaných snímcích obrazovky, hierarchiích prvků a trasách interakcí se učí zásadně odlišnou vizuální gramatiku než modely trénované na internetovém textu a přirozených obrázcích. Rozvíjejí porozumění výhodám – co lze klepat, přejíždět, posouvat nebo psát – které obecné modely prostě postrádají.

Praktické důsledky jsou významné. Model, který běží na neurální procesorové jednotce smartphonu, může pomáhat uživatelům v reálném čase, učit se z místních vzorců interakce a fungovat v prostředích bez připojení k internetu. Pro podnikové kontexty, kde citlivá finanční data, záznamy o lidských zdrojích nebo klientské informace žijí v softwarových rozhraních, odvozování na zařízení není příjemné – je to nutnost dodržování předpisů.

Lekce architektury, které se skutečně přenášejí

Vytvoření schopného GUI agenta v malém měřítku vyžaduje architektonická rozhodnutí, která se podstatně liší od standardního návrhu modelu v jazyce vidění. Mezi výzkumnými týmy pracujícími na tomto problému se konzistentně vynořilo několik lekcí.

Za prvé, na koordinaci zastupování nesmírně záleží. Raní agenti GUI měli problémy, protože zdědili prostorové uvažování od modelů vycvičených k popisu scén, spíše než k interakci s nimi. Model, který říká „v pravé dolní části obrazovky je modré tlačítko“, je pro automatizaci k ničemu. Model, který vrací normalizované souřadnice se subpixelovou přesností – a dělá to spolehlivě v různých rozlišeních obrazovky, nastavení DPI a motivech OS – je skutečně užitečný. Posun od popisného k akčnímu prostorovému výstupu si vyžádal přehodnocení způsobu výcviku a hodnocení uzemňovacích hlav.

Za druhé, kódování s ohledem na hierarchii výrazně zlepšuje výkon. Moderní aplikační rozhraní nejsou ploché obrázky – jsou to vnořené struktury kontejnerů, seznamů, modálů a interaktivních prvků. Modely, které mají přístup ke stromu přístupnosti nebo k hierarchii zobrazení vedle vykresleného snímku obrazovky, fungují výrazně lépe při složitých úlohách navigace než ty, které pracují se samotnými pixely. To je důvod, proč agenti GUI na zařízení často využívají rozhraní API pro usnadnění přístupu jako paralelní signál během školení i vyvozování.

Za třetí, do výstupní struktury modelu musí být zabudována dekompozice úloh. Namísto generování jediného monolitického akčního plánu vytvářejí efektivní agenti grafického uživatelského rozhraní hierarchické sekvence dílčích úkolů s explicitními kontrolními body. To jim umožňuje zotavit se z chyb uprostřed úlohy – schopnost, která je nezbytná ve skutečných obchodních pracovních postupech, kde chybné kliknutí může vyvolat nechtěné změny stavu.

Problém s daty: Proč je školení agentů GUI jedinečně obtížné

Jazykové modely těží z v podstatě nekonečného korpusu textu psaného lidmi na internetu. Modely vidění mohou trénovat na miliardách označených fotografií. Agenti GUI nemají žádný ekvivalentní zdroj. Aplikační rozhraní jsou pomíjivá, proprietární a radikálně různorodá – mzdová obrazovka na jedné platformě SaaS nesdílí vizuálně téměř nic s řídicím panelem CRM na jiné, i když obě plní analogické funkce.

Nejúspěšnější výzkumné týmy se s tím vypořádaly pomocí syntetického generování dat ve velkém měřítku. Díky instrumentaci aplikací pomocí automatizovaných testovacích rámců, zachycování stop interakcí a jejich spárování s popisy úloh v přirozeném jazyce mohou výzkumníci generovat miliony anotovaných příkladů uživatelského rozhraní. Úkolem je zajistit pokrytí: podnikový software zahrnuje vše od podnikových ERP s hustými tabulkovými daty až po mobilní nástroje s navigací založenou na gestech a model trénovaný v jedné doméně může v jiné katastroficky selhat.

"Nejschopnější agenti GUI nejsou ti, kteří jsou vyškoleni na nejvíce dat – jsou to ti, kteří jsou vyškoleni na nejrůznějších datech. Složitost rozhraní je funkcí šířky domény, nikoli počtu obrazovek."

Tyto poznatky přivedly týmy k benchmarkům zobecnění napříč aplikacemi, které hodnotí výkon agentů v rámci dříve neviděného softwaru. Agent GUI, který perfektně skóruje v distribuci školení, ale selže v nové aplikaci, není připraven na výrobu. Zlatým standardem je nulové dokončení úkolu – schopnost procházet neznámým rozhraním pouze pomocí instrukcí v přirozeném jazyce a vizuálního pozorování aktuálního stavu obrazovky.

Ochrana soukromí, latence a výhoda na zařízení v obchodních kontextech

Obchodní případ agentů GUI na zařízení přesahuje pouhé možnosti. Tři vzájemně propojené výhody činí místní odvození přesvědčivým pro podniková nasazení:

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →
  • Suverenita dat: Snímky obrazovky obchodního softwaru mohou obsahovat citlivá data zákazníků, finanční záznamy nebo osobní údaje zaměstnanců. Odesílání těchto obrázků do cloudového rozhraní API představuje regulační vystavení v rámci rámců, jako je GDPR, HIPAA a SOC 2. Zpracování v zařízení udržuje citlivá vizuální data v rámci zabezpečení.
  • Latence odezvy: Agent GUI, který vyžaduje zpáteční cestu ke koncovému bodu cloudové inference, nemůže pracovat rychlostí lidské interakce. Modely na zařízení reagují v řádu desítek milisekund, což umožňuje skutečně plynulé agentní pracovní postupy, které působí spíše nativním než mechanickým dojmem.
  • Možnost offline: Terénní pracovníci, poskytovatelé zdravotní péče a logističtí operátoři často pracují v prostředích s nespolehlivým připojením. Asistent umělé inteligence, který ke svému fungování vyžaduje přístup k internetu, není spolehlivým obchodním nástrojem – je to závazek.
  • Předvídatelnost nákladů: Náklady na odvození cloudu se škálují s využitím. Pro agenta, který by mohl zpracovat stovky snímků obrazovky na uživatelskou relaci, se cena za token stává v měřítku ekonomicky neúnosným. Fixní amortizace hardwaru je pro finanční ředitele modelující náklady na infrastrukturu AI předvídatelnější.

Tyto výhody pohánějí vlnu investic do okrajových akcelerátorů umělé inteligence napříč hardwarovým balíkem. Čipy Neural Engine společnosti Apple, Hexagon společnosti Qualcomm a čipy Tensor společnosti Google jsou optimalizovány pro maticové operace, které jsou základem modelů vizuálního jazyka. Hardwarová infrastruktura pro agenty GUI na zařízení rychle dospívá a softwarové ekosystémy ji následují.

Co to znamená pro komplexní platformy podnikového softwaru

Důsledky pro modulární obchodní platformy jsou značné. Zvažte provozní realitu rostoucí společnosti využívající komplexní obchodní OS, který zahrnuje CRM, fakturaci, mzdy, HR, správu vozového parku a analýzy – 207 různých funkčních modulů na platformě, jako je Mewayz. Pro nového zaměstnance nebo manažera, který jen zřídka přistupuje k určitým modulům, je navigace v neznámých rozhraních skutečným vyčerpáním produktivity. Náklady na školení jsou skutečné. Lístky na podporu jsou drahé. Chyby pracovního postupu ve mzdové agendě nebo fakturaci mají následné důsledky, které daleko přesahují jediné chybné kliknutí.

Schopný agent GUI na zařízení tento počet zcela změní. Namísto toho, aby se nový uživatel učil, kde najít pracovní postup schvalování dovolené nebo jak nakonfigurovat šablonu opakující se faktury, popíší svůj záměr srozumitelným jazykem a agent projde rozhraním jejich jménem. Nejedná se o automatizaci seškrabávání obrazovky – je to skutečná, kontextová pomoc, která se přizpůsobuje stavu rozhraní, zpracovává okrajové případy a žádá o vysvětlení, když je úkol nejednoznačný.

Modulární architektura Mewayz je pro toto paradigma obzvláště vhodná. Vzhledem k tomu, že každý modul má konzistentní návrhový jazyk a dobře definovaný funkční rozsah, může agent GUI vyškolený na rozhraní Mewayz vyvinout robustní, přenositelné reprezentace běžných vzorců interakce – potvrzení rezervací, schválení mezd, aktualizace kanálu CRM – a spolehlivě je aplikovat v celé šíři platformy. 138 000 uživatelů na platformě společně představuje obrovskou rozmanitost pracovních postupů, případů použití a stylů interakcí, což je přesně ten druh rozmanitého tréninkového signálu, který produkuje schopné, generalizovatelné agenty.

Návrh softwaru s ohledem na připravenost agenta

Jedna z nejdůležitějších lekcí plynoucích z výzkumu agentů GUI je, že software navržený pro lidské uživatele a software navržený pro uživatele agentů nejsou totéž. Rozhraní optimalizovaná pro vizuální estetiku – přechody, animace, překrývající se vrstvy, vlastní renderované komponenty – je pro agenty často obtížnější analyzovat než rozhraní navržená s ohledem na dostupnost. Tato konvergence mezi designem zaměřeným na dostupnost a designem připraveným pro agenty je jedním z nejzajímavějších pokroků v této oblasti.

Progresivní softwarové týmy začínají do svých návrhových systémů začleňovat „čitelnost agentů“. To znamená:

  1. Zajištění, aby interaktivní prvky měly jedinečné a stabilní identifikátory přístupné prostřednictvím stromu přístupnosti
  2. Zachování konzistentních vizuálních možností napříč stavy rozhraní spíše než spoléhání se na změny stavu závislé na animaci
  3. Poskytování strukturovaných potvrzovacích dialogů pro akce s vysokými důsledky – schvalování, mazání, finanční podání – které poskytují agentům přirozené kontrolní body
  4. Odhalení přímých odkazů zaměřených na úkoly, které umožňují agentům přejít přímo do příslušných stavů rozhraní bez postupného procházení
  5. Protokolování metadat interakcí, která lze použít ke generování syntetických trénovacích dat pro doladění agenta specifického pro doménu

Platformy, které dnes investují do těchto architektonických nemovitostí, vytvářejí významnou konkurenční výhodu. S tím, jak se agenti GUI během příštích dvou až tří let přesunou od výzkumných prototypů k produkčním nástrojům, bude software, který je čitelný pro agenty, poskytovat výrazně lepší agentské zkušenosti než software, který nakládá s pomocí AI jako s dodatečným nápadem přišroubovaným k existujícímu paradigmatu rozhraní.

Cesta vpřed: Od asistentů k autonomním agentům pracovních postupů

Trajektorie výzkumu agentů GUI na zařízení ukazuje do budoucnosti, kde se hranice mezi lidskou operací a automatizovaným prováděním stane skutečně plynulou. Dnešní agenti mohou spolehlivě dokončit jednotlivé, dobře definované úkoly — přejít na konkrétní obrazovku, vyplnit formulář, extrahovat hodnotu z řídicího panelu. Zástupci společnosti Tomorrow budou řídit pracovní postupy s více relacemi a aplikacemi, které pokrývají hodiny nebo dny obchodní činnosti.

Tento posun od asistenta k autonomnímu agentovi vyžaduje pokrok nejen ve schopnostech modelu, ale také v důvěře, ověřování a mechanismech lidského dohledu. Podniky budou potřebovat auditní záznamy pro akce agentů, záruky vratnosti pro následné operace a jasné cesty eskalace pro nejednoznačné situace. Inženýrská výzva je stejně tak o architektuře řízení jako o výkonu modelu.

Platformy jako Mewayz, které již sledují aktivitu uživatelů v rámci CRM interakcí, schvalování mezd a potvrzení rezervací, mají dobrou pozici k tomu, aby tuto infrastrukturu auditu rozšířily i na akce iniciované agentem. Datová infrastruktura požadovaná pro dodržování předpisů a pro správu agentů je z velké části stejná – a organizace, které investovaly do jedné, shledají druhou výrazně ovladatelnější. Budoucností podnikového softwaru nejsou lidé používající software nebo umělou inteligenci nahrazující lidi. Je to kolaborativní smyčka, kde agenti na zařízení zvládají mechanickou práci navigace rozhraní, zatímco lidé poskytují úsudek, dohled a strategické řízení. Lekce, které jsme se dnes naučili při výzkumu kompaktních GUI agentů, budují základy pro tuto budoucnost.

Často kladené otázky

Co je Ferret-UI Lite a jak se liší od tradičních nástrojů pro automatizaci grafického uživatelského rozhraní?

Ferret-UI Lite je kompaktní model umělé inteligence na zařízení navržený tak, aby autonomně vnímal a interagoval s grafickým uživatelským rozhraním, aniž by se spoléhal na cloudové připojení. Na rozdíl od tradičních automatizačních nástrojů, které se řídí pevnými, skriptovanými pravidly, Ferret-UI Lite používá vizuální uvažování k dynamickému pochopení kontextu obrazovky. Díky tomu je mnohem přizpůsobivější pro různé aplikace a rozvržení a umožňuje skutečné chování agenta přímo na zařízení s minimální latencí.

Proč je spouštění GUI agentů na zařízení důležité z hlediska ochrany soukromí a výkonu?

Odvozování na zařízení uchovává citlivá data obrazovky – včetně hesel, osobních dokumentů a obchodních pracovních postupů – zcela lokálně, čímž eliminuje rizika ochrany soukromí spojená s přenosem snímků obrazovky na vzdálené servery. Také odstraňuje latenci sítě z každého cyklu interakce. U podnikových platforem, jako je Mewayz, 207modulový obchodní OS dostupný na app.mewayz.com od 19 USD/měsíc, by agenti na zařízení mohli případně automatizovat složité vícekrokové pracovní postupy, aniž by kdy externě odhalovali interní operace.

Jaké jsou největší technické problémy při vytváření malých, efektivních modelů agentů GUI?

Hlavní výzvou je vyvážení velikosti modelu a schopnosti vnímání. Pochopení GUI vyžaduje prostorové uvažování, rozpoznávání textu a kontextové vyvozování současně – úkoly, které obvykle vyžadují velké modely. Výzkumníci musí agresivně komprimovat architektury, aniž by obětovali přesnost na hustých obrazovkách bohatých na informace. Mezi další překážky patří zvládnutí obrovské vizuální rozmanitosti moderních rozhraní a školení o reprezentativních datových sadách, které zahrnují spotřebitelské aplikace, podnikové řídicí panely a sady produktivity.

Jak by mohli agenti GUI na zařízení změnit způsob, jakým podniky spravují softwarové pracovní postupy?

Agenti grafického uživatelského rozhraní na zařízení by mohli fungovat jako neviditelní operátoři a autonomně navigovat software k dokončení opakujících se úkolů, jako je zadávání dat, generování sestav nebo aktualizace napříč platformami. Pro podniky využívající platformy typu vše v jednom, jako je Mewayz – nabízející 207 integrovaných modulů na app.mewayz.com za 19 $/měsíc – by takoví agenti mohli řetězit akce napříč moduly bez lidského zásahu, což dramaticky snižuje provozní režii a umožňuje týmům soustředit se na rozhodování s vyšší hodnotou namísto ruční navigace rozhraní.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime