Hacker News

Ferret-UI Lite: 小規模なオンデバイス GUI エージェントの構築から得た教訓

Ferret-UI Lite を使用して小規模なオンデバイス GUI エージェントを構築することから得た教訓と、AI 主導の UI 自動化がビジネス ツールとワークフローをどのように再構築するかについて学びましょう。

2 最小読み取り

Mewayz Team

Editorial Team

Hacker News

オンデバイス GUI エージェントの台頭: ヒューマン コンピューター インタラクションの新たなフロンティア

何十年もの間、ソフトウェア対話の支配的なパラダイムは頑固に静的なままでした。つまり、人間は画面を読み、カーソルを動かし、ボタンをクリックし、応答を待ちます。 1970 年代に最初のグラフィカル デスクトップが登場して以来、このループ (知覚、決定、行動) がコンピューティングを定義してきました。しかし、静かな革命が進行中です。研究者やエンジニアは、クラウドベースの推論に伴う遅延、コスト、プライバシーの懸念なしに、完全にオンデバイスのグラフィカル ユーザー インターフェイスを認識、推論し、その中で動作できる小型で効率的な AI モデルを構築しています。これらのプロジェクトから得られた教訓は、インテリジェント ソフトウェア、自動化、ビジネス ツールの将来についての私たちの考え方を再構築しています。

コンパクトな GUI エージェント (Apple の Ferret-UI やその軽量版のようなモデル) の開発では、画面を理解するために大規模な言語モデルは必要ないという奥深いことが明らかになります。適切なアーキテクチャ、適切なトレーニング データ、およびタスク固有の効率性への徹底的な取り組みが必要です。これらのシステムが成熟するにつれて、企業が独自のソフトウェア スタックを操作する方法が変わり始め、かつては SF の世界にしか属していなかった可能性が開かれています。

軽量モデルが真の画期的な理由

AI の議論では、能力と規模を同一視する傾向があります。より大きなモデルはより賢いモデルであると考えられています。しかし、ピクセル レベルのレイアウトを理解し、インタラクティブな要素を解析し、複雑なアプリケーション全体で複数ステップのタスクを実行する必要があるシステムである GUI エージェントの場合、生のパラメータ数は空間精度や接地精度ほど重要ではありません。モバイル インターフェイスで正しいボタンを確実にタップできる 70 億パラメータのモデルは、要素の位置を幻覚させる 700 億パラメータのジェネラリストよりも優れています。

💡 ご存知でしたか?

Mewayzは8つ以上のビジネスツールを1つのプラットフォームに統合します

CRM・請求・人事・プロジェクト・予約・eCommerce・POS・分析。永久無料プラン提供中。

無料で始める →

小規模なオンデバイス GUI モデルの研究では、UI 固有のデータをターゲットに微調整することで、大規模な基礎モデルを単にプロンプ​​トするよりも劇的な改善が得られることが一貫して実証されています。注釈付きスクリーンショット、要素階層、およびインタラクション トレースでトレーニングされたモデルは、インターネット テキストや自然画像でトレーニングされたモデルとは根本的に異なる視覚文法を学習します。彼らは、ジェネラリスト モデルにはまったく欠けているアフォーダンス (タップ、スワイプ、スクロール、または入力できるもの) についての理解を深めます。

実際的な意味は重大です。スマートフォンのニューラル処理ユニット上で実行されるモデルは、リアルタイムでユーザーを支援し、ローカルの対話パターンから学習し、インターネット接続のない環境でも動作できます。機密の財務データ、人事記録、または顧客情報がソフトウェア インターフェイス内に存在するエンタープライズ コンテキストでは、オンデバイス推論はあれば便利というわけではなく、コンプライアンス上の必須事項です。

実際に応用できるアーキテクチャのレッスン

小規模で有能な GUI エージェントを構築するには、標準のビジョン言語モデル設計とは大幅に異なるアーキテクチャ上の決定が必要です。この問題に取り組んでいる研究チーム全体で、一貫していくつかの教訓が得られています。

まず、座標表現が非常に重要です。初期の GUI エージェントは、シーンと対話するのではなく、シーンを記述するように訓練されたモデルから空間推論を継承したため、苦労しました。 「画面の右下に青いボタンがある」というモデルは自動化には役に立ちません。サブピクセル精度で正規化された座標を返し、さまざまな画面解像度、DPI 設定、OS テーマにわたって確実にそれを返すモデルは、本当に役立ちます。記述的な空間出力から実用的な空間出力への移行には、グラウンディング ヘッドのトレーニングと評価の方法を再考する必要がありました。

2 番目に、階層を意識したエンコーディングによりパフォーマンスが大幅に向上します。最新のアプリケーション インターフェイスはフラットなイメージではなく、コンテナ、リスト、モーダル、インタラクティブな要素の入れ子構造です。アクセシビリティ ツリーにアクセスしたり、階層構造を表示したりできるモデル

Mewayzを無料で試す

CRM、請求書、プロジェクト、人事などを網羅するオールインワンプラットフォーム。クレジットカードは不要です。

今日からビジネス管理をスマートに始めましょう。

30,000+社の企業が参加しています。永久無料プラン・クレジットカード不要。

これは役に立ちましたか?共有する。

実践に移す準備はできていますか?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

無料トライアル開始 →

行動を起こす準備はできていますか?

今日からMewayz無料トライアルを開始

オールインワンビジネスプラットフォーム。クレジットカード不要。

無料で始める →

14日間無料トライアル · クレジットカード不要 · いつでもキャンセル可能