AutoDroid-V2 是清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)于 2024 年 12 月 24 日發(fā)布的 AI 模型,在優(yōu)化移動端自動化 GUI 控制方面有顯著成果。以下是其具體介紹:
- 基于腳本的方法:與傳統(tǒng)依賴云端大型語言模型(LLM)的 “逐步 GUI 智能體” 方式不同,AutoDroid-V2 采用基于腳本的方法,根據(jù)用戶指令生成多步驟腳本,一次性執(zhí)行多個 GUI 操作,大幅減少了查詢頻率和資源消耗。
- 利用設(shè)備端小型語言模型:利用設(shè)備上的小型語言模型(SLM)進行腳本生成和執(zhí)行,避免了對強大云端模型的依賴,有效保護了用戶隱私和數(shù)據(jù)安全,并降低了服務(wù)器端成本。
- 離線構(gòu)建應(yīng)用程序文檔:在離線階段構(gòu)建應(yīng)用程序文檔,包含 AI 引導(dǎo)的 GUI 狀態(tài)壓縮、元素 XPath 自動生成和 GUI 依賴分析,為腳本生成奠定基礎(chǔ)。
- 任務(wù)完成率顯著提升:在 23 個移動應(yīng)用上進行 226 項任務(wù)的基準測試,與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基線相比,任務(wù)完成率提高 10.5%-51.7%。
- 資源消耗大幅降低:輸入和輸出 token 消耗分別減少至 43.5 分之一和 5.8 分之一,LLM 推理延遲降低至 5.7-13.4 分之一。
- 跨 LLM 適應(yīng)性良好:在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表現(xiàn)一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。
- 提升用戶體驗:用戶可以通過自然語言更高效地控制移動設(shè)備,執(zhí)行復(fù)雜任務(wù),如自動完成一系列應(yīng)用內(nèi)的操作流程,無需手動逐個點擊,為用戶帶來更加便捷、智能的操作感受。
- 助力移動應(yīng)用開發(fā)與測試:開發(fā)者可以利用 AutoDroid-V2 快速進行應(yīng)用的自動化測試,模擬用戶操作,提高測試效率和覆蓋范圍,及時發(fā)現(xiàn)和修復(fù)問題,提升應(yīng)用質(zhì)量。
- 拓展智能設(shè)備交互場景:為智能家居、智能車載等領(lǐng)域的設(shè)備控制提供了新的思路和方法,通過自然語言實現(xiàn)對多種智能設(shè)備的統(tǒng)一控制,打造更加智能、便捷的物聯(lián)網(wǎng)生態(tài)。
|