主要功能 / Browser Automation
Browser Automation
Browser Automation 是 Heddle 的 opt-in capability,適合 agent 需要渲染後頁面狀態、視覺證據,或瀏覽器互動,而不能只靠程式碼檢查或網路搜尋的工作。
適合用在什麼情境
當任務取決於頁面實際渲染結果時,就適合使用 Browser Automation:前端驗證、視覺版面檢查、商品或列表頁比較,或使用者明確要求的網站流程。
它刻意不是預設啟用。開啟後,Heddle 會啟用內建的 browser-automation Agent Skill,並把瀏覽器工具加入未來預設 agent turns。
這個 skill 會教 agent 什麼時候瀏覽器才是正確工具。網路搜尋可以協助找到起始 URL,但瀏覽器工具是用來檢查與操作頁面狀態本身。
適合的使用情境
前端驗證
UI 變更後開啟本地或已部署頁面,檢查渲染後 DOM,並擷取截圖作為證據。
網站流程
瀏覽使用者明確要求 agent 操作的網站,同時遵守網域與 action policy。
商品研究
當搜尋摘要或靜態 HTML 不足時,比較可見的商品頁或列表頁。
渲染狀態除錯
檢查頁面標題、互動元素、空狀態、路由錯誤,或單元測試看不出的響應式版面。
啟用方式
Browser Automation 以工作區為範圍。你可以從 Settings -> Browser Automation 或聊天啟用:
/browser
/browser enable
/browser disable加入 agent 的工具
啟用後,未來預設 agent turns 可以使用這些瀏覽器工具:
browser_open
browser_snapshot
browser_click
browser_screenshot
browser_closePolicy 與 profile model
- 沒有 explicit allowlist 時,第一個 browser_open URL 會建立同網域瀏覽邊界。
- Snapshots 會回傳 scoped refs,browser_click 使用這些 refs,而不是任意 selector。
- 不安全操作、off-domain navigation、ambiguous JavaScript-only clicks 可能被阻擋或要求 approval。
- 需要登入的網站需要 persistent browser profile 與有效 session。Profile 管理已在規劃中,但還不是完整的使用者流程。
目前 roadmap
設定 selected profile、Chrome channel、headed/headless mode 與 profile path visibility。
提供 open-profile-for-login 流程,讓使用者可以手動準備已登入 session。
增加表單安全工具,例如 browser_type、browser_fill、browser_press。
直接在 control plane 顯示瀏覽器證據與截圖。
設計以 screenshot 或 CDP screencast 為基礎的即時預覽路徑,而不是嵌入 Playwright 的 native headed window。