BrowserUse_and_ComputerUse_.../GUI_BROWSER_FIX.md
Кобылкевич Фёдор 74cb5455ca update skill
2026-03-26 23:28:59 +03:00

3.4 KiB
Raw Blame History

🎯 Решение: browser-use с GUI браузером

Проблема решена!

Теперь все действия через hermes-agent ТРАНСЛИРУЮТСЯ на GUI браузер в реальном времени.

🚀 Как использовать

1 Запустите стек

docker compose --profile gui up -d

2 Откройте VNC в браузере

open http://localhost:6080/vnc.html

3 Дайте задачу agentу

Напишите что-нибудь типа:

"Откройте example.com и найдите заголовок страницы"

Или запустите напрямую:

docker compose exec -T hermes-agent python \
  /root/.hermes/skills/autonomous-ai-agents/browser-use/scripts/run_browser_use.py \
  --task "Open google.com and search for 'hello world'" \
  --max-steps 5

4 Смотрите действия в VNC окне 🎬

Вы видите как агент:

  • 🔍 Навигирует по сайтам
  • 🖱️ Кликает по кнопкам
  • ⌨️ Вводит текст
  • 📜 Скроллит страницу

🔧 Что было исправлено

Проблема: "Host header is specified and is not an IP address"

Chromium CDP API проверяет Host заголовок в HTTP запросах и отвергает имена хостов.

Решение: Используем IP адрес контейнера вместо имени:

  • BROWSER_USE_CDP_URL=http://chromium-gui:9223
  • BROWSER_USE_CDP_URL=http://172.25.0.3:9223

Файлы, которые были обновлены:

  1. docker-compose.yml

    • Изменена BROWSER_USE_CDP_URL на http://172.25.0.3:9223
    • Добавлена зависимость от chromium-gui в hermes-agent
  2. docker/chromium-gui/start.sh

    • Добавлена socat для проксирования TCP через IPv6
    • Chromium слушает на ::1:9223 (IPv6 localhost)
    • socat пробрасывает 9223 на все интерфейсы

📊 Архитектура

hermes-agent (контейнер)
    │
    ├─ BROWSER_USE_CDP_URL=http://172.25.0.3:9223
    │
    └─→ chromium-gui (контейнер)
        │
        ├─ Chromium слушает на ::1:9223 (IPv6)
        │
        ├─ socat (TCP-LISTEN:9223 → TCP6:[::1]:9223)
        │
        ├─ x11vnc (захватывает Xvfb)
        │
        └─ websockify (VNC → WebSocket)
            │
            └─→ http://localhost:6080/vnc.html (ваш браузер)

🎮 Протестировано

# ✅ CDP доступен
docker compose exec -T hermes-agent bash -c 'curl -s http://172.25.0.3:9223/json/version'

# ✅ VNC доступен
open http://localhost:6080/vnc.html

# ✅ socat проксирует
docker compose exec chromium-gui netstat -tlnp | grep 9223

📚 Дополнительно


Теперь browser-use полностью интегрирован с GUI браузером! 🎉