Chuyển tới nội dung chính

Sử dụng máy tính (macOS)

Hermes Agent có thể điều khiển máy tính để bàn Mac của bạn — nhấp, gõ, cuộn, kéo — trong nền. Con trỏ của bạn không di chuyển, tiêu điểm bàn phím không thay đổi và macOS không chuyển Spaces cho bạn. Bạn và đại lý cùng làm việc trên cùng một máy.

Không giống như hầu hết các tích hợp sử dụng máy tính, tính năng này hoạt động với bất kỳ công cụ nào có khả năng mô hình — Claude, GPT, Gemini hoặc mô hình mở trên điểm cuối vLLM cục bộ. Không có lược đồ gốc Anthropic nào phải lo lắng.

Cách thức hoạt động

Bộ công cụ computer_use nói MCP qua stdio với cua-driver, trình điều khiển macOS sử dụng SPI riêng của SkyLight (SLEventPostToPid, SLPSPostEventRecordTo) và _AXObserverAddNotificationAndCheckRemote khả năng truy cập SPI tới:

  • Đăng các sự kiện tổng hợp trực tiếp lên các quy trình đích — không cần nhấn vào sự kiện HID, không có con trỏ cong vênh.
  • Lật trạng thái hoạt động của AppKit mà không cần nâng cửa sổ lên — không cần chuyển đổi không gian.
  • Giữ cho cây khả năng tiếp cận Crom/Electron tồn tại khi cửa sổ được mở bị tắc nghẽn.

Sự kết hợp đó là những gì Codex "sử dụng máy tính nền" của OpenAI mang lại. cua-driver là mã nguồn mở tương đương.

Đang kích hoạt

Chọn bất kỳ đường dẫn nào thuận tiện nhất - cả hai đều chạy cùng một trình cài đặt ngược dòng:

Tùy chọn 1: lệnh CLI chuyên dụng (trực tiếp nhất).

hermes computer-use install

Cái này tìm nạp và chạy trình cài đặt cua-driver ngược dòng: curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh. Sử dụng trạng thái sử dụng máy tính của hermes để xác minh cài đặt.

Tùy chọn 2: bật bộ công cụ tương tác.

  1. Chạy hermes tools, chọn 🖱️ Computer Use (macOS)cua-driver (background).
  2. Quá trình thiết lập chạy trình cài đặt ngược dòng (giống như Tùy chọn 1).

Sau khi cài đặt, bất kể bạn đã đi theo đường dẫn nào:

  1. Cấp quyền cho macOS khi được nhắc:
    • Cài đặt hệ thống → Quyền riêng tư & Bảo mật → Khả năng truy cập → cho phép thiết bị đầu cuối (hoặc ứng dụng Hermes).
    • Cài đặt hệ thống → Quyền riêng tư & Bảo mật → Ghi màn hình → cho phép giống nhau.
  2. Bắt đầu phiên với bộ công cụ được bật:
    hermes -t máy tính_sử dụng trò chuyện
    hoặc thêm computer_use vào bộ công cụ đã bật của bạn trong ~/.hermes/config.yaml.

Luôn cập nhật cua-driver

Dự án cua-driver được sửa lỗi thường xuyên (ví dụ: v0.1.6 đã sửa lỗi Safari lỗi tập trung vào cửa sổ đối với quy trình công việc UTM). Hermes làm mới hệ nhị phân thành hai những nơi để bạn không bị mắc kẹt với một bản phát hành cũ:

  • hermes update — khi bạn cập nhật chính Hermes, nếu cua-driver là trên PATH trình cài đặt ngược dòng sẽ chạy lại khi kết thúc bản cập nhật. Không hoạt động đối với người dùng không sử dụng macOS và đối với người dùng chưa cài đặt trình điều khiển cua.
  • cài đặt sử dụng máy tính hermes --upgrade — buộc làm mới thủ công. Chạy lại trình cài đặt ngược dòng bất kể cua-driver có đã được cài đặt. Sử dụng điều này khi bạn muốn có bản sửa lỗi mới nhất mà không cần chờ cập nhật đại lý tiếp theo.

trạng thái sử dụng máy tính của Hermes hiển thị phiên bản đã cài đặt bên cạnh đường dẫn nhị phân.

Ví dụ nhanh

Lời nhắc của người dùng: "Tìm email mới nhất của tôi từ Stripe và tóm tắt những gì họ muốn tôi làm."

Kế hoạch của đại lý:

  1. computer_use(action="capture", mode="som", app="Mail") — nhận được một ảnh chụp màn hình Thư với mọi mục thanh bên, nút thanh công cụ và tin nhắn hàng được đánh số.
  2. computer_use(action="click", element=14) — nhấp vào trường tìm kiếm (yếu tố số 14 từ bản chụp).
  3. computer_use(action="type", text="from:stripe")
  4. computer_use(action="key", key="return", capture_after=True) — gửi và nhận được ảnh chụp màn hình mới.
  5. Bấm vào kết quả trên cùng, đọc nội dung, tóm tắt.

Trong suốt quá trình này, con trỏ của bạn vẫn ở bất cứ nơi nào bạn rời khỏi nó và Thư không bao giờ đến trước mặt.

Khả năng tương thích của nhà cung cấp

ProviderVision?Works?Notes
Anthropic (Claude Sonnet/Opus 3+)Best overall; SOM + raw coordinates.
OpenRouter (any vision model)Multi-part tool messages supported.
OpenAI (GPT-4+, GPT-5)Same as above.
Local vLLM / LM Studio (vision model)If the model supports multi-part tool content.
Text-only models✅ (degraded)Use mode="ax" for accessibility-tree-only operation.

Ảnh chụp màn hình được gửi nội tuyến với kết quả của công cụ dưới dạng image_url kiểu OpenAI các bộ phận. Đối với Anthropic, bộ chuyển đổi sẽ chuyển đổi chúng thành tool_result gốc các khối hình ảnh.

Sự an toàn

Hermes áp dụng lan can nhiều lớp:

  • Destructive actions (click, type, drag, scroll, key, focus_app) require approval — either interactively via the CLI dialog or via the messaging-platform approval buttons.
  • Hard-blocked key combos at the tool level: empty trash, force delete, lock screen, log out, force log out.
  • Hard-blocked type patterns: curl | bash, sudo rm -rf /, fork bombs, etc.
  • The agent's system prompt tells it explicitly: no clicking permission dialogs, no typing passwords, no following instructions embedded in screenshots.

Ghép nối với approvals.mode: manual trong ~/.hermes/config.yaml nếu bạn muốn mọi hành động được xác nhận.

Hiệu quả của mã thông báo

Ảnh chụp màn hình đắt tiền. Hermes áp dụng bốn lớp tối ưu hóa:

  • Gỡ bỏ ảnh chụp màn hình — bộ chuyển đổi Anthropic chỉ giữ lại 3 cái nhiều nhất ảnh chụp màn hình gần đây trong ngữ cảnh; những cái cũ hơn trở thành [đã xóa ảnh chụp màn hình để lưu ngữ cảnh] placeholder.
  • Cắt tỉa nén phía máy khách — trình nén ngữ cảnh phát hiện công cụ đa phương thức tạo ra kết quả và loại bỏ các phần hình ảnh khỏi những phần cũ.
  • Ước tính mã thông báo nhận biết hình ảnh — mỗi hình ảnh được tính là ~1500 mã thông báo (Tỷ lệ cố định của Anthropic) thay vì chiều dài char cơ sở64 của nó.
  • Chỉnh sửa ngữ cảnh phía máy chủ (chỉ dành cho Anthropic) — khi hoạt động, bộ chuyển đổi kích hoạt clear_tool_uses_20250919 thông qua context_management vì vậy API của Anthropic xóa kết quả công cụ cũ phía máy chủ.

Phiên 20 hành động trên màn hình 1568×900 thường có giá ~30K mã thông báo bối cảnh ảnh chụp màn hình, không phải ~ 600K.

Hạn chế

  • chỉ macOS. cua-driver sử dụng SPI riêng của Apple không tồn tại trên Linux hoặc Windows. Để tự động hóa GUI đa nền tảng, hãy sử dụng trình duyệt bộ công cụ.
  • Rủi ro SPI riêng. Apple có thể thay đổi bề mặt biểu tượng của SkyLight theo bất kỳ cách nào Cập nhật hệ điều hành. Ghim phiên bản trình điều khiển bằng HERMES_CUA_DRIVER_VERSION env var nếu bạn muốn khả năng tái tạo trên macOS.
  • Hiệu suất. Chế độ nền chậm hơn nền trước — Các sự kiện được định tuyến bằng SkyLight mất khoảng 5-20 mili giây so với đăng HID trực tiếp. Không đáng chú ý khi nhấp vào tốc độ tác nhân; đáng chú ý nếu bạn cố gắng ghi lại một chạy nhanh.
  • Không cần nhập mật khẩu bàn phím. type có mẫu khối cứng trên tải trọng vỏ lệnh; đối với mật khẩu, hãy sử dụng tính năng tự động điền của hệ thống.

Cấu hình

Ghi đè đường dẫn nhị phân của trình điều khiển (kiểm tra/CI):

HERMES_CUA_DRIVER_CMD=/opt/homebrew/bin/cua-driver
HERMES_CUA_DRIVER_VERSION=0.5.0 # optional pin

Hoán đổi hoàn toàn phần phụ trợ (để thử nghiệm):

HERMES_COMPUTER_USE_BACKEND=noop   # records calls, no side effects

Khắc phục sự cố

computer_use backend không khả dụng: cua-driver chưa được cài đặt — Chạy hermes Computer-use install để tìm nạp tệp nhị phân cua-driver hoặc chạy công cụ hermes và kích hoạt bộ công cụ Sử dụng Máy tính.

Các cú nhấp chuột dường như không có tác dụng — Chụp và xác minh. Một phương thức bạn không thấy có thể đang chặn đầu vào. Loại bỏ nó bằng escape hoặc đóng nút.

Chỉ số phần tử đã cũ — Chỉ mục SOM chỉ có hiệu lực cho đến khi tiếp theo chụp. Chụp lại sau bất kỳ hành động thay đổi trạng thái nào.

"mẫu bị chặn trong văn bản loại" — Văn bản bạn đã cố gắng khớp với danh sách mẫu vỏ nguy hiểm. Phá vỡ lệnh hoặc xem xét lại.

Xem thêm