Sử dụng máy tính (macOS)
Hermes Agent có thể điều khiển máy tính để bàn Mac của bạn — nhấp, gõ, cuộn, kéo — trong nền. Con trỏ của bạn không di chuyển, tiêu điểm bàn phím không thay đổi và macOS không chuyển Spaces cho bạn. Bạn và đại lý cùng làm việc trên cùng một máy.
Không giống như hầu hết các tích hợp sử dụng máy tính, tính năng này hoạt động với bất kỳ công cụ nào có khả năng mô hình — Claude, GPT, Gemini hoặc mô hình mở trên điểm cuối vLLM cục bộ. Không có lược đồ gốc Anthropic nào phải lo lắng.
Cách thức hoạt động
Bộ công cụ computer_use nói MCP qua stdio với cua-driver,
trình điều khiển macOS sử dụng SPI riêng của SkyLight (SLEventPostToPid,
SLPSPostEventRecordTo) và _AXObserverAddNotificationAndCheckRemote
khả năng truy cập SPI tới:
- Đăng các sự kiện tổng hợp trực tiếp lên các quy trình đích — không cần nhấn vào sự kiện HID, không có con trỏ cong vênh.
- Lật trạng thái hoạt động của AppKit mà không cần nâng cửa sổ lên — không cần chuyển đổi không gian.
- Giữ cho cây khả năng tiếp cận Crom/Electron tồn tại khi cửa sổ được mở bị tắc nghẽn.
Sự kết hợp đó là những gì Codex "sử dụng máy tính nền" của OpenAI mang lại. cua-driver là mã nguồn mở tương đương.
Đang kích hoạt
Chọn bất kỳ đường dẫn nào thuận tiện nhất - cả hai đều chạy cùng một trình cài đặt ngược dòng:
Tùy chọn 1: lệnh CLI chuyên dụng (trực tiếp nhất).
hermes computer-use install
Cái này tìm nạp và chạy trình cài đặt cua-driver ngược dòng:
curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh.
Sử dụng trạng thái sử dụng máy tính của hermes để xác minh cài đặt.
Tùy chọn 2: bật bộ công cụ tương tác.
- Chạy
hermes tools, chọn🖱️ Computer Use (macOS)→cua-driver (background). - Quá trình thiết lập chạy trình cài đặt ngược dòng (giống như Tùy chọn 1).
Sau khi cài đặt, bất kể bạn đã đi theo đường dẫn nào:
- Cấp quyền cho macOS khi được nhắc:
- Cài đặt hệ thống → Quyền riêng tư & Bảo mật → Khả năng truy cập → cho phép thiết bị đầu cuối (hoặc ứng dụng Hermes).
- Cài đặt hệ thống → Quyền riêng tư & Bảo mật → Ghi màn hình → cho phép giống nhau.
- Bắt đầu phiên với bộ công cụ được bật:
hoặc thêm
hermes -t máy tính_sử dụng trò chuyệncomputer_usevào bộ công cụ đã bật của bạn trong~/.hermes/config.yaml.
Luôn cập nhật cua-driver
Dự án cua-driver được sửa lỗi thường xuyên (ví dụ: v0.1.6 đã sửa lỗi Safari lỗi tập trung vào cửa sổ đối với quy trình công việc UTM). Hermes làm mới hệ nhị phân thành hai những nơi để bạn không bị mắc kẹt với một bản phát hành cũ:
hermes update— khi bạn cập nhật chính Hermes, nếucua-driverlà trên PATH trình cài đặt ngược dòng sẽ chạy lại khi kết thúc bản cập nhật. Không hoạt động đối với người dùng không sử dụng macOS và đối với người dùng chưa cài đặt trình điều khiển cua.cài đặt sử dụng máy tính hermes --upgrade— buộc làm mới thủ công. Chạy lại trình cài đặt ngược dòng bất kể cua-driver có đã được cài đặt. Sử dụng điều này khi bạn muốn có bản sửa lỗi mới nhất mà không cần chờ cập nhật đại lý tiếp theo.
trạng thái sử dụng máy tính của Hermes hiển thị phiên bản đã cài đặt bên cạnh
đường dẫn nhị phân.
Ví dụ nhanh
Lời nhắc của người dùng: "Tìm email mới nhất của tôi từ Stripe và tóm tắt những gì họ muốn tôi làm."
Kế hoạch của đại lý:
computer_use(action="capture", mode="som", app="Mail")— nhận được một ảnh chụp màn hình Thư với mọi mục thanh bên, nút thanh công cụ và tin nhắn hàng được đánh số.computer_use(action="click", element=14)— nhấp vào trường tìm kiếm (yếu tố số 14 từ bản chụp).computer_use(action="type", text="from:stripe")computer_use(action="key", key="return", capture_after=True)— gửi và nhận được ảnh chụp màn hình mới.- Bấm vào kết quả trên cùng, đọc nội dung, tóm tắt.
Trong suốt quá trình này, con trỏ của bạn vẫn ở bất cứ nơi nào bạn rời khỏi nó và Thư không bao giờ đến trước mặt.
Khả năng tương thích của nhà cung cấp
| Provider | Vision? | Works? | Notes |
|---|---|---|---|
| Anthropic (Claude Sonnet/Opus 3+) | ✅ | ✅ | Best overall; SOM + raw coordinates. |
| OpenRouter (any vision model) | ✅ | ✅ | Multi-part tool messages supported. |
| OpenAI (GPT-4+, GPT-5) | ✅ | ✅ | Same as above. |
| Local vLLM / LM Studio (vision model) | ✅ | ✅ | If the model supports multi-part tool content. |
| Text-only models | ❌ | ✅ (degraded) | Use mode="ax" for accessibility-tree-only operation. |
Ảnh chụp màn hình được gửi nội tuyến với kết quả của công cụ dưới dạng image_url kiểu OpenAI
các bộ phận. Đối với Anthropic, bộ chuyển đổi sẽ chuyển đổi chúng thành tool_result gốc
các khối hình ảnh.
Sự an toàn
Hermes áp dụng lan can nhiều lớp:
- Destructive actions (click, type, drag, scroll, key, focus_app) require approval — either interactively via the CLI dialog or via the messaging-platform approval buttons.
- Hard-blocked key combos at the tool level: empty trash, force delete, lock screen, log out, force log out.
- Hard-blocked type patterns:
curl | bash,sudo rm -rf /, fork bombs, etc. - The agent's system prompt tells it explicitly: no clicking permission dialogs, no typing passwords, no following instructions embedded in screenshots.
Ghép nối với approvals.mode: manual trong ~/.hermes/config.yaml nếu bạn muốn mọi hành động được xác nhận.
Hiệu quả của mã thông báo
Ảnh chụp màn hình đắt tiền. Hermes áp dụng bốn lớp tối ưu hóa:
- Gỡ bỏ ảnh chụp màn hình — bộ chuyển đổi Anthropic chỉ giữ lại 3 cái nhiều nhất
ảnh chụp màn hình gần đây trong ngữ cảnh; những cái cũ hơn trở thành
[đã xóa ảnh chụp màn hình để lưu ngữ cảnh]placeholder. - Cắt tỉa nén phía máy khách — trình nén ngữ cảnh phát hiện công cụ đa phương thức tạo ra kết quả và loại bỏ các phần hình ảnh khỏi những phần cũ.
- Ước tính mã thông báo nhận biết hình ảnh — mỗi hình ảnh được tính là ~1500 mã thông báo (Tỷ lệ cố định của Anthropic) thay vì chiều dài char cơ sở64 của nó.
- Chỉnh sửa ngữ cảnh phía máy chủ (chỉ dành cho Anthropic) — khi hoạt động,
bộ chuyển đổi kích hoạt
clear_tool_uses_20250919thông quacontext_managementvì vậy API của Anthropic xóa kết quả công cụ cũ phía máy chủ.
Phiên 20 hành động trên màn hình 1568×900 thường có giá ~30K mã thông báo bối cảnh ảnh chụp màn hình, không phải ~ 600K.
Hạn chế
- chỉ macOS. cua-driver sử dụng SPI riêng của Apple không tồn tại trên
Linux hoặc Windows. Để tự động hóa GUI đa nền tảng, hãy sử dụng
trình duyệtbộ công cụ. - Rủi ro SPI riêng. Apple có thể thay đổi bề mặt biểu tượng của SkyLight theo bất kỳ cách nào
Cập nhật hệ điều hành. Ghim phiên bản trình điều khiển bằng
HERMES_CUA_DRIVER_VERSIONenv var nếu bạn muốn khả năng tái tạo trên macOS. - Hiệu suất. Chế độ nền chậm hơn nền trước — Các sự kiện được định tuyến bằng SkyLight mất khoảng 5-20 mili giây so với đăng HID trực tiếp. Không đáng chú ý khi nhấp vào tốc độ tác nhân; đáng chú ý nếu bạn cố gắng ghi lại một chạy nhanh.
- Không cần nhập mật khẩu bàn phím.
typecó mẫu khối cứng trên tải trọng vỏ lệnh; đối với mật khẩu, hãy sử dụng tính năng tự động điền của hệ thống.
Cấu hình
Ghi đè đường dẫn nhị phân của trình điều khiển (kiểm tra/CI):
HERMES_CUA_DRIVER_CMD=/opt/homebrew/bin/cua-driver
HERMES_CUA_DRIVER_VERSION=0.5.0 # optional pin
Hoán đổi hoàn toàn phần phụ trợ (để thử nghiệm):
HERMES_COMPUTER_USE_BACKEND=noop # records calls, no side effects
Khắc phục sự cố
computer_use backend không khả dụng: cua-driver chưa được cài đặt — Chạy
hermes Computer-use install để tìm nạp tệp nhị phân cua-driver hoặc chạy
công cụ hermes và kích hoạt bộ công cụ Sử dụng Máy tính.
Các cú nhấp chuột dường như không có tác dụng — Chụp và xác minh. Một phương thức bạn
không thấy có thể đang chặn đầu vào. Loại bỏ nó bằng escape hoặc đóng
nút.
Chỉ số phần tử đã cũ — Chỉ mục SOM chỉ có hiệu lực cho đến khi
tiếp theo chụp. Chụp lại sau bất kỳ hành động thay đổi trạng thái nào.
"mẫu bị chặn trong văn bản loại" — Văn bản bạn đã cố gắng gõ
khớp với danh sách mẫu vỏ nguy hiểm. Phá vỡ lệnh hoặc
xem xét lại.
Xem thêm
- Kỹ năng phổ thông:
macos-computer-use - nguồn cua-driver (trycua/cua)
- Tự động hóa trình duyệt cho các tác vụ web đa nền tảng.