Chuyển tới nội dung chính

Tổng quan về tính năng

Hermes Agent bao gồm một loạt khả năng phong phú vượt xa trò chuyện cơ bản. Từ bộ nhớ liên tục và ngữ cảnh nhận biết tệp đến tự động hóa trình duyệt và hội thoại bằng giọng nói, các tính năng này phối hợp với nhau để biến Hermes trở thành trợ lý tự động mạnh mẽ.

Cốt lõi

  • Tools & Toolsets — Công cụ là các chức năng mở rộng khả năng của tác nhân. Chúng được tổ chức thành các bộ công cụ logic có thể được bật hoặc tắt trên mỗi nền tảng, bao gồm tìm kiếm trên web, thực thi thiết bị đầu cuối, chỉnh sửa tệp, bộ nhớ, ủy quyền, v.v.
  • Skills System — Tài liệu kiến ​​thức theo yêu cầu mà nhân viên có thể tải khi cần. Các kỹ năng tuân theo mô hình tiết lộ lũy tiến để giảm thiểu việc sử dụng mã thông báo và tương thích với tiêu chuẩn mở agentskills.io.
  • Persistent Memory — Bộ nhớ được giới hạn, được quản lý và tồn tại qua các phiên. Hermes ghi nhớ sở thích, dự án, môi trường của bạn và những điều nó đã học được thông qua MEMORY.mdUSER.md.
  • Context Files — Hermes tự động phát hiện và tải các tệp ngữ cảnh dự án (.Hermes.md, AGENTS.md, Claude.md, SOUL.md, .Cursorrules) định hình cách hoạt động của dự án trong dự án của bạn.
  • Context References — Nhập @ theo sau là tham chiếu để đưa tệp, thư mục, khác biệt git và URL trực tiếp vào tin nhắn của bạn. Hermes mở rộng tham chiếu nội tuyến và tự động thêm nội dung vào.
  • Checkpoints — Hermes tự động chụp nhanh thư mục làm việc của bạn trước khi thực hiện thay đổi tệp, cung cấp cho bạn một mạng lưới an toàn để quay lại với /rollback nếu có sự cố.

Tự động hóa

  • Scheduled Tasks (Cron) — Lên lịch các tác vụ để chạy tự động bằng ngôn ngữ tự nhiên hoặc biểu thức cron. Công việc có thể đính kèm các kỹ năng, cung cấp kết quả cho bất kỳ nền tảng nào và hỗ trợ các hoạt động tạm dừng/tiếp tục/chỉnh sửa.
  • Subagent Delegation — Công cụ delegate_task tạo ra các phiên bản tác nhân con với ngữ cảnh biệt lập, bộ công cụ bị hạn chế và phiên cuối của riêng chúng. Chạy tối đa 3 tác nhân phụ đồng thời cho luồng công việc song song.
  • Code Execution — Công cụ execute_code cho phép tác nhân viết các tập lệnh Python gọi các công cụ Hermes theo lập trình, thu gọn quy trình làm việc nhiều bước thành một lượt LLM duy nhất thông qua thực thi RPC trong hộp cát.
  • Event Hooks — Chạy mã tùy chỉnh tại các điểm quan trọng trong vòng đời. Móc cổng xử lý việc ghi nhật ký, cảnh báo và webhook; móc plugin xử lý việc chặn công cụ, số liệu và lan can.
  • Batch Processing — Chạy song song tác nhân Hermes trên hàng trăm hoặc hàng nghìn lời nhắc, tạo ra dữ liệu quỹ đạo có định dạng ShareGPT có cấu trúc để tạo hoặc đánh giá dữ liệu đào tạo.

Truyền thông & Web

  • Voice Mode — Tương tác bằng giọng nói đầy đủ trên nền tảng CLI và nhắn tin. Nói chuyện với Agent bằng micrô của bạn, nghe câu trả lời bằng giọng nói và trò chuyện bằng giọng nói trực tiếp trong các kênh thoại Discord.
  • Browser Automation — Tự động hóa toàn bộ trình duyệt với nhiều chương trình phụ trợ: Đám mây cơ sở trình duyệt, Đám mây sử dụng trình duyệt, Chrome cục bộ qua CDP hoặc Crom cục bộ. Điều hướng các trang web, điền vào biểu mẫu và trích xuất thông tin.
  • Vision & Image Paste — Hỗ trợ thị giác đa phương thức. Dán hình ảnh từ khay nhớ tạm của bạn vào CLI và yêu cầu nhân viên phân tích, mô tả hoặc làm việc với chúng bằng bất kỳ mô hình nào có khả năng thị giác.
  • Image Generation — Tạo hình ảnh từ lời nhắc văn bản bằng cách sử dụng mẫu FLUX 2 Pro của FAL.ai với khả năng nâng cấp tự động gấp 2 lần thông qua Clarity Upscaler.
  • Voice & TTS — Đầu ra chuyển văn bản thành giọng nói và sao chép tin nhắn thoại trên tất cả các nền tảng nhắn tin, với năm tùy chọn nhà cung cấp: Edge TTS (miễn phí), ElevenLabs, OpenAI TTS, MiniMax và NeuTTS.

Tích hợp- MCP Integration — Kết nối với bất kỳ máy chủ MCP nào thông qua truyền tải stdio hoặc HTTP. Truy cập các công cụ bên ngoài từ GitHub, cơ sở dữ liệu, hệ thống tệp và API nội bộ mà không cần viết các công cụ Hermes gốc. Bao gồm hỗ trợ lấy mẫu và lọc công cụ trên mỗi máy chủ.

  • Provider Routing — Kiểm soát chi tiết việc nhà cung cấp AI xử lý yêu cầu của bạn. Tối ưu hóa chi phí, tốc độ hoặc chất lượng bằng cách sắp xếp, danh sách trắng, danh sách đen và thứ tự ưu tiên.
  • Fallback Providers — Tự động chuyển đổi dự phòng sang nhà cung cấp LLM dự phòng khi mô hình chính của bạn gặp lỗi, bao gồm cả dự phòng độc lập cho các tác vụ phụ như hiển thị và nén.
  • Credential Pools — Phân phối lệnh gọi API trên nhiều khóa cho cùng một nhà cung cấp. Tự động xoay vòng khi có giới hạn tốc độ hoặc lỗi.
  • Memory Providers — Cắm các phần phụ trợ bộ nhớ ngoài (Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover) để lập mô hình và cá nhân hóa người dùng nhiều phiên ngoài hệ thống bộ nhớ tích hợp.
  • API Server — Hiển thị Hermes dưới dạng điểm cuối HTTP tương thích với OpenAI. Kết nối bất kỳ giao diện người dùng nào hỗ trợ định dạng OpenAI — Open WebUI, LobeChat, LibreChat, v.v.
  • IDE Integration (ACP) — Sử dụng Hermes bên trong các trình chỉnh sửa tương thích với ACP như VS Code, Zed và JetBrains. Trò chuyện, hoạt động của công cụ, khác biệt của tệp và lệnh đầu cuối hiển thị bên trong trình chỉnh sửa của bạn.
  • RL Training — Tạo dữ liệu quỹ đạo từ các phiên tác nhân để học tăng cường và tinh chỉnh mô hình.

Tùy chỉnh

  • Personality & SOUL.md — Tính cách tác nhân có thể tùy chỉnh hoàn toàn. SOUL.md là tệp nhận dạng chính — mục đầu tiên trong lời nhắc hệ thống — và bạn có thể trao đổi các cài đặt trước /personality tích hợp hoặc tùy chỉnh mỗi phiên.
  • Skins & Themes — Tùy chỉnh bản trình bày trực quan của CLI: màu biểu ngữ, mặt và động từ của vòng quay, nhãn hộp phản hồi, văn bản thương hiệu và tiền tố hoạt động của công cụ.
  • Plugins — Thêm các công cụ, hook và tích hợp tùy chỉnh mà không sửa đổi mã lõi. Ba loại plugin: plugin chung (công cụ/hook), nhà cung cấp bộ nhớ (kiến thức phiên chéo) và công cụ ngữ cảnh (quản lý ngữ cảnh thay thế). Được quản lý thông qua giao diện người dùng tương tác Hermes plugins thống nhất.