Nhà cung cấp AI
Trang này đề cập đến việc thiết lập nhà cung cấp suy luận cho Hermes Agent — từ các API đám mây như OpenRouter và Anthropic, đến các điểm cuối tự lưu trữ như Ollama và vLLM, cho đến các cấu hình dự phòng và định tuyến nâng cao. Bạn cần ít nhất một nhà cung cấp được định cấu hình để sử dụng Hermes.
Nhà cung cấp suy luận
Bạn cần ít nhất một cách để kết nối với LLM. Sử dụng hermes model để chuyển đổi nhà cung cấp và mô hình một cách tương tác hoặc định cấu hình trực tiếp:
| Nhà cung cấp | Thiết lập |
|---|---|
| Nous Portal | hermes model (OAuth, dựa trên đăng ký) |
| OpenAI Codex | hermes model (ChatGPT OAuth, sử dụng mô hình Codex) |
| GitHub Copilot | hermes model (Luồng mã thiết bị OAuth, COPILOT_GITHUB_TOKEN , GH_TOKEN hoặc gh auth token ) |
| GitHub Copilot ACP | hermes model (sinh ra cục bộ copilot --acp --stdio ) |
| Anthropic | hermes model (Claude Pro/Max thông qua xác thực Claude Code, khóa API Anthropic hoặc mã thông báo thiết lập thủ công) |
| OpenRouter | OPENROUTER_API_KEY trong ~/.hermes/.env |
| Cổng AI | AI_GATEWAY_API_KEY trong ~/.hermes/.env (nhà cung cấp: ai-gateway ) |
| z.ai / GLM | GLM_API_KEY trong ~/.hermes/.env (nhà cung cấp: zai ) |
| Kimi / Moonshot | KIMI_API_KEY trong ~/.hermes/.env (nhà cung cấp: kimi-coding ) |
| MiniMax | MINIMAX_API_KEY trong ~/.hermes/.env (nhà cung cấp: minimax ) |
| MiniMax China | MINIMAX_CN_API_KEY trong ~/.hermes/.env (nhà cung cấp: minimax-cn ) |
| Alibaba Cloud | DASHSCOPE_API_KEY trong ~/.hermes/.env (nhà cung cấp: alibaba , bí danh: dashscope , qwen ) |
| KiloCode | KILOCODE_API_KEY trong ~/.hermes/.env (nhà cung cấp: kilocode ) |
| OpenCode Zen | OPENCODE_ZEN_API_KEY trong ~/.hermes/.env (nhà cung cấp: opencode-zen ) |
| OpenCode Go | OPENCODE_GO_API_KEY trong ~/.hermes/.env (nhà cung cấp: opencode-go ) |
| DeepSeek | DEEPSEEK_API_KEY trong ~/.hermes/.env (nhà cung cấp: deepseek ) |
| Hugging Face | HF_TOKEN trong ~/.hermes/.env (nhà cung cấp: huggingface , bí danh: hf ) |
| Google / Song Tử | GOOGLE_API_KEY (hoặc GEMINI_API_KEY ) trong ~/.hermes/.env (nhà cung cấp: gemini ) |
| Custom Endpoint | hermes model → chọn "Custom Endpoint" (được lưu trong config.yaml ) |
Trong phần cấu hình model:, bạn có thể sử dụng default: hoặc model: làm tên khóa cho ID mẫu máy của mình. Cả model: { default: my-model } và model: { model: my-model } đều hoạt động giống nhau.
Nhà cung cấp OpenAI Codex xác thực thông qua mã thiết bị (mở URL, nhập mã). Hermes lưu trữ thông tin xác thực thu được trong cửa hàng xác thực của riêng mình theo ~/.hermes/auth.json và có thể nhập thông tin xác thực Codex CLI hiện có từ ~/.codex/auth.json khi có. Không cần cài đặt Codex CLI.
Ngay cả khi sử dụng Nous Portal, Codex hoặc điểm cuối tùy chỉnh, một số công cụ (tầm nhìn, tóm tắt web, MoA) vẫn sử dụng mô hình "phụ trợ" riêng biệt — theo mặc định là Gemini Flash thông qua OpenRouter. OPENROUTER_API_KEY tự động bật các công cụ này. Bạn cũng có thể định cấu hình mô hình và nhà cung cấp mà các công cụ này sử dụng - xem Mô hình phụ trợ.
Nhân chủng học (Bản địa)
Sử dụng trực tiếp các mô hình Claude thông qua API Anthropic - không cần proxy OpenRouter. Hỗ trợ ba phương thức xác thực:
# With an API key (pay-per-token)
export ANTHROPIC_API_KEY=***
hermes chat --provider anthropic --model claude-sonnet-4-6
# Preferred: authenticate through `hermes model`
# Hermes will use Claude Code's credential store directly when available
hermes model
# Manual override with a setup-token (fallback / legacy)
export ANTHROPIC_TOKEN=***
# setup-token or manual OAuth token
hermes chat --provider anthropic
# Auto-detect Claude Code credentials (if you already use Claude Code)
hermes chat --provider anthropic
# reads Claude Code credential files automatically
Khi bạn chọn Anthropic OAuth thông qua hermes model , Hermes ưu tiên kho thông tin xác thực của Claude Code hơn là sao chép mã thông báo vào ~/.hermes/.env . Điều đó giúp thông tin đăng nhập Claude có thể làm mới được luôn được làm mới.
Hoặc đặt nó vĩnh viễn:
model:
provider: "anthropic"
default: "claude-sonnet-4-6"
--provider claude và --provider claude-code cũng hoạt động như cách viết tắt của --provider anthropic .
GitHub Copilot
Hermes hỗ trợ GitHub Copilot với tư cách là nhà cung cấp hạng nhất với hai chế độ:
** copilot — API điều khiển trực tiếp** (được khuyến nghị). Sử dụng đăng ký GitHub Copilot của bạn để truy cập GPT-5.x, Claude, Gemini và các mô hình khác thông qua API Copilot.
hermes chat --provider copilot --model gpt-5.4
Tùy chọn xác thực (được chọn theo thứ tự này):
- Biến môi trường
COPILOT_GITHUB_TOKEN - Biến môi trường
GH_TOKEN - Biến môi trường
GITHUB_TOKEN - Dự phòng
gh auth tokenCLI
Nếu không tìm thấy mã thông báo nào, hermes model sẽ cung cấp đăng nhập mã thiết bị OAuth — cùng một quy trình được sử dụng bởi Copilot CLI và mã mở.
:::Các loại mã thông báo cảnh báo
API Copilot không hỗ trợ Mã thông báo truy cập cá nhân cổ điển ( ghp_* ). Các loại mã thông báo được hỗ trợ:
| Loại | Tiền tố | Làm thế nào để có được |
|---|---|---|
| Mã thông báo OAuth | gho_ | hermes model → GitHub Copilot → Đăng nhập bằng GitHub |
| PAT hạt mịn | github_pat_ | Cài đặt GitHub → Cài đặt dành cho nhà phát triển → Mã thông báo chi tiết (cần quyền Yêu cầu phi công phụ) |
| Mã thông báo ứng dụng GitHub | ghu_ | Thông qua cài đặt ứng dụng GitHub |
Nếu gh auth token của bạn trả về mã thông báo ghp_*, thay vào đó hãy sử dụng hermes model để xác thực qua OAuth.
:::
Định tuyến API: Các mẫu GPT-5+ (ngoại trừ gpt-5-mini ) tự động sử dụng API phản hồi. Tất cả các kiểu máy khác (GPT-4o, Claude, Gemini, v.v.) đều sử dụng tính năng Hoàn thành trò chuyện. Các mô hình được tự động phát hiện từ danh mục Copilot trực tiếp.
** copilot-acp — Phần phụ trợ tác nhân ACP của Copilot**. Sinh ra CLI Copilot cục bộ dưới dạng một quy trình con:
hermes chat --provider copilot-acp --model copilot-acp
# Requires the GitHub Copilot CLI in PATH and an existing `copilot login` session
Cấu hình cố định:
model:
provider: "copilot"
default: "gpt-5.4"
| Biến môi trường | Mô tả |
|---|---|
COPILOT_GITHUB_TOKEN | Mã thông báo GitHub cho API Copilot (ưu tiên hàng đầu) |
HERMES_COPILOT_ACP_COMMAND | Ghi đè đường dẫn nhị phân Copilot CLI (mặc định: copilot ) |
HERMES_COPILOT_ACP_ARGS | Ghi đè đối số ACP (mặc định: --acp --stdio ) |
Nhà cung cấp AI Trung Quốc hạng nhất
Các nhà cung cấp này có hỗ trợ tích hợp với ID nhà cung cấp chuyên dụng. Đặt khóa API và sử dụng --provider để chọn:
# z.ai / ZhipuAI GLM
hermes chat --provider zai --model glm-5
# Requires: GLM_API_KEY in ~/.hermes/.env
# Kimi / Moonshot AI
hermes chat --provider kimi-coding --model kimi-for-coding
# Requires: KIMI_API_KEY in ~/.hermes/.env
# MiniMax (global endpoint)
hermes chat --provider minimax --model MiniMax-M2.7
# Requires: MINIMAX_API_KEY in ~/.hermes/.env
# MiniMax (China endpoint)
hermes chat --provider minimax-cn --model MiniMax-M2.7
# Requires: MINIMAX_CN_API_KEY in ~/.hermes/.env
# Alibaba Cloud / DashScope (Qwen models)
hermes chat --provider alibaba --model qwen3.5-plus
# Requires: DASHSCOPE_API_KEY in ~/.hermes/.env
Hoặc đặt nhà cung cấp vĩnh viễn trong config.yaml :
model:
provider: "zai"
# or: kimi-coding, minimax, minimax-cn, alibaba
default: "glm-5"
URL cơ sở có thể được ghi đè bằng các biến môi trường GLM_BASE_URL , KIMI_BASE_URL , MINIMAX_BASE_URL , MINIMAX_CN_BASE_URL hoặc DASHSCOPE_BASE_URL .
Khi sử dụng nhà cung cấp Z.AI / GLM, Hermes tự động thăm dò nhiều điểm cuối (toàn cầu, Trung Quốc, các biến thể mã hóa) để tìm ra điểm cuối chấp nhận khóa API của bạn. Bạn không cần đặt GLM_BASE_URL theo cách thủ công — điểm cuối hoạt động được tự động phát hiện và lưu vào bộ nhớ đệm.
xAI (Grok) Bộ nhớ đệm nhắc nhở
Khi sử dụng xAI làm nhà cung cấp (bất kỳ URL cơ sở nào chứa x.ai ), Hermes sẽ tự động kích hoạt bộ nhớ đệm nhanh chóng bằng cách gửi tiêu đề x-grok-conv-id với mọi yêu cầu API. Điều này định tuyến các yêu cầu đến cùng một máy chủ trong phiên hội thoại, cho phép cơ sở hạ tầng của xAI sử dụng lại lời nhắc hệ thống và lịch sử hội thoại đã lưu trong bộ nhớ đệm.
Không cần cấu hình — bộ nhớ đệm sẽ tự động kích hoạt khi phát hiện điểm cuối xAI và có ID phiên. Điều này giúp giảm độ trễ và chi phí cho các cuộc hội thoại nhiều lượt.
Nhà cung cấp suy luận ôm mặt
Nhà cung cấp suy luận ôm khuôn mặt định tuyến đến hơn 20 mô hình mở thông qua điểm cuối thống nhất tương thích với OpenAI ( router.huggingface.co/v1 ). Các yêu cầu được tự động chuyển đến chương trình phụ trợ có sẵn nhanh nhất (Groq, Together, SambaNova, v.v.) với tính năng chuyển đổi dự phòng tự động.
# Use any available model
hermes chat --provider huggingface --model Qwen/Qwen3-235B-A22B-Thinking-2507
# Requires: HF_TOKEN in ~/.hermes/.env
# Short alias
hermes chat --provider hf --model deepseek-ai/DeepSeek-V3.2
Hoặc đặt nó vĩnh viễn trong config.yaml :
model:
provider: "huggingface"
default: "Qwen/Qwen3-235B-A22B-Thinking-2507"
Nhận mã thông báo của bạn tại huggingface.co/settings/tokens — đảm bảo bật quyền "Thực hiện cuộc gọi tới Nhà cung cấp suy luận". Đã bao gồm bậc miễn phí (tín dụng ($0,10/tháng, không tăng giá theo giá của nhà cung cấp).
Bạn có thể thêm hậu tố định tuyến vào tên mẫu: :fastest (mặc định), :cheapest hoặc :provider_name để buộc một chương trình phụ trợ cụ thể.
URL cơ sở có thể được ghi đè bằng HF_BASE_URL .
Nhà cung cấp LLM tùy chỉnh và tự lưu trữ
Hermes Agent hoạt động với mọi điểm cuối API tương thích với OpenAI. Nếu máy chủ triển khai /v1/chat/completions , bạn có thể trỏ Hermes vào máy chủ đó. Điều này có nghĩa là bạn có thể sử dụng các mô hình cục bộ, máy chủ suy luận GPU, bộ định tuyến của nhiều nhà cung cấp hoặc bất kỳ API nào của bên thứ ba.
Cài đặt chung
Ba cách để định cấu hình điểm cuối tùy chỉnh:
Thiết lập tương tác (được khuyến nghị):
hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter: API base URL, API key, Model name
Cấu hình thủ công ( config.yaml ):
# In ~/.hermes/config.yaml
model:
default: your-model-name
provider: custom
base_url: http://localhost:8000/v1
api_key: your-key-or-leave-empty-for-local
OPENAI_BASE_URL và LLM_MODEL trong .env không được dùng nữa. OPENAI_BASE_URL không còn được tư vấn để giải quyết điểm cuối nữa — config.yaml là nguồn thông tin chính xác duy nhất. CLI bỏ qua hoàn toàn LLM_MODEL (chỉ cổng mới đọc nó dưới dạng dự phòng). Sử dụng hermes model hoặc chỉnh sửa trực tiếp config.yaml — cả hai đều tồn tại chính xác qua các lần khởi động lại và vùng chứa Docker.
Cả hai cách tiếp cận đều tồn tại config.yaml , đây là nguồn đáng tin cậy cho mô hình, nhà cung cấp và URL cơ sở.
Chuyển đổi model bằng /model
Sau khi định cấu hình điểm cuối tùy chỉnh, bạn có thể chuyển đổi mô hình giữa phiên:
/model custom:qwen-2.5
# Switch to a model on your custom endpoint
/model custom
# Auto-detect the model from the endpoint
/model openrouter:claude-sonnet-4
# Switch back to a cloud provider
Nếu bạn đã định cấu hình nhà cung cấp tùy chỉnh được đặt tên (xem bên dưới), hãy sử dụng cú pháp ba:
/model custom:local:qwen-2.5
# Use the "local" custom provider with model qwen-2.5
/model custom:work:llama3
# Use the "work" custom provider with llama3
```Khi chuyển đổi nhà cung cấp, Hermes vẫn giữ nguyên URL cơ sở và nhà cung cấp để định cấu hình để thay đổi vẫn tiếp tục khởi động lại. Khi chuyển từ điểm cuối tùy chỉnh sang nhà cung cấp tích hợp sẵn, URL cơ sở cũ sẽ tự động bị xóa.
:::tip
`/model custom` (trống, không có tên mô hình) truy vấn API `/models` của điểm cuối của bạn và tự động chọn mô hình nếu chính xác một mô hình được tải. Hữu ích cho các máy chủ cục bộ chạy một mô hình duy nhất.
:::
Mọi thứ bên dưới đều tuân theo cùng một mẫu — chỉ cần thay đổi URL, khóa và tên mẫu.
---
#
## Ollama — Mô hình cục bộ, cấu hình không
[Ollama](https://ollama.com/) chạy cục bộ các mô hình có trọng lượng mở bằng một lệnh. Tốt nhất cho: thử nghiệm cục bộ nhanh chóng, công việc nhạy cảm về quyền riêng tư, sử dụng ngoại tuyến. Hỗ trợ gọi công cụ thông qua API tương thích với OpenAI.
```bash
# Install and run a model
ollama pull qwen2.5-coder:32b
ollama serve
# Starts on port 11434
Sau đó cấu hình Hermes:
hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:11434/v1
# Skip API key (Ollama doesn't need one)
# Enter model name (e.g. qwen2.5-coder:32b)
Hoặc định cấu hình trực tiếp config.yaml:
model:
default: qwen2.5-coder:32b
provider: custom
base_url: http://localhost:11434/v1
context_length: 32768
# See warning below
Theo mặc định, Ollama không sử dụng cửa sổ ngữ cảnh đầy đủ của mô hình của bạn. Tùy thuộc vào VRAM của bạn, mặc định là:
| VRAM có sẵn | Bối cảnh mặc định |
|---|---|
| Dưới 24 GB | 4.096 token |
| 24–48 GB | 32.768 token |
| 48+ GB | 256.000 token |
Để sử dụng tác nhân với các công cụ, bạn cần ít nhất 16k–32k bối cảnh. Ở mức 4k, chỉ riêng lời nhắc hệ thống + lược đồ công cụ có thể lấp đầy cửa sổ, không còn chỗ cho cuộc trò chuyện.
Cách tăng (chọn một):
# Option 1: Set server-wide via environment variable (recommended)
OLLAMA_CONTEXT_LENGTH=32768 ollama serve
# Option 2: For systemd-managed Ollama
sudo systemctl edit ollama.service
# Add: Environment="OLLAMA_CONTEXT_LENGTH=32768"
# Then: sudo systemctl daemon-reload && sudo systemctl restart ollama
# Option 3: Bake it into a custom model (persistent per-model)
echo -e "FROM qwen2.5-coder:32b\nPARAMETER num_ctx 32768" > Modelfile
ollama create qwen2.5-coder-32k -f Modelfile
Bạn không thể đặt độ dài ngữ cảnh thông qua API tương thích với OpenAI ( /v1/chat/completions ). Nó phải được cấu hình phía máy chủ hoặc thông qua Modelfile. Đây là nguyên nhân gây nhầm lẫn số 1 khi tích hợp Ollama với các công cụ như Hermes.
Xác minh bối cảnh của bạn được đặt chính xác:
ollama ps
# Look at the CONTEXT column — it should show your configured value
Liệt kê các mẫu có sẵn với ollama list . Kéo bất kỳ mô hình nào từ thư viện Ollama bằng ollama pull <model> . Ollama tự động xử lý việc giảm tải GPU — không cần cấu hình cho hầu hết các thiết lập.
vLLM — Suy luận GPU hiệu suất cao
vLLM là tiêu chuẩn để phân phát LLM sản xuất. Tốt nhất cho: thông lượng tối đa trên phần cứng GPU, phục vụ các mô hình lớn, phân khối liên tục.
pip install vllm
vllm serve meta-llama/Llama-3.1-70B-Instruct \
--port 8000 \
--max-model-len 65536 \
--tensor-parallel-size 2 \
--enable-auto-tool-choice \
--tool-call-parser hermes
Sau đó cấu hình Hermes:
hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8000/v1
# Skip API key (or enter one if you configured vLLM with --api-key)
# Enter model name: meta-llama/Llama-3.1-70B-Instruct
Độ dài ngữ cảnh: vLLM đọc max_position_embeddings của mô hình theo mặc định. Nếu vượt quá bộ nhớ GPU của bạn, nó sẽ báo lỗi và yêu cầu bạn đặt --max-model-len thấp hơn. Bạn cũng có thể sử dụng --max-model-len auto để tự động tìm mức tối đa phù hợp. Đặt --gpu-memory-utilization 0.95 (mặc định 0,9) để thu thập thêm ngữ cảnh vào VRAM.
Việc gọi công cụ yêu cầu có cờ rõ ràng:
| Cờ | Mục đích |
|---|---|
--enable-auto-tool-choice | Bắt buộc đối với tool_choice: "auto" (mặc định trong Hermes) |
--tool-call-parser <name> | Trình phân tích cú pháp cho định dạng lệnh gọi công cụ của mô hình |
Các trình phân tích cú pháp được hỗ trợ: hermes (Qwen 2.5, Hermes 2/3), llama3_json (Llama 3.x), mistral , deepseek_v3 , deepseek_v31 , xlam , pythonic . Nếu không có những cờ này, lệnh gọi công cụ sẽ không hoạt động — mô hình sẽ xuất lệnh gọi công cụ dưới dạng văn bản.
vLLM hỗ trợ các kích thước mà con người có thể đọc được: --max-model-len 64k (chữ thường k = 1000, chữ hoa K = 1024).
SGLang — Phục vụ nhanh chóng với RadixAttention
SGLang là một giải pháp thay thế cho vLLM với RadixAttention để tái sử dụng bộ đệm KV. Tốt nhất cho: cuộc hội thoại nhiều lượt (bộ nhớ đệm tiền tố), giải mã có giới hạn, đầu ra có cấu trúc.
pip install "sglang[all]"
python -m sglang.launch_server \
--model meta-llama/Llama-3.1-70B-Instruct \
--port 30000 \
--context-length 65536 \
--tp 2 \
--tool-call-parser qwen
Sau đó cấu hình Hermes:
hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:30000/v1
# Enter model name: meta-llama/Llama-3.1-70B-Instruct
Độ dài ngữ cảnh: SGLang đọc từ cấu hình của mô hình theo mặc định. Sử dụng --context-length để ghi đè. Nếu bạn cần vượt quá mức tối đa đã khai báo của mô hình, hãy đặt SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 .
Gọi công cụ: Sử dụng --tool-call-parser với trình phân tích cú pháp thích hợp cho dòng mô hình của bạn: qwen (Qwen 2.5), llama3 , llama4 , deepseekv3 , mistral , glm . Nếu không có cờ này, lệnh gọi công cụ sẽ trở lại dưới dạng văn bản thuần túy.
Nếu phản hồi có vẻ bị cắt ngắn, hãy thêm max_tokens vào yêu cầu của bạn hoặc đặt --default-max-tokens trên máy chủ. Mặc định của SGLang chỉ là 128 mã thông báo cho mỗi phản hồi nếu không được chỉ định trong yêu cầu.
llama.cpp / llama-server — Suy luận CPU & kim loại
llama.cpp chạy các mô hình lượng tử hóa trên CPU, Apple Silicon (Metal) và GPU tiêu dùng. Tốt nhất cho: chạy các mô hình không có GPU trung tâm dữ liệu, người dùng Mac, triển khai biên.
# Build and start llama-server
cmake -B build && cmake --build build --config Release
./build/bin/llama-server \
--jinja -fa \
-c 32768 \
-ngl 99 \
-m models/qwen2.5-coder-32b-instruct-Q4_K_M.gguf \
--port 8080 --host 0.0.0.0
Độ dài ngữ cảnh ( -c ): Các bản dựng gần đây mặc định là 0 đọc ngữ cảnh đào tạo của mô hình từ siêu dữ liệu GGUF. Đối với các mô hình có bối cảnh đào tạo hơn 128k, điều này có thể xảy ra khi cố gắng phân bổ toàn bộ bộ nhớ đệm KV. Đặt -c một cách rõ ràng theo những gì bạn cần (32k–64k là phạm vi phù hợp để sử dụng cho tác nhân). Nếu sử dụng các vị trí song song ( -np ), tổng bối cảnh được chia cho các vị trí - với -c 32768 -np 4 , mỗi vị trí chỉ nhận được 8k.
Sau đó cấu hình Hermes để trỏ vào nó:
hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8080/v1
# Skip API key (local servers don't need one)
# Enter model name — or leave blank to auto-detect if only one model is loaded
Thao tác này sẽ lưu điểm cuối vào config.yaml để điểm cuối này tồn tại qua các phiên.
--jinja là cần thiết để gọi công cụNếu không có --jinja , llama-server sẽ bỏ qua hoàn toàn tham số tools . Mô hình sẽ cố gắng gọi các công cụ bằng cách viết JSON trong văn bản phản hồi của nó, nhưng Hermes sẽ không nhận ra đó là lệnh gọi công cụ — bạn sẽ thấy JSON thô như {"name": "web_search", ...} được in dưới dạng tin nhắn thay vì tìm kiếm thực tế.
Hỗ trợ gọi công cụ gốc (hiệu suất tốt nhất): Llama 3.x, Qwen 2.5 (bao gồm Coder), Hermes 2/3, Mistral, DeepSeek, Functionary. Tất cả các mô hình khác đều sử dụng trình xử lý chung hoạt động nhưng có thể kém hiệu quả hơn. Xem hàm llama.cpp gọi docs để biết danh sách đầy đủ.
Bạn có thể xác minh hỗ trợ công cụ đang hoạt động bằng cách kiểm tra http://localhost:8080/props — trường chat_template phải xuất hiện.
Tải xuống các mô hình GGUF từ Hugging Face. Lượng tử hóa Q4_K_M mang lại sự cân bằng tốt nhất giữa chất lượng và mức sử dụng bộ nhớ.
LM Studio — Ứng dụng máy tính để bàn với các mô hình cục bộLM Studio là một ứng dụng dành cho máy tính để bàn để chạy các mô hình cục bộ bằng GUI. Tốt nhất cho: người dùng thích giao diện trực quan, thử nghiệm mô hình nhanh, nhà phát triển trên macOS/Windows/Linux.
Khởi động máy chủ từ ứng dụng LM Studio (tab Nhà phát triển → Máy chủ khởi động) hoặc sử dụng CLI:
lms server start
# Starts on port 1234
lms load qwen2.5-coder --context-length 32768
Sau đó cấu hình Hermes:
hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:1234/v1
# Skip API key (LM Studio doesn't require one)
# Enter model name
LM Studio đọc độ dài ngữ cảnh từ siêu dữ liệu của mô hình, nhưng nhiều mô hình GGUF báo cáo giá trị mặc định thấp (2048 hoặc 4096). Luôn đặt rõ ràng độ dài ngữ cảnh trong cài đặt mô hình LM Studio:
- Nhấp vào biểu tượng bánh răng bên cạnh bộ chọn mô hình
- Đặt "Độ dài bối cảnh" ít nhất là 16384 (tốt nhất là 32768)
- Tải lại mô hình để thay đổi có hiệu lực
Ngoài ra, hãy sử dụng CLI: lms load model-name --context-length 32768
Để đặt các giá trị mặc định cố định cho mỗi mô hình: tab Mô hình của tôi → biểu tượng bánh răng trên mô hình → đặt kích thước ngữ cảnh.
Gọi công cụ: Được hỗ trợ kể từ LM Studio 0.3.6. Các mô hình được đào tạo gọi công cụ gốc (Qwen 2.5, Llama 3.x, Mistral, Hermes) được tự động phát hiện và hiển thị cùng với huy hiệu công cụ. Các mô hình khác sử dụng một dự phòng chung có thể kém tin cậy hơn.
Mạng WSL2 (Người dùng Windows)
Vì Hermes Agent yêu cầu môi trường Unix nên người dùng Windows sẽ chạy nó bên trong WSL2. Nếu máy chủ mô hình của bạn (Ollama, LM Studio, v.v.) chạy trên máy chủ Windows, thì bạn cần thu hẹp khoảng cách mạng — WSL2 sử dụng bộ điều hợp mạng ảo với mạng con riêng của nó, vì vậy localhost bên trong WSL2 đề cập đến máy ảo Linux, không máy chủ Windows.
Nếu máy chủ mô hình của bạn cũng chạy bên trong WSL2 (phổ biến cho vLLM, SGLang và llama-server), localhost hoạt động như mong đợi — chúng chia sẻ cùng một không gian tên mạng. Bỏ qua phần này.
Tùy chọn 1: Chế độ kết nối mạng được nhân đôi (Được khuyến nghị)
Có sẵn trên Windows 11 22H2+, chế độ phản chiếu giúp localhost hoạt động hai chiều giữa Windows và WSL2 — cách khắc phục đơn giản nhất.
- Tạo hoặc chỉnh sửa
%USERPROFILE%\.wslconfig(ví dụ:C:\Users\YourName\.wslconfig):
[wsl2]
networkingMode=mirrored
- Khởi động lại WSL từ PowerShell:
wsl --shutdown
- Mở lại terminal WSL2 của bạn.
localhosthiện đã có mặt trên các dịch vụ Windows:
curl http://localhost:11434/v1/models
# Ollama on Windows — works
Trên một số bản dựng Windows 11, tường lửa Hyper-V chặn các kết nối được nhân đôi theo mặc định. Nếu localhost vẫn không hoạt động sau khi bật chế độ phản chiếu, hãy chạy chế độ này trong PowerShell quản trị:
Set-NetFirewallHyperVVMSetting -Name '{40E0AC32-46A5-438A-A0B2-2B479E8F2E90}' -DefaultInboundAction Allow
Tùy chọn 2: Sử dụng IP máy chủ Windows (Windows 10 / bản dựng cũ hơn)
Nếu bạn không thể sử dụng chế độ phản chiếu, hãy tìm IP máy chủ Windows từ bên trong WSL2 và sử dụng IP đó thay vì localhost :
# Get the Windows host IP (the default gateway of WSL2's virtual network)
ip route show | grep -i default | awk '{ print $3 }'
# Example output: 172.29.192.1
Sử dụng IP đó trong cấu hình Hermes của bạn:
model:
default: qwen2.5-coder:32b
provider: custom
base_url: http://172.29.192.1:11434/v1
# Windows host IP, not localhost
IP máy chủ có thể thay đổi khi khởi động lại WSL2. Bạn có thể lấy nó một cách linh hoạt trong Shell của mình:
export WSL_HOST=$(ip route show | grep -i default | awk '{ print $3 }')
echo "Windows host at: $WSL_HOST"
curl http://$WSL_HOST:11434/v1/models
# Test Ollama
Hoặc sử dụng tên mDNS của máy bạn (yêu cầu libnss-mdns trong WSL2):
sudo apt install libnss-mdns
curl http://$(hostname).local:11434/v1/models
Địa chỉ liên kết máy chủ (Bắt buộc đối với chế độ NAT)Nếu bạn đang sử dụng Tùy chọn 2 (chế độ NAT với IP máy chủ), máy chủ mẫu trên Windows phải chấp nhận kết nối từ bên ngoài 127.0.0.1 . Theo mặc định, hầu hết các máy chủ chỉ nghe trên localhost - các kết nối WSL2 ở chế độ NAT đến từ một mạng con ảo khác và sẽ bị từ chối. Ở chế độ phản chiếu, localhost ánh xạ trực tiếp để liên kết 127.0.0.1 mặc định hoạt động tốt.
| Máy chủ | Liên kết mặc định | Cách khắc phục |
|---|---|---|
| Ollama | 127.0.0.1 | Đặt biến môi trường OLLAMA_HOST=0.0.0.0 trước khi khởi động Ollama (Cài đặt hệ thống → Biến môi trường trên Windows hoặc chỉnh sửa dịch vụ Ollama) |
| LM Studio | 127.0.0.1 | Bật "Phục vụ trên mạng" trong tab Nhà phát triển → Cài đặt máy chủ |
| máy chủ llama | 127.0.0.1 | Thêm --host 0.0.0.0 vào lệnh khởi động |
| vLLM | 0.0.0.0 | Đã liên kết với tất cả các giao diện theo mặc định |
| SGLang | 127.0.0.1 | Thêm --host 0.0.0.0 vào lệnh khởi động |
Ollama trên Windows (chi tiết): Ollama chạy dưới dạng dịch vụ Windows. Để đặt OLLAMA_HOST :
- Mở Thuộc tính hệ thống → Biến môi trường
- Thêm Biến hệ thống mới:
OLLAMA_HOST=0.0.0.0 - Khởi động lại dịch vụ Ollama (hoặc khởi động lại)
Tường lửa của Windows
Tường lửa Windows coi WSL2 như một mạng riêng biệt (ở cả chế độ NAT và chế độ phản chiếu). Nếu kết nối vẫn không thành công sau các bước trên, hãy thêm quy tắc tường lửa cho cổng máy chủ mô hình của bạn:
# Run in Admin PowerShell — replace PORT with your server's port
New-NetFirewallRule -DisplayName "Allow WSL2 to Model Server" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 11434
Các cổng phổ biến: Ollama 11434 , vLLM 8000 , SGLang 30000 , llama-server 8080 , LM Studio 1234 .
Xác minh nhanh
Từ bên trong WSL2, hãy kiểm tra xem bạn có thể truy cập máy chủ mô hình của mình không:
# Replace URL with your server's address and port
curl http://localhost:11434/v1/models
# Mirrored mode
curl http://172.29.192.1:11434/v1/models
# NAT mode (use your actual host IP)
Nếu bạn nhận được phản hồi JSON liệt kê các mô hình của mình thì bạn vẫn ổn. Sử dụng cùng URL đó với base_url trong cấu hình Hermes của bạn.
Khắc phục sự cố với các mô hình cục bộ
Những sự cố này ảnh hưởng đến tất cả máy chủ suy luận cục bộ khi sử dụng với Hermes.
"Kết nối bị từ chối" từ WSL2 đến máy chủ mô hình được lưu trữ trên máy chủ Windows
Nếu bạn đang chạy Hermes bên trong WSL2 và máy chủ mẫu của bạn trên máy chủ Windows, http://localhost:<port> sẽ không hoạt động ở chế độ mạng NAT mặc định của WSL2. Xem Mạng WSL2 ở trên để biết cách khắc phục.
Lệnh gọi công cụ xuất hiện dưới dạng văn bản thay vì thực thi
Mô hình xuất ra nội dung giống như {"name": "web_search", "arguments": {...}} dưới dạng thông báo thay vì thực sự gọi công cụ.
Lý do: Máy chủ của bạn chưa bật tính năng gọi công cụ hoặc mô hình không hỗ trợ tính năng này thông qua việc triển khai gọi công cụ của máy chủ.
| Máy chủ | Sửa chữa |
|---|---|
| llama.cpp | Thêm --jinja vào lệnh khởi động |
| vLLM | Thêm --enable-auto-tool-choice --tool-call-parser hermes |
| SGLang | Thêm --tool-call-parser qwen (hoặc trình phân tích cú pháp thích hợp) |
| Ollama | Gọi công cụ được bật theo mặc định - đảm bảo mô hình của bạn hỗ trợ nó (kiểm tra với ollama show model-name ) |
| LM Studio | Cập nhật lên 0.3.6+ và sử dụng mô hình có hỗ trợ công cụ gốc |
Mô hình dường như quên ngữ cảnh hoặc đưa ra phản hồi không mạch lạcNguyên nhân: Cửa sổ ngữ cảnh quá nhỏ. Khi cuộc trò chuyện vượt quá giới hạn ngữ cảnh, hầu hết các máy chủ sẽ âm thầm loại bỏ các tin nhắn cũ hơn. Chỉ riêng lược đồ công cụ + lời nhắc hệ thống của Hermes có thể sử dụng mã thông báo 4k–8k.
Chẩn đoán:
# Check what Hermes thinks the context is
# Look at startup line: "Context limit: X tokens"
# Check your server's actual context
# Ollama: ollama ps (CONTEXT column)
# llama.cpp: curl http://localhost:8080/props | jq '.default_generation_settings.n_ctx'
# vLLM: check --max-model-len in startup args
Khắc phục: Đặt ngữ cảnh thành ít nhất 32.768 mã thông báo để sử dụng cho tác nhân. Xem phần của từng máy chủ ở trên để biết cờ cụ thể.
"Giới hạn bối cảnh: 2048 mã thông báo" khi khởi động
Hermes tự động phát hiện độ dài ngữ cảnh từ điểm cuối /v1/models trên máy chủ của bạn. Nếu máy chủ báo cáo giá trị thấp (hoặc hoàn toàn không báo cáo), Hermes sử dụng giới hạn đã khai báo của mô hình và điều này có thể sai.
Khắc phục: Đặt rõ ràng trong config.yaml :
model:
default: your-model
provider: custom
base_url: http://localhost:11434/v1
context_length: 32768
Câu trả lời bị cắt giữa câu
Nguyên nhân có thể:
- Thấp
max_tokenstrên máy chủ — SGLang mặc định có 128 mã thông báo cho mỗi phản hồi. Đặt--default-max-tokenstrên máy chủ hoặc định cấu hình Hermes bằngmodel.max_tokenstrong config.yaml. - Cạn kiệt bối cảnh — Mô hình đã lấp đầy cửa sổ ngữ cảnh của nó. Tăng độ dài ngữ cảnh hoặc bật nén ngữ cảnh trong Hermes.
Proxy LiteLLM — Cổng đa nhà cung cấp
LiteLLM là một proxy tương thích với OpenAI, hợp nhất hơn 100 nhà cung cấp LLM sau một API duy nhất. Tốt nhất cho: chuyển đổi giữa các nhà cung cấp mà không cần thay đổi cấu hình, cân bằng tải, chuỗi dự phòng, kiểm soát ngân sách.
# Install and start
pip install "litellm[proxy]"
litellm --model anthropic/claude-sonnet-4 --port 4000
# Or with a config file for multiple models:
litellm --config litellm_config.yaml --port 4000
Sau đó định cấu hình Hermes với hermes model → Custom Endpoint → http://localhost:4000/v1 .
Ví dụ litellm_config.yaml với dự phòng:
model_list:
- model_name: "best"
litellm_params:
model: anthropic/claude-sonnet-4
api_key: sk-ant-...
- model_name: "best"
litellm_params:
model: openai/gpt-4o
api_key: sk-...
router_settings:
routing_strategy: "latency-based-routing"
ClawRouter — Định tuyến được tối ưu hóa chi phí
ClawRouter của BlockRunAI là proxy định tuyến cục bộ tự động chọn các mô hình dựa trên độ phức tạp của truy vấn. Nó phân loại các yêu cầu trên 14 chiều và định tuyến đến mô hình rẻ nhất có thể xử lý nhiệm vụ. Thanh toán thông qua tiền điện tử USDC (không có khóa API).
# Install and start
npx @blockrun/clawrouter
# Starts on port 8402
Sau đó định cấu hình Hermes với hermes model → Custom Endpoint → http://localhost:8402/v1 → tên mẫu blockrun/auto .
Hồ sơ định tuyến:
| Hồ sơ | Chiến lược | Tiết kiệm |
|---|---|---|
blockrun/auto | Cân bằng chất lượng/chi phí | 74-100% |
blockrun/eco | Rẻ nhất có thể | 95-100% |
blockrun/premium | Mẫu mã chất lượng tốt nhất | 0% |
blockrun/free | Chỉ các mẫu miễn phí | 100% |
blockrun/agentic | Tối ưu hóa để sử dụng công cụ | khác nhau |
ClawRouter yêu cầu ví được USDC tài trợ trên Base hoặc Solana để thanh toán. Tất cả các yêu cầu đều được định tuyến thông qua API phụ trợ của BlockRun. Chạy npx @blockrun/clawrouter doctor để kiểm tra trạng thái ví.
Nhà cung cấp tương thích khác
Bất kỳ dịch vụ nào có API tương thích với OpenAI đều hoạt động. Một số lựa chọn phổ biến:| Nhà cung cấp | URL cơ sở | Ghi chú |
|----------|----------|-------|
| Cùng nhau AI | https://api.together.xyz/v1 | Các mô hình mở được lưu trữ trên đám mây |
| Groq | https://api.groq.com/openai/v1 | Suy luận cực nhanh |
| DeepSeek | https://api.deepseek.com/v1 | Mô hình DeepSeek |
| Pháo hoa AI | https://api.fireworks.ai/inference/v1 | Lưu trữ mô hình mở nhanh |
| Não | https://api.cerebras.ai/v1 | Suy luận chip quy mô wafer |
| Mistral AI | https://api.mistral.ai/v1 | Mô hình Mistral |
| OpenAI | https://api.openai.com/v1 | Truy cập OpenAI trực tiếp |
| Azure OpenAI | https://YOUR.openai.azure.com/ | Doanh nghiệp OpenAI |
| LocalAI | http://localhost:8080/v1 | Tự lưu trữ, đa mô hình |
| Tháng 1 | http://localhost:1337/v1 | Ứng dụng dành cho máy tính để bàn với các mô hình cục bộ |
Định cấu hình bất kỳ thứ nào trong số này bằng hermes model → Custom Endpoint hoặc trong config.yaml :
model:
default: meta-llama/Llama-3.1-70B-Instruct-Turbo
provider: custom
base_url: https://api.together.xyz/v1
api_key: your-together-key
Phát hiện độ dài ngữ cảnh
Hermes sử dụng chuỗi phân giải đa nguồn để phát hiện cửa sổ ngữ cảnh chính xác cho kiểu máy và nhà cung cấp của bạn:
- Ghi đè cấu hình —
model.context_lengthtrong config.yaml (mức độ ưu tiên cao nhất) - Nhà cung cấp tùy chỉnh cho mỗi mô hình —
custom_providers[].models.<id>.context_length - Bộ đệm liên tục — các giá trị được phát hiện trước đó (tồn tại khi khởi động lại)
- **Điểm cuối
/models** — truy vấn API máy chủ của bạn (điểm cuối cục bộ/tùy chỉnh) - **Anthropic
/v1/models** — truy vấn API của Anthropic chomax_input_tokens(chỉ dành cho người dùng khóa API) - OpenRouter API — siêu dữ liệu mô hình trực tiếp từ OpenRouter
- Nous Portal — khớp hậu tố ID mô hình Nous với siêu dữ liệu OpenRouter
- models.dev — sổ đăng ký do cộng đồng duy trì với độ dài ngữ cảnh dành riêng cho nhà cung cấp cho hơn 3800 mô hình trên hơn 100 nhà cung cấp
- Mặc định dự phòng — các mẫu họ mô hình rộng (mặc định 128K)
Đối với hầu hết các thiết lập, điều này hoạt động tốt. Hệ thống nhận biết nhà cung cấp — cùng một mô hình có thể có các giới hạn ngữ cảnh khác nhau tùy thuộc vào người phục vụ nó (ví dụ: claude-opus-4.6 là 1M trên Anthropic direct nhưng 128K trên GitHub Copilot).
Để đặt độ dài ngữ cảnh một cách rõ ràng, hãy thêm context_length vào cấu hình mô hình của bạn:
model:
default: "qwen3.5:9b"
base_url: "http://localhost:8080/v1"
context_length: 131072
# tokens
Đối với điểm cuối tùy chỉnh, bạn cũng có thể đặt độ dài ngữ cảnh cho mỗi mô hình:
custom_providers:
- name: "My Local LLM"
base_url: "http://localhost:11434/v1"
models:
qwen3.5:27b:
context_length: 32768
deepseek-r1:70b:
context_length: 65536
hermes model sẽ nhắc về độ dài ngữ cảnh khi định cấu hình điểm cuối tùy chỉnh. Để trống để tự động phát hiện.
- Bạn đang sử dụng Ollama với
num_ctxtùy chỉnh thấp hơn mức tối đa của mô hình - Bạn muốn giới hạn ngữ cảnh dưới mức tối đa của mô hình (ví dụ: 8k trên mô hình 128k để tiết kiệm VRAM)
- Bạn đang chạy đằng sau một proxy không hiển thị
/v1/models
Nhà cung cấp tùy chỉnh được đặt tên
Nếu bạn làm việc với nhiều điểm cuối tùy chỉnh (ví dụ: máy chủ nhà phát triển cục bộ và máy chủ GPU từ xa), bạn có thể xác định chúng là nhà cung cấp tùy chỉnh được đặt tên trong config.yaml :
custom_providers:
- name: local
base_url: http://localhost:8080/v1
# api_key omitted — Hermes uses "no-key-required" for keyless local servers
- name: work
base_url: https://gpu-server.internal.corp/v1
api_key: corp-api-key
api_mode: chat_completions
# optional, auto-detected from URL
- name: anthropic-proxy
base_url: https://proxy.example.com/anthropic
api_key: proxy-key
api_mode: anthropic_messages
# for Anthropic-compatible proxies
Chuyển đổi giữa chúng giữa phiên bằng cú pháp ba:
/model custom:local:qwen-2.5
# Use the "local" endpoint with qwen-2.5
/model custom:work:llama3-70b
# Use the "work" endpoint with llama3-70b
/model custom:anthropic-proxy:claude-sonnet-4
# Use the proxy
Bạn cũng có thể chọn nhà cung cấp tùy chỉnh có tên từ menu hermes model tương tác.
Chọn cài đặt phù hợp
| Trường hợp sử dụng | Được đề xuất |
|---|---|
| Chỉ muốn nó hoạt động | OpenRouter (mặc định) hoặc Nous Portal |
| Mô hình địa phương, thiết lập dễ dàng | Olama |
| Phục vụ GPU sản xuất | vLLM hoặc SGLang |
| Mac / không có GPU | Ollama hoặc llama.cpp |
| Định tuyến nhiều nhà cung cấp | LiteLLM Proxy hoặc OpenRouter |
| Tối ưu hóa chi phí | ClawRouter hoặc OpenRouter với sort: "price" |
| Quyền riêng tư tối đa | Ollama, vLLM hoặc llama.cpp (hoàn toàn cục bộ) |
| Doanh nghiệp / Azure | Azure OpenAI với điểm cuối tùy chỉnh |
| Mô hình AI Trung Quốc | z.ai (GLM), Kimi/Moonshot hoặc MiniMax (nhà cung cấp hạng nhất) |
Bạn có thể chuyển đổi giữa các nhà cung cấp bất kỳ lúc nào bằng hermes model — không cần khởi động lại. Lịch sử trò chuyện, trí nhớ và kỹ năng của bạn sẽ được lưu giữ bất kể bạn sử dụng nhà cung cấp nào.
Khóa API tùy chọn
| Tính năng | Nhà cung cấp | Biến Env |
|---|---|---|
| Quét web | Firecrawl | FIRECRAWL_API_KEY , FIRECRAWL_API_URL |
| Tự động hóa trình duyệt | Cơ sở trình duyệt | BROWSERBASE_API_KEY , BROWSERBASE_PROJECT_ID |
| Tạo hình ảnh | FAL | FAL_KEY |
| Giọng nói TTS cao cấp | ElevenLabs | ELEVENLABS_API_KEY |
| OpenAI TTS + phiên âm giọng nói | OpenAI | VOICE_TOOLS_OPENAI_KEY |
| Đào tạo RL | Tinker + WandB | TINKER_API_KEY , WANDB_API_KEY |
| Lập mô hình người dùng giữa các phiên | Honcho | HONCHO_API_KEY |
| Trí nhớ dài hạn ngữ nghĩa | Siêu bộ nhớ | SUPERMEMORY_API_KEY |
Firecrawl tự lưu trữ
Theo mặc định, Hermes sử dụng API đám mây Firecrawl để tìm kiếm và thu thập thông tin trên web. Nếu muốn chạy Firecrawl cục bộ, bạn có thể trỏ Hermes vào một phiên bản tự lưu trữ. Xem SELF_HOST.md của Firecrawl để biết hướng dẫn thiết lập đầy đủ.
Những gì bạn nhận được: Không cần khóa API, không giới hạn tốc độ, không tính phí mỗi trang, toàn quyền về dữ liệu.
Bạn mất gì: Phiên bản đám mây sử dụng "Fire-engine" độc quyền của Firecrawl để vượt qua chương trình chống bot nâng cao (Cloudflare, CAPTCHA, xoay vòng IP). Tự lưu trữ sử dụng tìm nạp cơ bản + Nhà viết kịch, vì vậy một số trang web được bảo vệ có thể không thành công. Tìm kiếm sử dụng DuckDuckGo thay vì Google.
Cài đặt:
- Sao chép và khởi động ngăn xếp Firecrawl Docker (5 bộ chứa: API, Playwright, Redis, RabbitMQ, PostgreSQL — yêu cầu RAM ~4-8 GB):
git clone https://github.com/firecrawl/firecrawl
cd firecrawl
# In .env, set: USE_DB_AUTHENTICATION=false, HOST=0.0.0.0, PORT=3002
docker compose up -d
- Trỏ Hermes vào phiên bản của bạn (không cần khóa API):
hermes config set FIRECRAWL_API_URL http://localhost:3002
Bạn cũng có thể đặt cả FIRECRAWL_API_KEY và FIRECRAWL_API_URL nếu phiên bản tự lưu trữ của bạn đã bật xác thực.
Định tuyến nhà cung cấp OpenRouter
Khi sử dụng OpenRouter, bạn có thể kiểm soát cách định tuyến các yêu cầu giữa các nhà cung cấp. Thêm phần provider_routing vào ~/.hermes/config.yaml :
provider_routing:
sort: "throughput"
# "price" (default), "throughput", or "latency"
# only: ["anthropic"]
# Only use these providers
# ignore: ["deepinfra"]
# Skip these providers
# order: ["anthropic", "google"]
# Try providers in this order
# require_parameters: true
# Only use providers that support all request params
# data_collection: "deny"
# Exclude providers that may store/train on data
Phím tắt: Thêm :nitro vào bất kỳ tên mẫu máy nào để sắp xếp thông lượng (ví dụ: anthropic/claude-sonnet-4:nitro ) hoặc :floor để sắp xếp giá.
Mô hình dự phòng
Định cấu hình nhà cung cấp dự phòng:mô hình mà Hermes tự động chuyển sang khi mô hình chính của bạn bị lỗi (giới hạn tốc độ, lỗi máy chủ, lỗi xác thực):
fallback_model:
provider: openrouter
# required
model: anthropic/claude-sonnet-4
# required
# base_url: http://localhost:8000/v1
# optional, for custom endpoints
# api_key_env: MY_CUSTOM_KEY
# optional, env var name for custom endpoint API key
Khi được kích hoạt, dự phòng sẽ hoán đổi mô hình và nhà cung cấp giữa phiên mà không làm mất cuộc trò chuyện của bạn. Nó kích hoạt nhiều nhất một lần mỗi phiên.
Các nhà cung cấp được hỗ trợ: openrouter , nous , openai-codex , copilot , copilot-acp , anthropic , huggingface , zai , kimi-coding , minimax , minimax-cn , deepseek , ai-gateway , opencode-zen , opencode-go , kilocode , alibaba , custom .
Dự phòng được định cấu hình riêng thông qua config.yaml — không có biến môi trường nào cho nó. Để biết thông tin chi tiết đầy đủ về thời điểm kích hoạt, nhà cung cấp được hỗ trợ cũng như cách nó tương tác với các nhiệm vụ phụ trợ và ủy quyền, hãy xem Nhà cung cấp dự phòng.
Định tuyến mô hình thông minh
Định tuyến rẻ-so-mạnh tùy chọn cho phép Hermes giữ mô hình chính của bạn cho công việc phức tạp trong khi gửi các vòng quay rất ngắn/đơn giản đến mô hình rẻ hơn.
smart_model_routing:
enabled: true
max_simple_chars: 160
max_simple_words: 28
cheap_model:
provider: openrouter
model: google/gemini-2.5-flash
# base_url: http://localhost:8000/v1
# optional custom endpoint
# api_key_env: MY_CUSTOM_KEY
# optional env var name for that endpoint's API key
Nó hoạt động như thế nào:
- Nếu một lượt ngắn, một dòng và không có vẻ nặng nề về mã/công cụ/gỡ lỗi, Hermes có thể định tuyến nó tới
cheap_model - Nếu ngã rẽ có vẻ phức tạp, Hermes sẽ tiếp tục sử dụng mô hình/nhà cung cấp chính của bạn
- Nếu tuyến đường giá rẻ không thể được giải quyết rõ ràng, Hermes sẽ tự động quay trở lại mẫu chính
Đây là cố ý bảo thủ. Nó dành cho những lượt quay nhanh, ít rủi ro như:
- câu hỏi thực tế ngắn
- viết lại nhanh
- tóm tắt nhẹ
Nó sẽ tránh các lời nhắc định tuyến giống như:
- công việc mã hóa/gỡ lỗi
- yêu cầu nặng về công cụ
- yêu cầu phân tích dài hoặc nhiều dòng
Sử dụng tính năng này khi bạn muốn độ trễ hoặc chi phí thấp hơn mà không cần thay đổi hoàn toàn mô hình mặc định của mình.
Xem thêm
- Cấu hình — Cấu hình chung (cấu trúc thư mục, mức độ ưu tiên của cấu hình, phụ trợ đầu cuối, bộ nhớ, nén, v.v.)
- Biến môi trường - Tham chiếu đầy đủ tất cả các biến môi trường