Chuyển tới nội dung chính

Nhà cung cấp AI

Trang này đề cập đến việc thiết lập nhà cung cấp suy luận cho Hermes Agent — từ các API đám mây như OpenRouter và Anthropic, đến các điểm cuối tự lưu trữ như Ollama và vLLM, cho đến các cấu hình dự phòng và định tuyến nâng cao. Bạn cần ít nhất một nhà cung cấp được định cấu hình để sử dụng Hermes.

Nhà cung cấp suy luận

Bạn cần ít nhất một cách để kết nối với LLM. Sử dụng hermes model để chuyển đổi nhà cung cấp và mô hình một cách tương tác hoặc định cấu hình trực tiếp:

Nhà cung cấpThiết lập
Nous Portalhermes model (OAuth, dựa trên đăng ký)
OpenAI Codexhermes model (ChatGPT OAuth, sử dụng mô hình Codex)
GitHub Copilothermes model (Luồng mã thiết bị OAuth, COPILOT_GITHUB_TOKEN , GH_TOKEN hoặc gh auth token )
GitHub Copilot ACPhermes model (sinh ra cục bộ copilot --acp --stdio )
Anthropichermes model (Claude Pro/Max thông qua xác thực Claude Code, khóa API Anthropic hoặc mã thông báo thiết lập thủ công)
OpenRouterOPENROUTER_API_KEY trong ~/.hermes/.env
Cổng AIAI_GATEWAY_API_KEY trong ~/.hermes/.env (nhà cung cấp: ai-gateway )
z.ai / GLMGLM_API_KEY trong ~/.hermes/.env (nhà cung cấp: zai )
Kimi / MoonshotKIMI_API_KEY trong ~/.hermes/.env (nhà cung cấp: kimi-coding )
MiniMaxMINIMAX_API_KEY trong ~/.hermes/.env (nhà cung cấp: minimax )
MiniMax ChinaMINIMAX_CN_API_KEY trong ~/.hermes/.env (nhà cung cấp: minimax-cn )
Alibaba CloudDASHSCOPE_API_KEY trong ~/.hermes/.env (nhà cung cấp: alibaba , bí danh: dashscope , qwen )
KiloCodeKILOCODE_API_KEY trong ~/.hermes/.env (nhà cung cấp: kilocode )
OpenCode ZenOPENCODE_ZEN_API_KEY trong ~/.hermes/.env (nhà cung cấp: opencode-zen )
OpenCode GoOPENCODE_GO_API_KEY trong ~/.hermes/.env (nhà cung cấp: opencode-go )
DeepSeekDEEPSEEK_API_KEY trong ~/.hermes/.env (nhà cung cấp: deepseek )
Hugging FaceHF_TOKEN trong ~/.hermes/.env (nhà cung cấp: huggingface , bí danh: hf )
Google / Song TửGOOGLE_API_KEY (hoặc GEMINI_API_KEY ) trong ~/.hermes/.env (nhà cung cấp: gemini )
Custom Endpointhermes model → chọn "Custom Endpoint" (được lưu trong config.yaml )
Bí danh khóa mẫu

Trong phần cấu hình model:, bạn có thể sử dụng default: hoặc model: làm tên khóa cho ID mẫu máy của mình. Cả model: { default: my-model }model: { model: my-model } đều hoạt động giống nhau.

Codex Lưu ý

Nhà cung cấp OpenAI Codex xác thực thông qua mã thiết bị (mở URL, nhập mã). Hermes lưu trữ thông tin xác thực thu được trong cửa hàng xác thực của riêng mình theo ~/.hermes/auth.json và có thể nhập thông tin xác thực Codex CLI hiện có từ ~/.codex/auth.json khi có. Không cần cài đặt Codex CLI.

cảnh báo

Ngay cả khi sử dụng Nous Portal, Codex hoặc điểm cuối tùy chỉnh, một số công cụ (tầm nhìn, tóm tắt web, MoA) vẫn sử dụng mô hình "phụ trợ" riêng biệt — theo mặc định là Gemini Flash thông qua OpenRouter. OPENROUTER_API_KEY tự động bật các công cụ này. Bạn cũng có thể định cấu hình mô hình và nhà cung cấp mà các công cụ này sử dụng - xem Mô hình phụ trợ.

Nhân chủng học (Bản địa)

Sử dụng trực tiếp các mô hình Claude thông qua API Anthropic - không cần proxy OpenRouter. Hỗ trợ ba phương thức xác thực:

# With an API key (pay-per-token)
export ANTHROPIC_API_KEY=***
hermes chat --provider anthropic --model claude-sonnet-4-6

# Preferred: authenticate through `hermes model`
# Hermes will use Claude Code's credential store directly when available
hermes model

# Manual override with a setup-token (fallback / legacy)
export ANTHROPIC_TOKEN=***

# setup-token or manual OAuth token
hermes chat --provider anthropic

# Auto-detect Claude Code credentials (if you already use Claude Code)
hermes chat --provider anthropic

# reads Claude Code credential files automatically

Khi bạn chọn Anthropic OAuth thông qua hermes model , Hermes ưu tiên kho thông tin xác thực của Claude Code hơn là sao chép mã thông báo vào ~/.hermes/.env . Điều đó giúp thông tin đăng nhập Claude có thể làm mới được luôn được làm mới.

Hoặc đặt nó vĩnh viễn:

model:
provider: "anthropic"
default: "claude-sonnet-4-6"

Bí danh

--provider claude--provider claude-code cũng hoạt động như cách viết tắt của --provider anthropic .

GitHub Copilot

Hermes hỗ trợ GitHub Copilot với tư cách là nhà cung cấp hạng nhất với hai chế độ:

** copilot — API điều khiển trực tiếp** (được khuyến nghị). Sử dụng đăng ký GitHub Copilot của bạn để truy cập GPT-5.x, Claude, Gemini và các mô hình khác thông qua API Copilot.

hermes chat --provider copilot --model gpt-5.4

Tùy chọn xác thực (được chọn theo thứ tự này):

  1. Biến môi trường COPILOT_GITHUB_TOKEN
  2. Biến môi trường GH_TOKEN
  3. Biến môi trường GITHUB_TOKEN
  4. Dự phòng gh auth token CLI

Nếu không tìm thấy mã thông báo nào, hermes model sẽ cung cấp đăng nhập mã thiết bị OAuth — cùng một quy trình được sử dụng bởi Copilot CLI và mã mở.

:::Các loại mã thông báo cảnh báo API Copilot không hỗ trợ Mã thông báo truy cập cá nhân cổ điển ( ghp_* ). Các loại mã thông báo được hỗ trợ:

LoạiTiền tốLàm thế nào để có được
Mã thông báo OAuthgho_hermes model → GitHub Copilot → Đăng nhập bằng GitHub
PAT hạt mịngithub_pat_Cài đặt GitHub → Cài đặt dành cho nhà phát triển → Mã thông báo chi tiết (cần quyền Yêu cầu phi công phụ)
Mã thông báo ứng dụng GitHubghu_Thông qua cài đặt ứng dụng GitHub

Nếu gh auth token của bạn trả về mã thông báo ghp_*, thay vào đó hãy sử dụng hermes model để xác thực qua OAuth.

:::

Định tuyến API: Các mẫu GPT-5+ (ngoại trừ gpt-5-mini ) tự động sử dụng API phản hồi. Tất cả các kiểu máy khác (GPT-4o, Claude, Gemini, v.v.) đều sử dụng tính năng Hoàn thành trò chuyện. Các mô hình được tự động phát hiện từ danh mục Copilot trực tiếp.

** copilot-acp — Phần phụ trợ tác nhân ACP của Copilot**. Sinh ra CLI Copilot cục bộ dưới dạng một quy trình con:

hermes chat --provider copilot-acp --model copilot-acp
# Requires the GitHub Copilot CLI in PATH and an existing `copilot login` session

Cấu hình cố định:

model:
provider: "copilot"
default: "gpt-5.4"

Biến môi trườngMô tả
COPILOT_GITHUB_TOKENMã thông báo GitHub cho API Copilot (ưu tiên hàng đầu)
HERMES_COPILOT_ACP_COMMANDGhi đè đường dẫn nhị phân Copilot CLI (mặc định: copilot )
HERMES_COPILOT_ACP_ARGSGhi đè đối số ACP (mặc định: --acp --stdio )

Nhà cung cấp AI Trung Quốc hạng nhất

Các nhà cung cấp này có hỗ trợ tích hợp với ID nhà cung cấp chuyên dụng. Đặt khóa API và sử dụng --provider để chọn:

# z.ai / ZhipuAI GLM
hermes chat --provider zai --model glm-5
# Requires: GLM_API_KEY in ~/.hermes/.env

# Kimi / Moonshot AI
hermes chat --provider kimi-coding --model kimi-for-coding
# Requires: KIMI_API_KEY in ~/.hermes/.env

# MiniMax (global endpoint)
hermes chat --provider minimax --model MiniMax-M2.7
# Requires: MINIMAX_API_KEY in ~/.hermes/.env

# MiniMax (China endpoint)
hermes chat --provider minimax-cn --model MiniMax-M2.7
# Requires: MINIMAX_CN_API_KEY in ~/.hermes/.env

# Alibaba Cloud / DashScope (Qwen models)
hermes chat --provider alibaba --model qwen3.5-plus
# Requires: DASHSCOPE_API_KEY in ~/.hermes/.env

Hoặc đặt nhà cung cấp vĩnh viễn trong config.yaml :

model:
provider: "zai"

# or: kimi-coding, minimax, minimax-cn, alibaba
default: "glm-5"

URL cơ sở có thể được ghi đè bằng các biến môi trường GLM_BASE_URL , KIMI_BASE_URL , MINIMAX_BASE_URL , MINIMAX_CN_BASE_URL hoặc DASHSCOPE_BASE_URL .

Tự động phát hiện điểm cuối Z.AI

Khi sử dụng nhà cung cấp Z.AI / GLM, Hermes tự động thăm dò nhiều điểm cuối (toàn cầu, Trung Quốc, các biến thể mã hóa) để tìm ra điểm cuối chấp nhận khóa API của bạn. Bạn không cần đặt GLM_BASE_URL theo cách thủ công — điểm cuối hoạt động được tự động phát hiện và lưu vào bộ nhớ đệm.

xAI (Grok) Bộ nhớ đệm nhắc nhở

Khi sử dụng xAI làm nhà cung cấp (bất kỳ URL cơ sở nào chứa x.ai ), Hermes sẽ tự động kích hoạt bộ nhớ đệm nhanh chóng bằng cách gửi tiêu đề x-grok-conv-id với mọi yêu cầu API. Điều này định tuyến các yêu cầu đến cùng một máy chủ trong phiên hội thoại, cho phép cơ sở hạ tầng của xAI sử dụng lại lời nhắc hệ thống và lịch sử hội thoại đã lưu trong bộ nhớ đệm.

Không cần cấu hình — bộ nhớ đệm sẽ tự động kích hoạt khi phát hiện điểm cuối xAI và có ID phiên. Điều này giúp giảm độ trễ và chi phí cho các cuộc hội thoại nhiều lượt.

Nhà cung cấp suy luận ôm mặt

Nhà cung cấp suy luận ôm khuôn mặt định tuyến đến hơn 20 mô hình mở thông qua điểm cuối thống nhất tương thích với OpenAI ( router.huggingface.co/v1 ). Các yêu cầu được tự động chuyển đến chương trình phụ trợ có sẵn nhanh nhất (Groq, Together, SambaNova, v.v.) với tính năng chuyển đổi dự phòng tự động.

# Use any available model
hermes chat --provider huggingface --model Qwen/Qwen3-235B-A22B-Thinking-2507
# Requires: HF_TOKEN in ~/.hermes/.env

# Short alias
hermes chat --provider hf --model deepseek-ai/DeepSeek-V3.2

Hoặc đặt nó vĩnh viễn trong config.yaml :

model:
provider: "huggingface"
default: "Qwen/Qwen3-235B-A22B-Thinking-2507"

Nhận mã thông báo của bạn tại huggingface.co/settings/tokens — đảm bảo bật quyền "Thực hiện cuộc gọi tới Nhà cung cấp suy luận". Đã bao gồm bậc miễn phí (tín dụng ($0,10/tháng, không tăng giá theo giá của nhà cung cấp).

Bạn có thể thêm hậu tố định tuyến vào tên mẫu: :fastest (mặc định), :cheapest hoặc :provider_name để buộc một chương trình phụ trợ cụ thể.

URL cơ sở có thể được ghi đè bằng HF_BASE_URL .

Nhà cung cấp LLM tùy chỉnh và tự lưu trữ

Hermes Agent hoạt động với mọi điểm cuối API tương thích với OpenAI. Nếu máy chủ triển khai /v1/chat/completions , bạn có thể trỏ Hermes vào máy chủ đó. Điều này có nghĩa là bạn có thể sử dụng các mô hình cục bộ, máy chủ suy luận GPU, bộ định tuyến của nhiều nhà cung cấp hoặc bất kỳ API nào của bên thứ ba.

Cài đặt chung

Ba cách để định cấu hình điểm cuối tùy chỉnh:

Thiết lập tương tác (được khuyến nghị):

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter: API base URL, API key, Model name

Cấu hình thủ công ( config.yaml ):

# In ~/.hermes/config.yaml
model:
default: your-model-name
provider: custom
base_url: http://localhost:8000/v1
api_key: your-key-or-leave-empty-for-local

Legacy env vars

OPENAI_BASE_URLLLM_MODEL trong .env không được dùng nữa. OPENAI_BASE_URL không còn được tư vấn để giải quyết điểm cuối nữa — config.yaml là nguồn thông tin chính xác duy nhất. CLI bỏ qua hoàn toàn LLM_MODEL (chỉ cổng mới đọc nó dưới dạng dự phòng). Sử dụng hermes model hoặc chỉnh sửa trực tiếp config.yaml — cả hai đều tồn tại chính xác qua các lần khởi động lại và vùng chứa Docker.

Cả hai cách tiếp cận đều tồn tại config.yaml , đây là nguồn đáng tin cậy cho mô hình, nhà cung cấp và URL cơ sở.

Chuyển đổi model bằng /model

Sau khi định cấu hình điểm cuối tùy chỉnh, bạn có thể chuyển đổi mô hình giữa phiên:

/model custom:qwen-2.5          

# Switch to a model on your custom endpoint
/model custom

# Auto-detect the model from the endpoint
/model openrouter:claude-sonnet-4

# Switch back to a cloud provider

Nếu bạn đã định cấu hình nhà cung cấp tùy chỉnh được đặt tên (xem bên dưới), hãy sử dụng cú pháp ba:

/model custom:local:qwen-2.5    

# Use the "local" custom provider with model qwen-2.5
/model custom:work:llama3

# Use the "work" custom provider with llama3

```Khi chuyển đổi nhà cung cấp, Hermes vẫn giữ nguyên URL cơ sở và nhà cung cấp để định cấu hình để thay đổi vẫn tiếp tục khởi động lại. Khi chuyển từ điểm cuối tùy chỉnh sang nhà cung cấp tích hợp sẵn, URL cơ sở cũ sẽ tự động bị xóa.

:::tip
`/model custom` (trống, không có tên mô hình) truy vấn API `/models` của điểm cuối của bạn và tự động chọn mô hình nếu chính xác một mô hình được tải. Hữu ích cho các máy chủ cục bộ chạy một mô hình duy nhất.

:::

Mọi thứ bên dưới đều tuân theo cùng một mẫu — chỉ cần thay đổi URL, khóa và tên mẫu.

---

#

## Ollama — Mô hình cục bộ, cấu hình không

[Ollama](https://ollama.com/) chạy cục bộ các mô hình có trọng lượng mở bằng một lệnh. Tốt nhất cho: thử nghiệm cục bộ nhanh chóng, công việc nhạy cảm về quyền riêng tư, sử dụng ngoại tuyến. Hỗ trợ gọi công cụ thông qua API tương thích với OpenAI.

```bash
# Install and run a model
ollama pull qwen2.5-coder:32b
ollama serve

# Starts on port 11434

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:11434/v1
# Skip API key (Ollama doesn't need one)
# Enter model name (e.g. qwen2.5-coder:32b)

Hoặc định cấu hình trực tiếp config.yaml:

model:
default: qwen2.5-coder:32b
provider: custom
base_url: http://localhost:11434/v1
context_length: 32768

# See warning below

Ollama mặc định có độ dài ngữ cảnh rất thấp

Theo mặc định, Ollama không sử dụng cửa sổ ngữ cảnh đầy đủ của mô hình của bạn. Tùy thuộc vào VRAM của bạn, mặc định là:

VRAM có sẵnBối cảnh mặc định
Dưới 24 GB4.096 token
24–48 GB32.768 token
48+ GB256.000 token

Để sử dụng tác nhân với các công cụ, bạn cần ít nhất 16k–32k bối cảnh. Ở mức 4k, chỉ riêng lời nhắc hệ thống + lược đồ công cụ có thể lấp đầy cửa sổ, không còn chỗ cho cuộc trò chuyện.

Cách tăng (chọn một):

# Option 1: Set server-wide via environment variable (recommended)
OLLAMA_CONTEXT_LENGTH=32768 ollama serve

# Option 2: For systemd-managed Ollama
sudo systemctl edit ollama.service
# Add: Environment="OLLAMA_CONTEXT_LENGTH=32768"
# Then: sudo systemctl daemon-reload && sudo systemctl restart ollama

# Option 3: Bake it into a custom model (persistent per-model)
echo -e "FROM qwen2.5-coder:32b\nPARAMETER num_ctx 32768" > Modelfile
ollama create qwen2.5-coder-32k -f Modelfile

Bạn không thể đặt độ dài ngữ cảnh thông qua API tương thích với OpenAI ( /v1/chat/completions ). Nó phải được cấu hình phía máy chủ hoặc thông qua Modelfile. Đây là nguyên nhân gây nhầm lẫn số 1 khi tích hợp Ollama với các công cụ như Hermes.

Xác minh bối cảnh của bạn được đặt chính xác:

ollama ps
# Look at the CONTEXT column — it should show your configured value

mẹo

Liệt kê các mẫu có sẵn với ollama list . Kéo bất kỳ mô hình nào từ thư viện Ollama bằng ollama pull <model> . Ollama tự động xử lý việc giảm tải GPU — không cần cấu hình cho hầu hết các thiết lập.


vLLM — Suy luận GPU hiệu suất cao

vLLM là tiêu chuẩn để phân phát LLM sản xuất. Tốt nhất cho: thông lượng tối đa trên phần cứng GPU, phục vụ các mô hình lớn, phân khối liên tục.

pip install vllm
vllm serve meta-llama/Llama-3.1-70B-Instruct \
--port 8000 \
--max-model-len 65536 \
--tensor-parallel-size 2 \
--enable-auto-tool-choice \
--tool-call-parser hermes

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8000/v1
# Skip API key (or enter one if you configured vLLM with --api-key)
# Enter model name: meta-llama/Llama-3.1-70B-Instruct

Độ dài ngữ cảnh: vLLM đọc max_position_embeddings của mô hình theo mặc định. Nếu vượt quá bộ nhớ GPU của bạn, nó sẽ báo lỗi và yêu cầu bạn đặt --max-model-len thấp hơn. Bạn cũng có thể sử dụng --max-model-len auto để tự động tìm mức tối đa phù hợp. Đặt --gpu-memory-utilization 0.95 (mặc định 0,9) để thu thập thêm ngữ cảnh vào VRAM.

Việc gọi công cụ yêu cầu có cờ rõ ràng:

CờMục đích
--enable-auto-tool-choiceBắt buộc đối với tool_choice: "auto" (mặc định trong Hermes)
--tool-call-parser <name>Trình phân tích cú pháp cho định dạng lệnh gọi công cụ của mô hình

Các trình phân tích cú pháp được hỗ trợ: hermes (Qwen 2.5, Hermes 2/3), llama3_json (Llama 3.x), mistral , deepseek_v3 , deepseek_v31 , xlam , pythonic . Nếu không có những cờ này, lệnh gọi công cụ sẽ không hoạt động — mô hình sẽ xuất lệnh gọi công cụ dưới dạng văn bản.

mẹo

vLLM hỗ trợ các kích thước mà con người có thể đọc được: --max-model-len 64k (chữ thường k = 1000, chữ hoa K = 1024).


SGLang — Phục vụ nhanh chóng với RadixAttention

SGLang là một giải pháp thay thế cho vLLM với RadixAttention để tái sử dụng bộ đệm KV. Tốt nhất cho: cuộc hội thoại nhiều lượt (bộ nhớ đệm tiền tố), giải mã có giới hạn, đầu ra có cấu trúc.

pip install "sglang[all]"
python -m sglang.launch_server \
--model meta-llama/Llama-3.1-70B-Instruct \
--port 30000 \
--context-length 65536 \
--tp 2 \
--tool-call-parser qwen

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:30000/v1
# Enter model name: meta-llama/Llama-3.1-70B-Instruct

Độ dài ngữ cảnh: SGLang đọc từ cấu hình của mô hình theo mặc định. Sử dụng --context-length để ghi đè. Nếu bạn cần vượt quá mức tối đa đã khai báo của mô hình, hãy đặt SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 .

Gọi công cụ: Sử dụng --tool-call-parser với trình phân tích cú pháp thích hợp cho dòng mô hình của bạn: qwen (Qwen 2.5), llama3 , llama4 , deepseekv3 , mistral , glm . Nếu không có cờ này, lệnh gọi công cụ sẽ trở lại dưới dạng văn bản thuần túy.

SGLang mặc định có 128 mã thông báo đầu ra tối đa

Nếu phản hồi có vẻ bị cắt ngắn, hãy thêm max_tokens vào yêu cầu của bạn hoặc đặt --default-max-tokens trên máy chủ. Mặc định của SGLang chỉ là 128 mã thông báo cho mỗi phản hồi nếu không được chỉ định trong yêu cầu.


llama.cpp / llama-server — Suy luận CPU & kim loại

llama.cpp chạy các mô hình lượng tử hóa trên CPU, Apple Silicon (Metal) và GPU tiêu dùng. Tốt nhất cho: chạy các mô hình không có GPU trung tâm dữ liệu, người dùng Mac, triển khai biên.

# Build and start llama-server
cmake -B build && cmake --build build --config Release
./build/bin/llama-server \
--jinja -fa \
-c 32768 \
-ngl 99 \
-m models/qwen2.5-coder-32b-instruct-Q4_K_M.gguf \
--port 8080 --host 0.0.0.0

Độ dài ngữ cảnh ( -c ): Các bản dựng gần đây mặc định là 0 đọc ngữ cảnh đào tạo của mô hình từ siêu dữ liệu GGUF. Đối với các mô hình có bối cảnh đào tạo hơn 128k, điều này có thể xảy ra khi cố gắng phân bổ toàn bộ bộ nhớ đệm KV. Đặt -c một cách rõ ràng theo những gì bạn cần (32k–64k là phạm vi phù hợp để sử dụng cho tác nhân). Nếu sử dụng các vị trí song song ( -np ), tổng bối cảnh được chia cho các vị trí - với -c 32768 -np 4 , mỗi vị trí chỉ nhận được 8k.

Sau đó cấu hình Hermes để trỏ vào nó:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8080/v1
# Skip API key (local servers don't need one)
# Enter model name — or leave blank to auto-detect if only one model is loaded

Thao tác này sẽ lưu điểm cuối vào config.yaml để điểm cuối này tồn tại qua các phiên.

--jinja là cần thiết để gọi công cụ

Nếu không có --jinja , llama-server sẽ bỏ qua hoàn toàn tham số tools . Mô hình sẽ cố gắng gọi các công cụ bằng cách viết JSON trong văn bản phản hồi của nó, nhưng Hermes sẽ không nhận ra đó là lệnh gọi công cụ — bạn sẽ thấy JSON thô như {"name": "web_search", ...} được in dưới dạng tin nhắn thay vì tìm kiếm thực tế.

Hỗ trợ gọi công cụ gốc (hiệu suất tốt nhất): Llama 3.x, Qwen 2.5 (bao gồm Coder), Hermes 2/3, Mistral, DeepSeek, Functionary. Tất cả các mô hình khác đều sử dụng trình xử lý chung hoạt động nhưng có thể kém hiệu quả hơn. Xem hàm llama.cpp gọi docs để biết danh sách đầy đủ.

Bạn có thể xác minh hỗ trợ công cụ đang hoạt động bằng cách kiểm tra http://localhost:8080/props — trường chat_template phải xuất hiện.

mẹo

Tải xuống các mô hình GGUF từ Hugging Face. Lượng tử hóa Q4_K_M mang lại sự cân bằng tốt nhất giữa chất lượng và mức sử dụng bộ nhớ.


LM Studio — Ứng dụng máy tính để bàn với các mô hình cục bộLM Studio là một ứng dụng dành cho máy tính để bàn để chạy các mô hình cục bộ bằng GUI. Tốt nhất cho: người dùng thích giao diện trực quan, thử nghiệm mô hình nhanh, nhà phát triển trên macOS/Windows/Linux.

Khởi động máy chủ từ ứng dụng LM Studio (tab Nhà phát triển → Máy chủ khởi động) hoặc sử dụng CLI:

lms server start                        

# Starts on port 1234
lms load qwen2.5-coder --context-length 32768

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:1234/v1
# Skip API key (LM Studio doesn't require one)
# Enter model name

Độ dài ngữ cảnh thường được mặc định là 2048

LM Studio đọc độ dài ngữ cảnh từ siêu dữ liệu của mô hình, nhưng nhiều mô hình GGUF báo cáo giá trị mặc định thấp (2048 hoặc 4096). Luôn đặt rõ ràng độ dài ngữ cảnh trong cài đặt mô hình LM Studio:

  1. Nhấp vào biểu tượng bánh răng bên cạnh bộ chọn mô hình
  2. Đặt "Độ dài bối cảnh" ít nhất là 16384 (tốt nhất là 32768)
  3. Tải lại mô hình để thay đổi có hiệu lực

Ngoài ra, hãy sử dụng CLI: lms load model-name --context-length 32768

Để đặt các giá trị mặc định cố định cho mỗi mô hình: tab Mô hình của tôi → biểu tượng bánh răng trên mô hình → đặt kích thước ngữ cảnh.

Gọi công cụ: Được hỗ trợ kể từ LM Studio 0.3.6. Các mô hình được đào tạo gọi công cụ gốc (Qwen 2.5, Llama 3.x, Mistral, Hermes) được tự động phát hiện và hiển thị cùng với huy hiệu công cụ. Các mô hình khác sử dụng một dự phòng chung có thể kém tin cậy hơn.


Mạng WSL2 (Người dùng Windows)

Vì Hermes Agent yêu cầu môi trường Unix nên người dùng Windows sẽ chạy nó bên trong WSL2. Nếu máy chủ mô hình của bạn (Ollama, LM Studio, v.v.) chạy trên máy chủ Windows, thì bạn cần thu hẹp khoảng cách mạng — WSL2 sử dụng bộ điều hợp mạng ảo với mạng con riêng của nó, vì vậy localhost bên trong WSL2 đề cập đến máy ảo Linux, không máy chủ Windows.

Cả hai trong WSL2? Không có gì.

Nếu máy chủ mô hình của bạn cũng chạy bên trong WSL2 (phổ biến cho vLLM, SGLang và llama-server), localhost hoạt động như mong đợi — chúng chia sẻ cùng một không gian tên mạng. Bỏ qua phần này.

Tùy chọn 1: Chế độ kết nối mạng được nhân đôi (Được khuyến nghị)

Có sẵn trên Windows 11 22H2+, chế độ phản chiếu giúp localhost hoạt động hai chiều giữa Windows và WSL2 — cách khắc phục đơn giản nhất.

  1. Tạo hoặc chỉnh sửa %USERPROFILE%\.wslconfig (ví dụ: C:\Users\YourName\.wslconfig ):
   [wsl2]
networkingMode=mirrored

  1. Khởi động lại WSL từ PowerShell:
   wsl --shutdown

  1. Mở lại terminal WSL2 của bạn. localhost hiện đã có mặt trên các dịch vụ Windows:
   curl http://localhost:11434/v1/models   

# Ollama on Windows — works

Tường lửa Hyper-V

Trên một số bản dựng Windows 11, tường lửa Hyper-V chặn các kết nối được nhân đôi theo mặc định. Nếu localhost vẫn không hoạt động sau khi bật chế độ phản chiếu, hãy chạy chế độ này trong PowerShell quản trị:

Set-NetFirewallHyperVVMSetting -Name '{40E0AC32-46A5-438A-A0B2-2B479E8F2E90}' -DefaultInboundAction Allow

Tùy chọn 2: Sử dụng IP máy chủ Windows (Windows 10 / bản dựng cũ hơn)

Nếu bạn không thể sử dụng chế độ phản chiếu, hãy tìm IP máy chủ Windows từ bên trong WSL2 và sử dụng IP đó thay vì localhost :

# Get the Windows host IP (the default gateway of WSL2's virtual network)
ip route show | grep -i default | awk '{ print $3 }'
# Example output: 172.29.192.1

Sử dụng IP đó trong cấu hình Hermes của bạn:

model:
default: qwen2.5-coder:32b
provider: custom
base_url: http://172.29.192.1:11434/v1

# Windows host IP, not localhost

Trình trợ giúp động

IP máy chủ có thể thay đổi khi khởi động lại WSL2. Bạn có thể lấy nó một cách linh hoạt trong Shell của mình:

export WSL_HOST=$(ip route show | grep -i default | awk '{ print $3 }')
echo "Windows host at: $WSL_HOST"
curl http://$WSL_HOST:11434/v1/models

# Test Ollama

Hoặc sử dụng tên mDNS của máy bạn (yêu cầu libnss-mdns trong WSL2):

sudo apt install libnss-mdns
curl http://$(hostname).local:11434/v1/models

Địa chỉ liên kết máy chủ (Bắt buộc đối với chế độ NAT)Nếu bạn đang sử dụng Tùy chọn 2 (chế độ NAT với IP máy chủ), máy chủ mẫu trên Windows phải chấp nhận kết nối từ bên ngoài 127.0.0.1 . Theo mặc định, hầu hết các máy chủ chỉ nghe trên localhost - các kết nối WSL2 ở chế độ NAT đến từ một mạng con ảo khác và sẽ bị từ chối. Ở chế độ phản chiếu, localhost ánh xạ trực tiếp để liên kết 127.0.0.1 mặc định hoạt động tốt.

Máy chủLiên kết mặc địnhCách khắc phục
Ollama127.0.0.1Đặt biến môi trường OLLAMA_HOST=0.0.0.0 trước khi khởi động Ollama (Cài đặt hệ thống → Biến môi trường trên Windows hoặc chỉnh sửa dịch vụ Ollama)
LM Studio127.0.0.1Bật "Phục vụ trên mạng" trong tab Nhà phát triển → Cài đặt máy chủ
máy chủ llama127.0.0.1Thêm --host 0.0.0.0 vào lệnh khởi động
vLLM0.0.0.0Đã liên kết với tất cả các giao diện theo mặc định
SGLang127.0.0.1Thêm --host 0.0.0.0 vào lệnh khởi động

Ollama trên Windows (chi tiết): Ollama chạy dưới dạng dịch vụ Windows. Để đặt OLLAMA_HOST :

  1. Mở Thuộc tính hệ thốngBiến môi trường
  2. Thêm Biến hệ thống mới: OLLAMA_HOST = 0.0.0.0
  3. Khởi động lại dịch vụ Ollama (hoặc khởi động lại)

Tường lửa của Windows

Tường lửa Windows coi WSL2 như một mạng riêng biệt (ở cả chế độ NAT và chế độ phản chiếu). Nếu kết nối vẫn không thành công sau các bước trên, hãy thêm quy tắc tường lửa cho cổng máy chủ mô hình của bạn:

# Run in Admin PowerShell — replace PORT with your server's port
New-NetFirewallRule -DisplayName "Allow WSL2 to Model Server" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 11434

Các cổng phổ biến: Ollama 11434 , vLLM 8000 , SGLang 30000 , llama-server 8080 , LM Studio 1234 .

Xác minh nhanh

Từ bên trong WSL2, hãy kiểm tra xem bạn có thể truy cập máy chủ mô hình của mình không:

# Replace URL with your server's address and port
curl http://localhost:11434/v1/models

# Mirrored mode
curl http://172.29.192.1:11434/v1/models

# NAT mode (use your actual host IP)

Nếu bạn nhận được phản hồi JSON liệt kê các mô hình của mình thì bạn vẫn ổn. Sử dụng cùng URL đó với base_url trong cấu hình Hermes của bạn.


Khắc phục sự cố với các mô hình cục bộ

Những sự cố này ảnh hưởng đến tất cả máy chủ suy luận cục bộ khi sử dụng với Hermes.

"Kết nối bị từ chối" từ WSL2 đến máy chủ mô hình được lưu trữ trên máy chủ Windows

Nếu bạn đang chạy Hermes bên trong WSL2 và máy chủ mẫu của bạn trên máy chủ Windows, http://localhost:<port> sẽ không hoạt động ở chế độ mạng NAT mặc định của WSL2. Xem Mạng WSL2 ở trên để biết cách khắc phục.

Lệnh gọi công cụ xuất hiện dưới dạng văn bản thay vì thực thi

Mô hình xuất ra nội dung giống như {"name": "web_search", "arguments": {...}} dưới dạng thông báo thay vì thực sự gọi công cụ.

Lý do: Máy chủ của bạn chưa bật tính năng gọi công cụ hoặc mô hình không hỗ trợ tính năng này thông qua việc triển khai gọi công cụ của máy chủ.

Máy chủSửa chữa
llama.cppThêm --jinja vào lệnh khởi động
vLLMThêm --enable-auto-tool-choice --tool-call-parser hermes
SGLangThêm --tool-call-parser qwen (hoặc trình phân tích cú pháp thích hợp)
OllamaGọi công cụ được bật theo mặc định - đảm bảo mô hình của bạn hỗ trợ nó (kiểm tra với ollama show model-name )
LM StudioCập nhật lên 0.3.6+ và sử dụng mô hình có hỗ trợ công cụ gốc

Mô hình dường như quên ngữ cảnh hoặc đưa ra phản hồi không mạch lạcNguyên nhân: Cửa sổ ngữ cảnh quá nhỏ. Khi cuộc trò chuyện vượt quá giới hạn ngữ cảnh, hầu hết các máy chủ sẽ âm thầm loại bỏ các tin nhắn cũ hơn. Chỉ riêng lược đồ công cụ + lời nhắc hệ thống của Hermes có thể sử dụng mã thông báo 4k–8k.

Chẩn đoán:

# Check what Hermes thinks the context is
# Look at startup line: "Context limit: X tokens"

# Check your server's actual context
# Ollama: ollama ps (CONTEXT column)
# llama.cpp: curl http://localhost:8080/props | jq '.default_generation_settings.n_ctx'
# vLLM: check --max-model-len in startup args

Khắc phục: Đặt ngữ cảnh thành ít nhất 32.768 mã thông báo để sử dụng cho tác nhân. Xem phần của từng máy chủ ở trên để biết cờ cụ thể.

"Giới hạn bối cảnh: 2048 mã thông báo" khi khởi động

Hermes tự động phát hiện độ dài ngữ cảnh từ điểm cuối /v1/models trên máy chủ của bạn. Nếu máy chủ báo cáo giá trị thấp (hoặc hoàn toàn không báo cáo), Hermes sử dụng giới hạn đã khai báo của mô hình và điều này có thể sai.

Khắc phục: Đặt rõ ràng trong config.yaml :

model:
default: your-model
provider: custom
base_url: http://localhost:11434/v1
context_length: 32768

Câu trả lời bị cắt giữa câu

Nguyên nhân có thể:

  1. Thấp max_tokens trên máy chủ — SGLang mặc định có 128 mã thông báo cho mỗi phản hồi. Đặt --default-max-tokens trên máy chủ hoặc định cấu hình Hermes bằng model.max_tokens trong config.yaml.
  2. Cạn kiệt bối cảnh — Mô hình đã lấp đầy cửa sổ ngữ cảnh của nó. Tăng độ dài ngữ cảnh hoặc bật nén ngữ cảnh trong Hermes.

Proxy LiteLLM — Cổng đa nhà cung cấp

LiteLLM là một proxy tương thích với OpenAI, hợp nhất hơn 100 nhà cung cấp LLM sau một API duy nhất. Tốt nhất cho: chuyển đổi giữa các nhà cung cấp mà không cần thay đổi cấu hình, cân bằng tải, chuỗi dự phòng, kiểm soát ngân sách.

# Install and start
pip install "litellm[proxy]"
litellm --model anthropic/claude-sonnet-4 --port 4000

# Or with a config file for multiple models:
litellm --config litellm_config.yaml --port 4000

Sau đó định cấu hình Hermes với hermes model → Custom Endpoint → http://localhost:4000/v1 .

Ví dụ litellm_config.yaml với dự phòng:

model_list:
- model_name: "best"
litellm_params:
model: anthropic/claude-sonnet-4
api_key: sk-ant-...
- model_name: "best"
litellm_params:
model: openai/gpt-4o
api_key: sk-...
router_settings:
routing_strategy: "latency-based-routing"


ClawRouter — Định tuyến được tối ưu hóa chi phí

ClawRouter của BlockRunAI là proxy định tuyến cục bộ tự động chọn các mô hình dựa trên độ phức tạp của truy vấn. Nó phân loại các yêu cầu trên 14 chiều và định tuyến đến mô hình rẻ nhất có thể xử lý nhiệm vụ. Thanh toán thông qua tiền điện tử USDC (không có khóa API).

# Install and start
npx @blockrun/clawrouter

# Starts on port 8402

Sau đó định cấu hình Hermes với hermes model → Custom Endpoint → http://localhost:8402/v1 → tên mẫu blockrun/auto .

Hồ sơ định tuyến:

Hồ sơChiến lượcTiết kiệm
blockrun/autoCân bằng chất lượng/chi phí74-100%
blockrun/ecoRẻ nhất có thể95-100%
blockrun/premiumMẫu mã chất lượng tốt nhất0%
blockrun/freeChỉ các mẫu miễn phí100%
blockrun/agenticTối ưu hóa để sử dụng công cụkhác nhau
ghi chú

ClawRouter yêu cầu ví được USDC tài trợ trên Base hoặc Solana để thanh toán. Tất cả các yêu cầu đều được định tuyến thông qua API phụ trợ của BlockRun. Chạy npx @blockrun/clawrouter doctor để kiểm tra trạng thái ví.


Nhà cung cấp tương thích khác

Bất kỳ dịch vụ nào có API tương thích với OpenAI đều hoạt động. Một số lựa chọn phổ biến:| Nhà cung cấp | URL cơ sở | Ghi chú | |----------|----------|-------| | Cùng nhau AI | https://api.together.xyz/v1 | Các mô hình mở được lưu trữ trên đám mây | | Groq | https://api.groq.com/openai/v1 | Suy luận cực nhanh | | DeepSeek | https://api.deepseek.com/v1 | Mô hình DeepSeek | | Pháo hoa AI | https://api.fireworks.ai/inference/v1 | Lưu trữ mô hình mở nhanh | | Não | https://api.cerebras.ai/v1 | Suy luận chip quy mô wafer | | Mistral AI | https://api.mistral.ai/v1 | Mô hình Mistral | | OpenAI | https://api.openai.com/v1 | Truy cập OpenAI trực tiếp | | Azure OpenAI | https://YOUR.openai.azure.com/ | Doanh nghiệp OpenAI | | LocalAI | http://localhost:8080/v1 | Tự lưu trữ, đa mô hình | | Tháng 1 | http://localhost:1337/v1 | Ứng dụng dành cho máy tính để bàn với các mô hình cục bộ |

Định cấu hình bất kỳ thứ nào trong số này bằng hermes model → Custom Endpoint hoặc trong config.yaml :

model:
default: meta-llama/Llama-3.1-70B-Instruct-Turbo
provider: custom
base_url: https://api.together.xyz/v1
api_key: your-together-key


Phát hiện độ dài ngữ cảnh

Hermes sử dụng chuỗi phân giải đa nguồn để phát hiện cửa sổ ngữ cảnh chính xác cho kiểu máy và nhà cung cấp của bạn:

  1. Ghi đè cấu hìnhmodel.context_length trong config.yaml (mức độ ưu tiên cao nhất)
  2. Nhà cung cấp tùy chỉnh cho mỗi mô hìnhcustom_providers[].models.<id>.context_length
  3. Bộ đệm liên tục — các giá trị được phát hiện trước đó (tồn tại khi khởi động lại)
  4. **Điểm cuối /models ** — truy vấn API máy chủ của bạn (điểm cuối cục bộ/tùy chỉnh)
  5. **Anthropic /v1/models ** — truy vấn API của Anthropic cho max_input_tokens (chỉ dành cho người dùng khóa API)
  6. OpenRouter API — siêu dữ liệu mô hình trực tiếp từ OpenRouter
  7. Nous Portal — khớp hậu tố ID mô hình Nous với siêu dữ liệu OpenRouter
  8. models.dev — sổ đăng ký do cộng đồng duy trì với độ dài ngữ cảnh dành riêng cho nhà cung cấp cho hơn 3800 mô hình trên hơn 100 nhà cung cấp
  9. Mặc định dự phòng — các mẫu họ mô hình rộng (mặc định 128K)

Đối với hầu hết các thiết lập, điều này hoạt động tốt. Hệ thống nhận biết nhà cung cấp — cùng một mô hình có thể có các giới hạn ngữ cảnh khác nhau tùy thuộc vào người phục vụ nó (ví dụ: claude-opus-4.6 là 1M trên Anthropic direct nhưng 128K trên GitHub Copilot).

Để đặt độ dài ngữ cảnh một cách rõ ràng, hãy thêm context_length vào cấu hình mô hình của bạn:

model:
default: "qwen3.5:9b"
base_url: "http://localhost:8080/v1"
context_length: 131072

# tokens

Đối với điểm cuối tùy chỉnh, bạn cũng có thể đặt độ dài ngữ cảnh cho mỗi mô hình:

custom_providers:
- name: "My Local LLM"
base_url: "http://localhost:11434/v1"
models:
qwen3.5:27b:
context_length: 32768
deepseek-r1:70b:
context_length: 65536

hermes model sẽ nhắc về độ dài ngữ cảnh khi định cấu hình điểm cuối tùy chỉnh. Để trống để tự động phát hiện.

Khi nào cần thiết lập thủ công
  • Bạn đang sử dụng Ollama với num_ctx tùy chỉnh thấp hơn mức tối đa của mô hình
  • Bạn muốn giới hạn ngữ cảnh dưới mức tối đa của mô hình (ví dụ: 8k trên mô hình 128k để tiết kiệm VRAM)
  • Bạn đang chạy đằng sau một proxy không hiển thị /v1/models

Nhà cung cấp tùy chỉnh được đặt tên

Nếu bạn làm việc với nhiều điểm cuối tùy chỉnh (ví dụ: máy chủ nhà phát triển cục bộ và máy chủ GPU từ xa), bạn có thể xác định chúng là nhà cung cấp tùy chỉnh được đặt tên trong config.yaml :

custom_providers:
- name: local
base_url: http://localhost:8080/v1


# api_key omitted — Hermes uses "no-key-required" for keyless local servers
- name: work
base_url: https://gpu-server.internal.corp/v1
api_key: corp-api-key
api_mode: chat_completions

# optional, auto-detected from URL
- name: anthropic-proxy
base_url: https://proxy.example.com/anthropic
api_key: proxy-key
api_mode: anthropic_messages

# for Anthropic-compatible proxies

Chuyển đổi giữa chúng giữa phiên bằng cú pháp ba:

/model custom:local:qwen-2.5       

# Use the "local" endpoint with qwen-2.5
/model custom:work:llama3-70b

# Use the "work" endpoint with llama3-70b
/model custom:anthropic-proxy:claude-sonnet-4

# Use the proxy

Bạn cũng có thể chọn nhà cung cấp tùy chỉnh có tên từ menu hermes model tương tác.


Chọn cài đặt phù hợp

Trường hợp sử dụngĐược đề xuất
Chỉ muốn nó hoạt độngOpenRouter (mặc định) hoặc Nous Portal
Mô hình địa phương, thiết lập dễ dàngOlama
Phục vụ GPU sản xuấtvLLM hoặc SGLang
Mac / không có GPUOllama hoặc llama.cpp
Định tuyến nhiều nhà cung cấpLiteLLM Proxy hoặc OpenRouter
Tối ưu hóa chi phíClawRouter hoặc OpenRouter với sort: "price"
Quyền riêng tư tối đaOllama, vLLM hoặc llama.cpp (hoàn toàn cục bộ)
Doanh nghiệp / AzureAzure OpenAI với điểm cuối tùy chỉnh
Mô hình AI Trung Quốcz.ai (GLM), Kimi/Moonshot hoặc MiniMax (nhà cung cấp hạng nhất)
mẹo

Bạn có thể chuyển đổi giữa các nhà cung cấp bất kỳ lúc nào bằng hermes model — không cần khởi động lại. Lịch sử trò chuyện, trí nhớ và kỹ năng của bạn sẽ được lưu giữ bất kể bạn sử dụng nhà cung cấp nào.

Khóa API tùy chọn

Tính năngNhà cung cấpBiến Env
Quét webFirecrawlFIRECRAWL_API_KEY , FIRECRAWL_API_URL
Tự động hóa trình duyệtCơ sở trình duyệtBROWSERBASE_API_KEY , BROWSERBASE_PROJECT_ID
Tạo hình ảnhFALFAL_KEY
Giọng nói TTS cao cấpElevenLabsELEVENLABS_API_KEY
OpenAI TTS + phiên âm giọng nóiOpenAIVOICE_TOOLS_OPENAI_KEY
Đào tạo RLTinker + WandBTINKER_API_KEY , WANDB_API_KEY
Lập mô hình người dùng giữa các phiênHonchoHONCHO_API_KEY
Trí nhớ dài hạn ngữ nghĩaSiêu bộ nhớSUPERMEMORY_API_KEY

Firecrawl tự lưu trữ

Theo mặc định, Hermes sử dụng API đám mây Firecrawl để tìm kiếm và thu thập thông tin trên web. Nếu muốn chạy Firecrawl cục bộ, bạn có thể trỏ Hermes vào một phiên bản tự lưu trữ. Xem SELF_HOST.md của Firecrawl để biết hướng dẫn thiết lập đầy đủ.

Những gì bạn nhận được: Không cần khóa API, không giới hạn tốc độ, không tính phí mỗi trang, toàn quyền về dữ liệu.

Bạn mất gì: Phiên bản đám mây sử dụng "Fire-engine" độc quyền của Firecrawl để vượt qua chương trình chống bot nâng cao (Cloudflare, CAPTCHA, xoay vòng IP). Tự lưu trữ sử dụng tìm nạp cơ bản + Nhà viết kịch, vì vậy một số trang web được bảo vệ có thể không thành công. Tìm kiếm sử dụng DuckDuckGo thay vì Google.

Cài đặt:

  1. Sao chép và khởi động ngăn xếp Firecrawl Docker (5 bộ chứa: API, Playwright, Redis, RabbitMQ, PostgreSQL — yêu cầu RAM ~4-8 GB):
   git clone https://github.com/firecrawl/firecrawl
cd firecrawl


# In .env, set: USE_DB_AUTHENTICATION=false, HOST=0.0.0.0, PORT=3002
docker compose up -d

  1. Trỏ Hermes vào phiên bản của bạn (không cần khóa API):
   hermes config set FIRECRAWL_API_URL http://localhost:3002

Bạn cũng có thể đặt cả FIRECRAWL_API_KEYFIRECRAWL_API_URL nếu phiên bản tự lưu trữ của bạn đã bật xác thực.

Định tuyến nhà cung cấp OpenRouter

Khi sử dụng OpenRouter, bạn có thể kiểm soát cách định tuyến các yêu cầu giữa các nhà cung cấp. Thêm phần provider_routing vào ~/.hermes/config.yaml :

provider_routing:
sort: "throughput"

# "price" (default), "throughput", or "latency"


# only: ["anthropic"]

# Only use these providers


# ignore: ["deepinfra"]

# Skip these providers


# order: ["anthropic", "google"]

# Try providers in this order


# require_parameters: true

# Only use providers that support all request params


# data_collection: "deny"

# Exclude providers that may store/train on data

Phím tắt: Thêm :nitro vào bất kỳ tên mẫu máy nào để sắp xếp thông lượng (ví dụ: anthropic/claude-sonnet-4:nitro ) hoặc :floor để sắp xếp giá.

Mô hình dự phòng

Định cấu hình nhà cung cấp dự phòng:mô hình mà Hermes tự động chuyển sang khi mô hình chính của bạn bị lỗi (giới hạn tốc độ, lỗi máy chủ, lỗi xác thực):

fallback_model:
provider: openrouter

# required
model: anthropic/claude-sonnet-4

# required


# base_url: http://localhost:8000/v1

# optional, for custom endpoints


# api_key_env: MY_CUSTOM_KEY

# optional, env var name for custom endpoint API key

Khi được kích hoạt, dự phòng sẽ hoán đổi mô hình và nhà cung cấp giữa phiên mà không làm mất cuộc trò chuyện của bạn. Nó kích hoạt nhiều nhất một lần mỗi phiên.

Các nhà cung cấp được hỗ trợ: openrouter , nous , openai-codex , copilot , copilot-acp , anthropic , huggingface , zai , kimi-coding , minimax , minimax-cn , deepseek , ai-gateway , opencode-zen , opencode-go , kilocode , alibaba , custom .

mẹo

Dự phòng được định cấu hình riêng thông qua config.yaml — không có biến môi trường nào cho nó. Để biết thông tin chi tiết đầy đủ về thời điểm kích hoạt, nhà cung cấp được hỗ trợ cũng như cách nó tương tác với các nhiệm vụ phụ trợ và ủy quyền, hãy xem Nhà cung cấp dự phòng.

Định tuyến mô hình thông minh

Định tuyến rẻ-so-mạnh tùy chọn cho phép Hermes giữ mô hình chính của bạn cho công việc phức tạp trong khi gửi các vòng quay rất ngắn/đơn giản đến mô hình rẻ hơn.

smart_model_routing:
enabled: true
max_simple_chars: 160
max_simple_words: 28
cheap_model:
provider: openrouter
model: google/gemini-2.5-flash


# base_url: http://localhost:8000/v1

# optional custom endpoint


# api_key_env: MY_CUSTOM_KEY

# optional env var name for that endpoint's API key

Nó hoạt động như thế nào:

  • Nếu một lượt ngắn, một dòng và không có vẻ nặng nề về mã/công cụ/gỡ lỗi, Hermes có thể định tuyến nó tới cheap_model
  • Nếu ngã rẽ có vẻ phức tạp, Hermes sẽ tiếp tục sử dụng mô hình/nhà cung cấp chính của bạn
  • Nếu tuyến đường giá rẻ không thể được giải quyết rõ ràng, Hermes sẽ tự động quay trở lại mẫu chính

Đây là cố ý bảo thủ. Nó dành cho những lượt quay nhanh, ít rủi ro như:

  • câu hỏi thực tế ngắn
  • viết lại nhanh
  • tóm tắt nhẹ

Nó sẽ tránh các lời nhắc định tuyến giống như:

  • công việc mã hóa/gỡ lỗi
  • yêu cầu nặng về công cụ
  • yêu cầu phân tích dài hoặc nhiều dòng

Sử dụng tính năng này khi bạn muốn độ trễ hoặc chi phí thấp hơn mà không cần thay đổi hoàn toàn mô hình mặc định của mình.


Xem thêm

  • Cấu hình — Cấu hình chung (cấu trúc thư mục, mức độ ưu tiên của cấu hình, phụ trợ đầu cuối, bộ nhớ, nén, v.v.)
  • Biến môi trường - Tham chiếu đầy đủ tất cả các biến môi trường