Nhà cung cấp AI

Trang này đề cập đến việc thiết lập nhà cung cấp suy luận cho Hermes Agent — từ các API đám mây như OpenRouter và Anthropic, đến các điểm cuối tự lưu trữ như Ollama và vLLM, cho đến các cấu hình dự phòng và định tuyến nâng cao. Bạn cần ít nhất một nhà cung cấp được định cấu hình để sử dụng Hermes.

Nhà cung cấp suy luận

Bạn cần ít nhất một cách để kết nối với LLM. Sử dụng hermes model để chuyển đổi nhà cung cấp và mô hình một cách tương tác hoặc định cấu hình trực tiếp:

Nhà cung cấp	Thiết lập
Nous Portal	`hermes model` (OAuth, dựa trên đăng ký)
OpenAI Codex	`hermes model` (ChatGPT OAuth, sử dụng mô hình Codex)
GitHub Copilot	`hermes model` (Luồng mã thiết bị OAuth, `COPILOT_GITHUB_TOKEN` , `GH_TOKEN` hoặc `gh auth token` )
GitHub Copilot ACP	`hermes model` (sinh ra cục bộ `copilot --acp --stdio` )
Anthropic	`hermes model` (Claude Pro/Max thông qua xác thực Claude Code, khóa API Anthropic hoặc mã thông báo thiết lập thủ công)
OpenRouter	`OPENROUTER_API_KEY` trong `~/.hermes/.env`
Cổng AI	`AI_GATEWAY_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `ai-gateway` )
z.ai / GLM	`GLM_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `zai` )
Kimi / Moonshot	`KIMI_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `kimi-coding` )
MiniMax	`MINIMAX_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `minimax` )
MiniMax China	`MINIMAX_CN_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `minimax-cn` )
Alibaba Cloud	`DASHSCOPE_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `alibaba` , bí danh: `dashscope` , `qwen` )
KiloCode	`KILOCODE_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `kilocode` )
OpenCode Zen	`OPENCODE_ZEN_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `opencode-zen` )
OpenCode Go	`OPENCODE_GO_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `opencode-go` )
DeepSeek	`DEEPSEEK_API_KEY` trong `~/.hermes/.env` (nhà cung cấp: `deepseek` )
Hugging Face	`HF_TOKEN` trong `~/.hermes/.env` (nhà cung cấp: `huggingface` , bí danh: `hf` )
Google / Song Tử	`GOOGLE_API_KEY` (hoặc `GEMINI_API_KEY` ) trong `~/.hermes/.env` (nhà cung cấp: `gemini` )
Custom Endpoint	`hermes model` → chọn "Custom Endpoint" (được lưu trong `config.yaml` )

Bí danh khóa mẫu

Trong phần cấu hình model:, bạn có thể sử dụng default: hoặc model: làm tên khóa cho ID mẫu máy của mình. Cả model: { default: my-model } và model: { model: my-model } đều hoạt động giống nhau.

Codex Lưu ý

Nhà cung cấp OpenAI Codex xác thực thông qua mã thiết bị (mở URL, nhập mã). Hermes lưu trữ thông tin xác thực thu được trong cửa hàng xác thực của riêng mình theo ~/.hermes/auth.json và có thể nhập thông tin xác thực Codex CLI hiện có từ ~/.codex/auth.json khi có. Không cần cài đặt Codex CLI.

cảnh báo

Ngay cả khi sử dụng Nous Portal, Codex hoặc điểm cuối tùy chỉnh, một số công cụ (tầm nhìn, tóm tắt web, MoA) vẫn sử dụng mô hình "phụ trợ" riêng biệt — theo mặc định là Gemini Flash thông qua OpenRouter. OPENROUTER_API_KEY tự động bật các công cụ này. Bạn cũng có thể định cấu hình mô hình và nhà cung cấp mà các công cụ này sử dụng - xem Mô hình phụ trợ.

Nhân chủng học (Bản địa)

Sử dụng trực tiếp các mô hình Claude thông qua API Anthropic - không cần proxy OpenRouter. Hỗ trợ ba phương thức xác thực:

# With an API key (pay-per-token)
export ANTHROPIC_API_KEY=***
hermes chat --provider anthropic --model claude-sonnet-4-6

# Preferred: authenticate through `hermes model`
# Hermes will use Claude Code's credential store directly when available
hermes model

# Manual override with a setup-token (fallback / legacy)
export ANTHROPIC_TOKEN=***  

# setup-token or manual OAuth token
hermes chat --provider anthropic

# Auto-detect Claude Code credentials (if you already use Claude Code)
hermes chat --provider anthropic  

# reads Claude Code credential files automatically

Khi bạn chọn Anthropic OAuth thông qua hermes model , Hermes ưu tiên kho thông tin xác thực của Claude Code hơn là sao chép mã thông báo vào ~/.hermes/.env . Điều đó giúp thông tin đăng nhập Claude có thể làm mới được luôn được làm mới.

Hoặc đặt nó vĩnh viễn:

model:
  provider: "anthropic"
  default: "claude-sonnet-4-6"

Bí danh

--provider claude và --provider claude-code cũng hoạt động như cách viết tắt của --provider anthropic .

GitHub Copilot

Hermes hỗ trợ GitHub Copilot với tư cách là nhà cung cấp hạng nhất với hai chế độ:

** copilot — API điều khiển trực tiếp** (được khuyến nghị). Sử dụng đăng ký GitHub Copilot của bạn để truy cập GPT-5.x, Claude, Gemini và các mô hình khác thông qua API Copilot.

hermes chat --provider copilot --model gpt-5.4

Tùy chọn xác thực (được chọn theo thứ tự này):

Biến môi trường COPILOT_GITHUB_TOKEN
Biến môi trường GH_TOKEN
Biến môi trường GITHUB_TOKEN
Dự phòng gh auth token CLI

Nếu không tìm thấy mã thông báo nào, hermes model sẽ cung cấp đăng nhập mã thiết bị OAuth — cùng một quy trình được sử dụng bởi Copilot CLI và mã mở.

:::Các loại mã thông báo cảnh báo API Copilot không hỗ trợ Mã thông báo truy cập cá nhân cổ điển ( ghp_* ). Các loại mã thông báo được hỗ trợ:

Loại	Tiền tố	Làm thế nào để có được
Mã thông báo OAuth	`gho_`	`hermes model` → GitHub Copilot → Đăng nhập bằng GitHub
PAT hạt mịn	`github_pat_`	Cài đặt GitHub → Cài đặt dành cho nhà phát triển → Mã thông báo chi tiết (cần quyền Yêu cầu phi công phụ)
Mã thông báo ứng dụng GitHub	`ghu_`	Thông qua cài đặt ứng dụng GitHub

Nếu gh auth token của bạn trả về mã thông báo ghp_*, thay vào đó hãy sử dụng hermes model để xác thực qua OAuth.

:::

Định tuyến API: Các mẫu GPT-5+ (ngoại trừ gpt-5-mini ) tự động sử dụng API phản hồi. Tất cả các kiểu máy khác (GPT-4o, Claude, Gemini, v.v.) đều sử dụng tính năng Hoàn thành trò chuyện. Các mô hình được tự động phát hiện từ danh mục Copilot trực tiếp.

** copilot-acp — Phần phụ trợ tác nhân ACP của Copilot**. Sinh ra CLI Copilot cục bộ dưới dạng một quy trình con:

hermes chat --provider copilot-acp --model copilot-acp
# Requires the GitHub Copilot CLI in PATH and an existing `copilot login` session

Cấu hình cố định:

model:
  provider: "copilot"
  default: "gpt-5.4"

Biến môi trường	Mô tả
`COPILOT_GITHUB_TOKEN`	Mã thông báo GitHub cho API Copilot (ưu tiên hàng đầu)
`HERMES_COPILOT_ACP_COMMAND`	Ghi đè đường dẫn nhị phân Copilot CLI (mặc định: `copilot` )
`HERMES_COPILOT_ACP_ARGS`	Ghi đè đối số ACP (mặc định: `--acp --stdio` )

Nhà cung cấp AI Trung Quốc hạng nhất

Các nhà cung cấp này có hỗ trợ tích hợp với ID nhà cung cấp chuyên dụng. Đặt khóa API và sử dụng --provider để chọn:

# z.ai / ZhipuAI GLM
hermes chat --provider zai --model glm-5
# Requires: GLM_API_KEY in ~/.hermes/.env

# Kimi / Moonshot AI (international: api.moonshot.ai)
hermes chat --provider kimi-coding --model kimi-for-coding
# Requires: KIMI_API_KEY in ~/.hermes/.env

# Kimi / Moonshot AI (China: api.moonshot.cn)
hermes chat --provider kimi-coding-cn --model kimi-k2.5
# Requires: KIMI_CN_API_KEY in ~/.hermes/.env

# Kimi / Moonshot AI (China: api.moonshot.cn)
hermes chat --provider kimi-coding-cn --model kimi-k2.5
# Requires: KIMI_CN_API_KEY in ~/.hermes/.env

# MiniMax (global endpoint)
hermes chat --provider minimax --model MiniMax-M2.7
# Requires: MINIMAX_API_KEY in ~/.hermes/.env

# MiniMax (China endpoint)
hermes chat --provider minimax-cn --model MiniMax-M2.7
# Requires: MINIMAX_CN_API_KEY in ~/.hermes/.env

# Alibaba Cloud / DashScope (Qwen models)
hermes chat --provider alibaba --model qwen3.5-plus
# Requires: DASHSCOPE_API_KEY in ~/.hermes/.env

Hoặc đặt nhà cung cấp vĩnh viễn trong config.yaml :

model:
  provider: "zai"       

# or: kimi-coding, minimax, minimax-cn, alibaba
  default: "glm-5"

URL cơ sở có thể được ghi đè bằng các biến môi trường GLM_BASE_URL , KIMI_BASE_URL , MINIMAX_BASE_URL , MINIMAX_CN_BASE_URL hoặc DASHSCOPE_BASE_URL .

Tự động phát hiện điểm cuối Z.AI

Khi sử dụng nhà cung cấp Z.AI / GLM, Hermes tự động thăm dò nhiều điểm cuối (toàn cầu, Trung Quốc, các biến thể mã hóa) để tìm ra điểm cuối chấp nhận khóa API của bạn. Bạn không cần đặt GLM_BASE_URL theo cách thủ công — điểm cuối hoạt động được tự động phát hiện và lưu vào bộ nhớ đệm.

xAI (Grok) — API Phản hồi + Bộ nhớ đệm nhắc nhở (Prompt Caching)

xAI được kết nối thông qua API Phản hồi (transport codex_responses) để hỗ trợ suy luận tự động trên các mô hình Grok 4 — không cần tham số reasoning_effort, máy chủ mặc định sẽ tự suy luận. Cài đặt XAI_API_KEY trong ~/.hermes/.env và chọn xAI trong hermes model, hoặc gõ nhanh grok vào /model grok-4-1-fast-reasoning.

Khi sử dụng xAI làm nhà cung cấp (bất kỳ URL cơ sở nào chứa x.ai ), Hermes sẽ tự động kích hoạt bộ nhớ đệm nhanh chóng bằng cách gửi tiêu đề x-grok-conv-id với mọi yêu cầu API. Điều này định tuyến các yêu cầu đến cùng một máy chủ trong phiên hội thoại, cho phép cơ sở hạ tầng của xAI sử dụng lại lời nhắc hệ thống và lịch sử hội thoại đã lưu trong bộ nhớ đệm.

Không cần cấu hình — bộ nhớ đệm sẽ tự động kích hoạt khi phát hiện điểm cuối xAI và có ID phiên. Điều này giúp giảm độ trễ và chi phí cho các cuộc hội thoại nhiều lượt.

xAI cũng cung cấp một điểm cuối TTS chuyên dụng (/v1/tts). Chọn xAI TTS trong hermes tools → Voice & TTS, hoặc xem trang Voice & TTS để biết cấu hình.

Ollama Cloud — Mô hình Ollama được quản lý, OAuth + Khóa API

Ollama Cloud lưu trữ cùng danh mục mô hình mã nguồn mở như Ollama cục bộ nhưng không yêu cầu GPU. Chọn nó trong hermes model là Ollama Cloud, dán khóa API của bạn từ ollama.com/settings/keys, và Hermes sẽ tự động phát hiện các mô hình có sẵn.

hermes model
# → chọn "Ollama Cloud"
# → dán OLLAMA_API_KEY của bạn
# → chọn từ các mô hình được phát hiện (gpt-oss:120b, glm-4.6:cloud, qwen3-coder:480b-cloud, v.v.)

Hoặc trong config.yaml trực tiếp:

model:
  provider: "ollama-cloud"
  default: "gpt-oss:120b"

Danh mục mô hình được nạp động từ ollama.com/v1/models và lưu trữ trong một giờ. Ký hiệu model:tag (ví dụ: qwen3-coder:480b-cloud) được giữ nguyên qua chuẩn hóa — đừng sử dụng dấu gạch ngang.

Ollama Cloud vs Ollama cục bộ

Cả hai đều sử dụng cùng một API tương thích với OpenAI. Cloud là nhà cung cấp hạng nhất (--provider ollama-cloud, OLLAMA_API_KEY); Ollama cục bộ được truy cập thông qua luồng Custom Endpoint (URL cơ sở http://localhost:11434/v1, không có khóa). Sử dụng cloud cho các mô hình lớn mà bạn không thể chạy cục bộ; sử dụng cục bộ cho sự riêng tư hoặc làm việc ngoại tuyến.

AWS Bedrock

Anthropic Claude, Amazon Nova, DeepSeek v3.2, Meta Llama 4, và các mô hình khác thông qua AWS Bedrock. Sử dụng chuỗi thông tin xác thực AWS SDK (boto3) — không cần khóa API, chỉ cần xác thực AWS tiêu chuẩn.

# Đơn giản nhất — profile được đặt tên trong ~/.aws/credentials
hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6

# Hoặc với các biến môi trường rõ ràng
AWS_PROFILE=myprofile AWS_REGION=us-east-1 hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6

Hoặc vĩnh viễn trong config.yaml:

model:
  provider: "bedrock"
  default: "us.anthropic.claude-sonnet-4-6"
bedrock:
  region: "us-east-1"          # hoặc đặt AWS_REGION
  # profile: "myprofile"       # hoặc đặt AWS_PROFILE
  # discovery: true            # tự động phát hiện khu vực từ IAM
  # guardrail:                 # Bedrock Guardrails (tùy chọn)
  #   id: "your-guardrail-id"
  #   version: "DRAFT"

Tính năng xác thực sử dụng chuỗi boto3 tiêu chuẩn: AWS_ACCESS_KEY_ID/AWS_SECRET_ACCESS_KEY rõ ràng, AWS_PROFILE từ ~/.aws/credentials, IAM role trên EC2/ECS/Lambda, IMDS, hoặc SSO. Không cần biến môi trường nếu bạn đã được xác thực bằng AWS CLI.

Bedrock sử dụng Converse API ở bên dưới — các yêu cầu được dịch sang hình dạng không phụ thuộc vào mô hình của Bedrock, do đó cấu hình giống nhau sẽ hoạt động đối với các mô hình Claude, Nova, DeepSeek và Llama. Đặt BEDROCK_BASE_URL chỉ khi bạn gọi điểm cuối khu vực không chuẩn.

Xem Hướng dẫn AWS Bedrock để xem qua quá trình thiết lập IAM, chọn khu vực và suy luận đa khu vực.

Qwen Portal (OAuth)

Cổng thông tin Qwen (Qwen Portal) của Alibaba có đăng nhập OAuth qua trình duyệt. Chọn Qwen OAuth (Portal) trong hermes model, đăng nhập qua trình duyệt và Hermes sẽ duy trì refresh token.

hermes model
# → chọn "Qwen OAuth (Portal)"
# → trình duyệt sẽ mở ra; đăng nhập bằng tài khoản Alibaba của bạn
# → xác nhận — thông tin đăng nhập được lưu vào ~/.hermes/auth.json

hermes chat   # sử dụng điểm cuối portal.qwen.ai/v1

Hoặc cấu hình config.yaml:

model:
  provider: "qwen-oauth"
  default: "qwen3-coder-plus"

Đặt HERMES_QWEN_BASE_URL chỉ khi điểm cuối cổng thông tin di dời (mặc định: https://portal.qwen.ai/v1).

Qwen OAuth vs DashScope (Alibaba)

qwen-oauth sử dụng Cổng Qwen cho người tiêu dùng bằng đăng nhập OAuth — lý tưởng cho người dùng cá nhân. Nhà cung cấp alibaba sử dụng API doanh nghiệp của DashScope kèm theo DASHSCOPE_API_KEY — lý tưởng cho các workload tự động/sản xuất. Cả hai định tuyến đến các mô hình thuộc dòng Qwen nhưng nằm ở các điểm cuối khác nhau.

Nhà cung cấp suy luận ôm mặt

Nhà cung cấp suy luận ôm khuôn mặt định tuyến đến hơn 20 mô hình mở thông qua điểm cuối thống nhất tương thích với OpenAI ( router.huggingface.co/v1 ). Các yêu cầu được tự động chuyển đến chương trình phụ trợ có sẵn nhanh nhất (Groq, Together, SambaNova, v.v.) với tính năng chuyển đổi dự phòng tự động.

# Use any available model
hermes chat --provider huggingface --model Qwen/Qwen3-235B-A22B-Thinking-2507
# Requires: HF_TOKEN in ~/.hermes/.env

# Short alias
hermes chat --provider hf --model deepseek-ai/DeepSeek-V3.2

Hoặc đặt nó vĩnh viễn trong config.yaml :

model:
  provider: "huggingface"
  default: "Qwen/Qwen3-235B-A22B-Thinking-2507"

Nhận mã thông báo của bạn tại huggingface.co/settings/tokens — đảm bảo bật quyền "Thực hiện cuộc gọi tới Nhà cung cấp suy luận". Đã bao gồm bậc miễn phí (tín dụng ($0,10/tháng, không tăng giá theo giá của nhà cung cấp).

Bạn có thể thêm hậu tố định tuyến vào tên mẫu: :fastest (mặc định), :cheapest hoặc :provider_name để buộc một chương trình phụ trợ cụ thể.

URL cơ sở có thể được ghi đè bằng HF_BASE_URL .

Nhà cung cấp LLM tùy chỉnh và tự lưu trữ

Hermes Agent hoạt động với mọi điểm cuối API tương thích với OpenAI. Nếu máy chủ triển khai /v1/chat/completions , bạn có thể trỏ Hermes vào máy chủ đó. Điều này có nghĩa là bạn có thể sử dụng các mô hình cục bộ, máy chủ suy luận GPU, bộ định tuyến của nhiều nhà cung cấp hoặc bất kỳ API nào của bên thứ ba.

Cài đặt chung

Ba cách để định cấu hình điểm cuối tùy chỉnh:

Thiết lập tương tác (được khuyến nghị):

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter: API base URL, API key, Model name

Cấu hình thủ công ( config.yaml ):

# In ~/.hermes/config.yaml
model:
  default: your-model-name
  provider: custom
  base_url: http://localhost:8000/v1
  api_key: your-key-or-leave-empty-for-local

Legacy env vars

OPENAI_BASE_URL và LLM_MODEL trong .env không được dùng nữa. OPENAI_BASE_URL không còn được tư vấn để giải quyết điểm cuối nữa — config.yaml là nguồn thông tin chính xác duy nhất. CLI bỏ qua hoàn toàn LLM_MODEL (chỉ cổng mới đọc nó dưới dạng dự phòng). Sử dụng hermes model hoặc chỉnh sửa trực tiếp config.yaml — cả hai đều tồn tại chính xác qua các lần khởi động lại và vùng chứa Docker.

Cả hai cách tiếp cận đều tồn tại config.yaml , đây là nguồn đáng tin cậy cho mô hình, nhà cung cấp và URL cơ sở.

Chuyển đổi model bằng `/model`

Sau khi định cấu hình điểm cuối tùy chỉnh, bạn có thể chuyển đổi mô hình giữa phiên:

/model custom:qwen-2.5          

# Switch to a model on your custom endpoint
/model custom                    

# Auto-detect the model from the endpoint
/model openrouter:claude-sonnet-4 

# Switch back to a cloud provider

Nếu bạn đã định cấu hình nhà cung cấp tùy chỉnh được đặt tên (xem bên dưới), hãy sử dụng cú pháp ba:

/model custom:local:qwen-2.5    

# Use the "local" custom provider with model qwen-2.5
/model custom:work:llama3       

# Use the "work" custom provider with llama3

```Khi chuyển đổi nhà cung cấp, Hermes vẫn giữ nguyên URL cơ sở và nhà cung cấp để định cấu hình để thay đổi vẫn tiếp tục khởi động lại. Khi chuyển từ điểm cuối tùy chỉnh sang nhà cung cấp tích hợp sẵn, URL cơ sở cũ sẽ tự động bị xóa.

:::tip
 `/model custom` (trống, không có tên mô hình) truy vấn API `/models` của điểm cuối của bạn và tự động chọn mô hình nếu chính xác một mô hình được tải. Hữu ích cho các máy chủ cục bộ chạy một mô hình duy nhất.

:::

Mọi thứ bên dưới đều tuân theo cùng một mẫu — chỉ cần thay đổi URL, khóa và tên mẫu.

---

#

## Ollama — Mô hình cục bộ, cấu hình không

[Ollama](https://ollama.com/) chạy cục bộ các mô hình có trọng lượng mở bằng một lệnh. Tốt nhất cho: thử nghiệm cục bộ nhanh chóng, công việc nhạy cảm về quyền riêng tư, sử dụng ngoại tuyến. Hỗ trợ gọi công cụ thông qua API tương thích với OpenAI.

```bash
# Install and run a model
ollama pull qwen2.5-coder:32b
ollama serve   

# Starts on port 11434

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:11434/v1
# Skip API key (Ollama doesn't need one)
# Enter model name (e.g. qwen2.5-coder:32b)

Hoặc định cấu hình trực tiếp config.yaml:

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768   

# See warning below

Ollama mặc định có độ dài ngữ cảnh rất thấp

Theo mặc định, Ollama không sử dụng cửa sổ ngữ cảnh đầy đủ của mô hình của bạn. Tùy thuộc vào VRAM của bạn, mặc định là:

VRAM có sẵn	Bối cảnh mặc định
Dưới 24 GB	4.096 token
24–48 GB	32.768 token
48+ GB	256.000 token

Để sử dụng tác nhân với các công cụ, bạn cần ít nhất 16k–32k bối cảnh. Ở mức 4k, chỉ riêng lời nhắc hệ thống + lược đồ công cụ có thể lấp đầy cửa sổ, không còn chỗ cho cuộc trò chuyện.

Cách tăng (chọn một):

# Option 1: Set server-wide via environment variable (recommended)
OLLAMA_CONTEXT_LENGTH=32768 ollama serve

# Option 2: For systemd-managed Ollama
sudo systemctl edit ollama.service
# Add: Environment="OLLAMA_CONTEXT_LENGTH=32768"
# Then: sudo systemctl daemon-reload && sudo systemctl restart ollama

# Option 3: Bake it into a custom model (persistent per-model)
echo -e "FROM qwen2.5-coder:32b\nPARAMETER num_ctx 32768" > Modelfile
ollama create qwen2.5-coder-32k -f Modelfile

Bạn không thể đặt độ dài ngữ cảnh thông qua API tương thích với OpenAI ( /v1/chat/completions ). Nó phải được cấu hình phía máy chủ hoặc thông qua Modelfile. Đây là nguyên nhân gây nhầm lẫn số 1 khi tích hợp Ollama với các công cụ như Hermes.

Xác minh bối cảnh của bạn được đặt chính xác:

ollama ps
# Look at the CONTEXT column — it should show your configured value

mẹo

Liệt kê các mẫu có sẵn với ollama list . Kéo bất kỳ mô hình nào từ thư viện Ollama bằng ollama pull <model> . Ollama tự động xử lý việc giảm tải GPU — không cần cấu hình cho hầu hết các thiết lập.

vLLM — Suy luận GPU hiệu suất cao

vLLM là tiêu chuẩn để phân phát LLM sản xuất. Tốt nhất cho: thông lượng tối đa trên phần cứng GPU, phục vụ các mô hình lớn, phân khối liên tục.

pip install vllm
vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --port 8000 \
  --max-model-len 65536 \
  --tensor-parallel-size 2 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8000/v1
# Skip API key (or enter one if you configured vLLM with --api-key)
# Enter model name: meta-llama/Llama-3.1-70B-Instruct

Độ dài ngữ cảnh: vLLM đọc max_position_embeddings của mô hình theo mặc định. Nếu vượt quá bộ nhớ GPU của bạn, nó sẽ báo lỗi và yêu cầu bạn đặt --max-model-len thấp hơn. Bạn cũng có thể sử dụng --max-model-len auto để tự động tìm mức tối đa phù hợp. Đặt --gpu-memory-utilization 0.95 (mặc định 0,9) để thu thập thêm ngữ cảnh vào VRAM.

Việc gọi công cụ yêu cầu có cờ rõ ràng:

Cờ	Mục đích
`--enable-auto-tool-choice`	Bắt buộc đối với `tool_choice: "auto"` (mặc định trong Hermes)
`--tool-call-parser <name>`	Trình phân tích cú pháp cho định dạng lệnh gọi công cụ của mô hình

Các trình phân tích cú pháp được hỗ trợ: hermes (Qwen 2.5, Hermes 2/3), llama3_json (Llama 3.x), mistral , deepseek_v3 , deepseek_v31 , xlam , pythonic . Nếu không có những cờ này, lệnh gọi công cụ sẽ không hoạt động — mô hình sẽ xuất lệnh gọi công cụ dưới dạng văn bản.

mẹo

vLLM hỗ trợ các kích thước mà con người có thể đọc được: --max-model-len 64k (chữ thường k = 1000, chữ hoa K = 1024).

SGLang — Phục vụ nhanh chóng với RadixAttention

SGLang là một giải pháp thay thế cho vLLM với RadixAttention để tái sử dụng bộ đệm KV. Tốt nhất cho: cuộc hội thoại nhiều lượt (bộ nhớ đệm tiền tố), giải mã có giới hạn, đầu ra có cấu trúc.

pip install "sglang[all]"
python -m sglang.launch_server \
  --model meta-llama/Llama-3.1-70B-Instruct \
  --port 30000 \
  --context-length 65536 \
  --tp 2 \
  --tool-call-parser qwen

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:30000/v1
# Enter model name: meta-llama/Llama-3.1-70B-Instruct

Độ dài ngữ cảnh: SGLang đọc từ cấu hình của mô hình theo mặc định. Sử dụng --context-length để ghi đè. Nếu bạn cần vượt quá mức tối đa đã khai báo của mô hình, hãy đặt SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 .

Gọi công cụ: Sử dụng --tool-call-parser với trình phân tích cú pháp thích hợp cho dòng mô hình của bạn: qwen (Qwen 2.5), llama3 , llama4 , deepseekv3 , mistral , glm . Nếu không có cờ này, lệnh gọi công cụ sẽ trở lại dưới dạng văn bản thuần túy.

SGLang mặc định có 128 mã thông báo đầu ra tối đa

Nếu phản hồi có vẻ bị cắt ngắn, hãy thêm max_tokens vào yêu cầu của bạn hoặc đặt --default-max-tokens trên máy chủ. Mặc định của SGLang chỉ là 128 mã thông báo cho mỗi phản hồi nếu không được chỉ định trong yêu cầu.

llama.cpp / llama-server — Suy luận CPU & kim loại

llama.cpp chạy các mô hình lượng tử hóa trên CPU, Apple Silicon (Metal) và GPU tiêu dùng. Tốt nhất cho: chạy các mô hình không có GPU trung tâm dữ liệu, người dùng Mac, triển khai biên.

# Build and start llama-server
cmake -B build && cmake --build build --config Release
./build/bin/llama-server \
  --jinja -fa \
  -c 32768 \
  -ngl 99 \
  -m models/qwen2.5-coder-32b-instruct-Q4_K_M.gguf \
  --port 8080 --host 0.0.0.0

Độ dài ngữ cảnh ( -c ): Các bản dựng gần đây mặc định là 0 đọc ngữ cảnh đào tạo của mô hình từ siêu dữ liệu GGUF. Đối với các mô hình có bối cảnh đào tạo hơn 128k, điều này có thể xảy ra khi cố gắng phân bổ toàn bộ bộ nhớ đệm KV. Đặt -c một cách rõ ràng theo những gì bạn cần (32k–64k là phạm vi phù hợp để sử dụng cho tác nhân). Nếu sử dụng các vị trí song song ( -np ), tổng bối cảnh được chia cho các vị trí - với -c 32768 -np 4 , mỗi vị trí chỉ nhận được 8k.

Sau đó cấu hình Hermes để trỏ vào nó:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8080/v1
# Skip API key (local servers don't need one)
# Enter model name — or leave blank to auto-detect if only one model is loaded

Thao tác này sẽ lưu điểm cuối vào config.yaml để điểm cuối này tồn tại qua các phiên.

--jinja là cần thiết để gọi công cụ

Nếu không có --jinja , llama-server sẽ bỏ qua hoàn toàn tham số tools . Mô hình sẽ cố gắng gọi các công cụ bằng cách viết JSON trong văn bản phản hồi của nó, nhưng Hermes sẽ không nhận ra đó là lệnh gọi công cụ — bạn sẽ thấy JSON thô như {"name": "web_search", ...} được in dưới dạng tin nhắn thay vì tìm kiếm thực tế.

Hỗ trợ gọi công cụ gốc (hiệu suất tốt nhất): Llama 3.x, Qwen 2.5 (bao gồm Coder), Hermes 2/3, Mistral, DeepSeek, Functionary. Tất cả các mô hình khác đều sử dụng trình xử lý chung hoạt động nhưng có thể kém hiệu quả hơn. Xem hàm llama.cpp gọi docs để biết danh sách đầy đủ.

Bạn có thể xác minh hỗ trợ công cụ đang hoạt động bằng cách kiểm tra http://localhost:8080/props — trường chat_template phải xuất hiện.

mẹo

Tải xuống các mô hình GGUF từ Hugging Face. Lượng tử hóa Q4_K_M mang lại sự cân bằng tốt nhất giữa chất lượng và mức sử dụng bộ nhớ.

LM Studio — Ứng dụng máy tính để bàn với các mô hình cục bộLM Studio là một ứng dụng dành cho máy tính để bàn để chạy các mô hình cục bộ bằng GUI. Tốt nhất cho: người dùng thích giao diện trực quan, thử nghiệm mô hình nhanh, nhà phát triển trên macOS/Windows/Linux.

Khởi động máy chủ từ ứng dụng LM Studio (tab Nhà phát triển → Máy chủ khởi động) hoặc sử dụng CLI:

lms server start                        

# Starts on port 1234
lms load qwen2.5-coder --context-length 32768

Sau đó cấu hình Hermes:

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:1234/v1
# Skip API key (LM Studio doesn't require one)
# Enter model name

Độ dài ngữ cảnh thường được mặc định là 2048

LM Studio đọc độ dài ngữ cảnh từ siêu dữ liệu của mô hình, nhưng nhiều mô hình GGUF báo cáo giá trị mặc định thấp (2048 hoặc 4096). Luôn đặt rõ ràng độ dài ngữ cảnh trong cài đặt mô hình LM Studio:

Nhấp vào biểu tượng bánh răng bên cạnh bộ chọn mô hình
Đặt "Độ dài bối cảnh" ít nhất là 16384 (tốt nhất là 32768)
Tải lại mô hình để thay đổi có hiệu lực

Ngoài ra, hãy sử dụng CLI: lms load model-name --context-length 32768

Để đặt các giá trị mặc định cố định cho mỗi mô hình: tab Mô hình của tôi → biểu tượng bánh răng trên mô hình → đặt kích thước ngữ cảnh.

Gọi công cụ: Được hỗ trợ kể từ LM Studio 0.3.6. Các mô hình được đào tạo gọi công cụ gốc (Qwen 2.5, Llama 3.x, Mistral, Hermes) được tự động phát hiện và hiển thị cùng với huy hiệu công cụ. Các mô hình khác sử dụng một dự phòng chung có thể kém tin cậy hơn.

Mạng WSL2 (Người dùng Windows)

Vì Hermes Agent yêu cầu môi trường Unix nên người dùng Windows sẽ chạy nó bên trong WSL2. Nếu máy chủ mô hình của bạn (Ollama, LM Studio, v.v.) chạy trên máy chủ Windows, thì bạn cần thu hẹp khoảng cách mạng — WSL2 sử dụng bộ điều hợp mạng ảo với mạng con riêng của nó, vì vậy localhost bên trong WSL2 đề cập đến máy ảo Linux, không máy chủ Windows.

Cả hai trong WSL2? Không có gì.

Nếu máy chủ mô hình của bạn cũng chạy bên trong WSL2 (phổ biến cho vLLM, SGLang và llama-server), localhost hoạt động như mong đợi — chúng chia sẻ cùng một không gian tên mạng. Bỏ qua phần này.

Tùy chọn 1: Chế độ kết nối mạng được nhân đôi (Được khuyến nghị)

Có sẵn trên Windows 11 22H2+, chế độ phản chiếu giúp localhost hoạt động hai chiều giữa Windows và WSL2 — cách khắc phục đơn giản nhất.

Tạo hoặc chỉnh sửa %USERPROFILE%\.wslconfig (ví dụ: C:\Users\YourName\.wslconfig ):

   [wsl2]
   networkingMode=mirrored

Khởi động lại WSL từ PowerShell:

   wsl --shutdown

Mở lại terminal WSL2 của bạn. localhost hiện đã có mặt trên các dịch vụ Windows:

   curl http://localhost:11434/v1/models   

# Ollama on Windows — works

Tường lửa Hyper-V

Trên một số bản dựng Windows 11, tường lửa Hyper-V chặn các kết nối được nhân đôi theo mặc định. Nếu localhost vẫn không hoạt động sau khi bật chế độ phản chiếu, hãy chạy chế độ này trong PowerShell quản trị:

Set-NetFirewallHyperVVMSetting -Name '{40E0AC32-46A5-438A-A0B2-2B479E8F2E90}' -DefaultInboundAction Allow

Tùy chọn 2: Sử dụng IP máy chủ Windows (Windows 10 / bản dựng cũ hơn)

Nếu bạn không thể sử dụng chế độ phản chiếu, hãy tìm IP máy chủ Windows từ bên trong WSL2 và sử dụng IP đó thay vì localhost :

# Get the Windows host IP (the default gateway of WSL2's virtual network)
ip route show | grep -i default | awk '{ print $3 }'
# Example output: 172.29.192.1

Sử dụng IP đó trong cấu hình Hermes của bạn:

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://172.29.192.1:11434/v1   

# Windows host IP, not localhost

Trình trợ giúp động

IP máy chủ có thể thay đổi khi khởi động lại WSL2. Bạn có thể lấy nó một cách linh hoạt trong Shell của mình:

export WSL_HOST=$(ip route show | grep -i default | awk '{ print $3 }')
echo "Windows host at: $WSL_HOST"
curl http://$WSL_HOST:11434/v1/models   

# Test Ollama

Hoặc sử dụng tên mDNS của máy bạn (yêu cầu libnss-mdns trong WSL2):

sudo apt install libnss-mdns
curl http://$(hostname).local:11434/v1/models

Địa chỉ liên kết máy chủ (Bắt buộc đối với chế độ NAT)Nếu bạn đang sử dụng Tùy chọn 2 (chế độ NAT với IP máy chủ), máy chủ mẫu trên Windows phải chấp nhận kết nối từ bên ngoài `127.0.0.1` . Theo mặc định, hầu hết các máy chủ chỉ nghe trên localhost - các kết nối WSL2 ở chế độ NAT đến từ một mạng con ảo khác và sẽ bị từ chối. Ở chế độ phản chiếu, `localhost` ánh xạ trực tiếp để liên kết `127.0.0.1` mặc định hoạt động tốt.

Máy chủ	Liên kết mặc định	Cách khắc phục
Ollama	`127.0.0.1`	Đặt biến môi trường `OLLAMA_HOST=0.0.0.0` trước khi khởi động Ollama (Cài đặt hệ thống → Biến môi trường trên Windows hoặc chỉnh sửa dịch vụ Ollama)
LM Studio	`127.0.0.1`	Bật "Phục vụ trên mạng" trong tab Nhà phát triển → Cài đặt máy chủ
máy chủ llama	`127.0.0.1`	Thêm `--host 0.0.0.0` vào lệnh khởi động
vLLM	`0.0.0.0`	Đã liên kết với tất cả các giao diện theo mặc định
SGLang	`127.0.0.1`	Thêm `--host 0.0.0.0` vào lệnh khởi động

Ollama trên Windows (chi tiết): Ollama chạy dưới dạng dịch vụ Windows. Để đặt OLLAMA_HOST :

Mở Thuộc tính hệ thống → Biến môi trường
Thêm Biến hệ thống mới: OLLAMA_HOST = 0.0.0.0
Khởi động lại dịch vụ Ollama (hoặc khởi động lại)

Tường lửa của Windows

Tường lửa Windows coi WSL2 như một mạng riêng biệt (ở cả chế độ NAT và chế độ phản chiếu). Nếu kết nối vẫn không thành công sau các bước trên, hãy thêm quy tắc tường lửa cho cổng máy chủ mô hình của bạn:

# Run in Admin PowerShell — replace PORT with your server's port
New-NetFirewallRule -DisplayName "Allow WSL2 to Model Server" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 11434

Các cổng phổ biến: Ollama 11434 , vLLM 8000 , SGLang 30000 , llama-server 8080 , LM Studio 1234 .

Xác minh nhanh

Từ bên trong WSL2, hãy kiểm tra xem bạn có thể truy cập máy chủ mô hình của mình không:

# Replace URL with your server's address and port
curl http://localhost:11434/v1/models          

# Mirrored mode
curl http://172.29.192.1:11434/v1/models       

# NAT mode (use your actual host IP)

Nếu bạn nhận được phản hồi JSON liệt kê các mô hình của mình thì bạn vẫn ổn. Sử dụng cùng URL đó với base_url trong cấu hình Hermes của bạn.

Khắc phục sự cố với các mô hình cục bộ

Những sự cố này ảnh hưởng đến tất cả máy chủ suy luận cục bộ khi sử dụng với Hermes.

"Kết nối bị từ chối" từ WSL2 đến máy chủ mô hình được lưu trữ trên máy chủ Windows

Nếu bạn đang chạy Hermes bên trong WSL2 và máy chủ mẫu của bạn trên máy chủ Windows, http://localhost:<port> sẽ không hoạt động ở chế độ mạng NAT mặc định của WSL2. Xem Mạng WSL2 ở trên để biết cách khắc phục.

Lệnh gọi công cụ xuất hiện dưới dạng văn bản thay vì thực thi

Mô hình xuất ra nội dung giống như {"name": "web_search", "arguments": {...}} dưới dạng thông báo thay vì thực sự gọi công cụ.

Lý do: Máy chủ của bạn chưa bật tính năng gọi công cụ hoặc mô hình không hỗ trợ tính năng này thông qua việc triển khai gọi công cụ của máy chủ.

Máy chủ	Sửa chữa
llama.cpp	Thêm `--jinja` vào lệnh khởi động
vLLM	Thêm `--enable-auto-tool-choice --tool-call-parser hermes`
SGLang	Thêm `--tool-call-parser qwen` (hoặc trình phân tích cú pháp thích hợp)
Ollama	Gọi công cụ được bật theo mặc định - đảm bảo mô hình của bạn hỗ trợ nó (kiểm tra với `ollama show model-name` )
LM Studio	Cập nhật lên 0.3.6+ và sử dụng mô hình có hỗ trợ công cụ gốc

Mô hình dường như quên ngữ cảnh hoặc đưa ra phản hồi không mạch lạcNguyên nhân: Cửa sổ ngữ cảnh quá nhỏ. Khi cuộc trò chuyện vượt quá giới hạn ngữ cảnh, hầu hết các máy chủ sẽ âm thầm loại bỏ các tin nhắn cũ hơn. Chỉ riêng lược đồ công cụ + lời nhắc hệ thống của Hermes có thể sử dụng mã thông báo 4k–8k.

Chẩn đoán:

# Check what Hermes thinks the context is
# Look at startup line: "Context limit: X tokens"

# Check your server's actual context
# Ollama: ollama ps (CONTEXT column)
# llama.cpp: curl http://localhost:8080/props | jq '.default_generation_settings.n_ctx'
# vLLM: check --max-model-len in startup args

Khắc phục: Đặt ngữ cảnh thành ít nhất 32.768 mã thông báo để sử dụng cho tác nhân. Xem phần của từng máy chủ ở trên để biết cờ cụ thể.

"Giới hạn bối cảnh: 2048 mã thông báo" khi khởi động

Hermes tự động phát hiện độ dài ngữ cảnh từ điểm cuối /v1/models trên máy chủ của bạn. Nếu máy chủ báo cáo giá trị thấp (hoặc hoàn toàn không báo cáo), Hermes sử dụng giới hạn đã khai báo của mô hình và điều này có thể sai.

Khắc phục: Đặt rõ ràng trong config.yaml :

model:
  default: your-model
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768

Câu trả lời bị cắt giữa câu

Nguyên nhân có thể:

Thấp max_tokens trên máy chủ — SGLang mặc định có 128 mã thông báo cho mỗi phản hồi. Đặt --default-max-tokens trên máy chủ hoặc định cấu hình Hermes bằng model.max_tokens trong config.yaml.
Cạn kiệt bối cảnh — Mô hình đã lấp đầy cửa sổ ngữ cảnh của nó. Tăng độ dài ngữ cảnh hoặc bật nén ngữ cảnh trong Hermes.

Proxy LiteLLM — Cổng đa nhà cung cấp

LiteLLM là một proxy tương thích với OpenAI, hợp nhất hơn 100 nhà cung cấp LLM sau một API duy nhất. Tốt nhất cho: chuyển đổi giữa các nhà cung cấp mà không cần thay đổi cấu hình, cân bằng tải, chuỗi dự phòng, kiểm soát ngân sách.

# Install and start
pip install "litellm[proxy]"
litellm --model anthropic/claude-sonnet-4 --port 4000

# Or with a config file for multiple models:
litellm --config litellm_config.yaml --port 4000

Sau đó định cấu hình Hermes với hermes model → Custom Endpoint → http://localhost:4000/v1 .

Ví dụ litellm_config.yaml với dự phòng:

model_list:
  - model_name: "best"
    litellm_params:
      model: anthropic/claude-sonnet-4
      api_key: sk-ant-...
  - model_name: "best"
    litellm_params:
      model: openai/gpt-4o
      api_key: sk-...
router_settings:
  routing_strategy: "latency-based-routing"

ClawRouter — Định tuyến được tối ưu hóa chi phí

ClawRouter của BlockRunAI là proxy định tuyến cục bộ tự động chọn các mô hình dựa trên độ phức tạp của truy vấn. Nó phân loại các yêu cầu trên 14 chiều và định tuyến đến mô hình rẻ nhất có thể xử lý nhiệm vụ. Thanh toán thông qua tiền điện tử USDC (không có khóa API).

# Install and start
npx @blockrun/clawrouter    

# Starts on port 8402

Sau đó định cấu hình Hermes với hermes model → Custom Endpoint → http://localhost:8402/v1 → tên mẫu blockrun/auto .

Hồ sơ định tuyến:

Hồ sơ	Chiến lược	Tiết kiệm
`blockrun/auto`	Cân bằng chất lượng/chi phí	74-100%
`blockrun/eco`	Rẻ nhất có thể	95-100%
`blockrun/premium`	Mẫu mã chất lượng tốt nhất	0%
`blockrun/free`	Chỉ các mẫu miễn phí	100%
`blockrun/agentic`	Tối ưu hóa để sử dụng công cụ	khác nhau

ghi chú

ClawRouter yêu cầu ví được USDC tài trợ trên Base hoặc Solana để thanh toán. Tất cả các yêu cầu đều được định tuyến thông qua API phụ trợ của BlockRun. Chạy npx @blockrun/clawrouter doctor để kiểm tra trạng thái ví.

Nhà cung cấp tương thích khác

Bất kỳ dịch vụ nào có API tương thích với OpenAI đều hoạt động. Một số lựa chọn phổ biến:

Nhà cung cấp	URL cơ sở	Ghi chú
Cùng nhau AI	`https://api.together.xyz/v1`	Các mô hình mở được lưu trữ trên đám mây
Groq	`https://api.groq.com/openai/v1`	Suy luận cực nhanh
DeepSeek	`https://api.deepseek.com/v1`	Mô hình DeepSeek
Pháo hoa AI	`https://api.fireworks.ai/inference/v1`	Lưu trữ mô hình mở nhanh
Não	`https://api.cerebras.ai/v1`	Suy luận chip quy mô wafer
Mistral AI	`https://api.mistral.ai/v1`	Mô hình Mistral
OpenAI	`https://api.openai.com/v1`	Truy cập OpenAI trực tiếp
Azure OpenAI	`https://YOUR.openai.azure.com/`	Doanh nghiệp OpenAI
LocalAI	`http://localhost:8080/v1`	Tự lưu trữ, đa mô hình
Tháng 1	`http://localhost:1337/v1`	Ứng dụng dành cho máy tính để bàn với các mô hình cục bộ

Định cấu hình bất kỳ thứ nào trong số này bằng hermes model → Custom Endpoint hoặc trong config.yaml :

model:
  default: meta-llama/Llama-3.1-70B-Instruct-Turbo
  provider: custom
  base_url: https://api.together.xyz/v1
  api_key: your-together-key

Phát hiện độ dài ngữ cảnh

Hermes sử dụng chuỗi phân giải đa nguồn để phát hiện cửa sổ ngữ cảnh chính xác cho kiểu máy và nhà cung cấp của bạn:

Ghi đè cấu hình — model.context_length trong config.yaml (mức độ ưu tiên cao nhất)
Nhà cung cấp tùy chỉnh cho mỗi mô hình — custom_providers[].models.<id>.context_length
Bộ đệm liên tục — các giá trị được phát hiện trước đó (tồn tại khi khởi động lại)
**Điểm cuối /models ** — truy vấn API máy chủ của bạn (điểm cuối cục bộ/tùy chỉnh)
**Anthropic /v1/models ** — truy vấn API của Anthropic cho max_input_tokens (chỉ dành cho người dùng khóa API)
OpenRouter API — siêu dữ liệu mô hình trực tiếp từ OpenRouter
Nous Portal — khớp hậu tố ID mô hình Nous với siêu dữ liệu OpenRouter
models.dev — sổ đăng ký do cộng đồng duy trì với độ dài ngữ cảnh dành riêng cho nhà cung cấp cho hơn 3800 mô hình trên hơn 100 nhà cung cấp
Mặc định dự phòng — các mẫu họ mô hình rộng (mặc định 128K)

Đối với hầu hết các thiết lập, điều này hoạt động tốt. Hệ thống nhận biết nhà cung cấp — cùng một mô hình có thể có các giới hạn ngữ cảnh khác nhau tùy thuộc vào người phục vụ nó (ví dụ: claude-opus-4.6 là 1M trên Anthropic direct nhưng 128K trên GitHub Copilot).

Để đặt độ dài ngữ cảnh một cách rõ ràng, hãy thêm context_length vào cấu hình mô hình của bạn:

model:
  default: "qwen3.5:9b"
  base_url: "http://localhost:8080/v1"
  context_length: 131072  

# tokens

Đối với điểm cuối tùy chỉnh, bạn cũng có thể đặt độ dài ngữ cảnh cho mỗi mô hình:

custom_providers:
  - name: "My Local LLM"
    base_url: "http://localhost:11434/v1"
    models:
      qwen3.5:27b:
        context_length: 32768
      deepseek-r1:70b:
        context_length: 65536

hermes model sẽ nhắc về độ dài ngữ cảnh khi định cấu hình điểm cuối tùy chỉnh. Để trống để tự động phát hiện.

Khi nào cần thiết lập thủ công

Bạn đang sử dụng Ollama với num_ctx tùy chỉnh thấp hơn mức tối đa của mô hình
Bạn muốn giới hạn ngữ cảnh dưới mức tối đa của mô hình (ví dụ: 8k trên mô hình 128k để tiết kiệm VRAM)
Bạn đang chạy đằng sau một proxy không hiển thị /v1/models

Nhà cung cấp tùy chỉnh được đặt tên

Nếu bạn làm việc với nhiều điểm cuối tùy chỉnh (ví dụ: máy chủ nhà phát triển cục bộ và máy chủ GPU từ xa), bạn có thể xác định chúng là nhà cung cấp tùy chỉnh được đặt tên trong config.yaml :

custom_providers:
  - name: local
    base_url: http://localhost:8080/v1
    

# api_key omitted — Hermes uses "no-key-required" for keyless local servers
  - name: work
    base_url: https://gpu-server.internal.corp/v1
    api_key: corp-api-key
    api_mode: chat_completions   

# optional, auto-detected from URL
  - name: anthropic-proxy
    base_url: https://proxy.example.com/anthropic
    api_key: proxy-key
    api_mode: anthropic_messages  

# for Anthropic-compatible proxies

Chuyển đổi giữa chúng giữa phiên bằng cú pháp ba:

/model custom:local:qwen-2.5       

# Use the "local" endpoint with qwen-2.5
/model custom:work:llama3-70b      

# Use the "work" endpoint with llama3-70b
/model custom:anthropic-proxy:claude-sonnet-4  

# Use the proxy

Bạn cũng có thể chọn nhà cung cấp tùy chỉnh có tên từ menu hermes model tương tác.

Chọn cài đặt phù hợp

Trường hợp sử dụng	Được đề xuất
Chỉ muốn nó hoạt động	OpenRouter (mặc định) hoặc Nous Portal
Mô hình địa phương, thiết lập dễ dàng	Olama
Phục vụ GPU sản xuất	vLLM hoặc SGLang
Mac / không có GPU	Ollama hoặc llama.cpp
Định tuyến nhiều nhà cung cấp	LiteLLM Proxy hoặc OpenRouter
Tối ưu hóa chi phí	ClawRouter hoặc OpenRouter với `sort: "price"`
Quyền riêng tư tối đa	Ollama, vLLM hoặc llama.cpp (hoàn toàn cục bộ)
Doanh nghiệp / Azure	Azure OpenAI với điểm cuối tùy chỉnh
Mô hình AI Trung Quốc	z.ai (GLM), Kimi/Moonshot hoặc MiniMax (nhà cung cấp hạng nhất)

mẹo

Bạn có thể chuyển đổi giữa các nhà cung cấp bất kỳ lúc nào bằng hermes model — không cần khởi động lại. Lịch sử trò chuyện, trí nhớ và kỹ năng của bạn sẽ được lưu giữ bất kể bạn sử dụng nhà cung cấp nào.

Khóa API tùy chọn

Tính năng	Nhà cung cấp	Biến Env
Quét web	Firecrawl	`FIRECRAWL_API_KEY` , `FIRECRAWL_API_URL`
Tự động hóa trình duyệt	Cơ sở trình duyệt	`BROWSERBASE_API_KEY` , `BROWSERBASE_PROJECT_ID`
Tạo hình ảnh	FAL	`FAL_KEY`
Giọng nói TTS cao cấp	ElevenLabs	`ELEVENLABS_API_KEY`
OpenAI TTS + phiên âm giọng nói	OpenAI	`VOICE_TOOLS_OPENAI_KEY`
Đào tạo RL	Tinker + WandB	`TINKER_API_KEY` , `WANDB_API_KEY`
Lập mô hình người dùng giữa các phiên	Honcho	`HONCHO_API_KEY`
Trí nhớ dài hạn ngữ nghĩa	Siêu bộ nhớ	`SUPERMEMORY_API_KEY`

Firecrawl tự lưu trữ

Theo mặc định, Hermes sử dụng API đám mây Firecrawl để tìm kiếm và thu thập thông tin trên web. Nếu muốn chạy Firecrawl cục bộ, bạn có thể trỏ Hermes vào một phiên bản tự lưu trữ. Xem SELF_HOST.md của Firecrawl để biết hướng dẫn thiết lập đầy đủ.

Những gì bạn nhận được: Không cần khóa API, không giới hạn tốc độ, không tính phí mỗi trang, toàn quyền về dữ liệu.

Bạn mất gì: Phiên bản đám mây sử dụng "Fire-engine" độc quyền của Firecrawl để vượt qua chương trình chống bot nâng cao (Cloudflare, CAPTCHA, xoay vòng IP). Tự lưu trữ sử dụng tìm nạp cơ bản + Nhà viết kịch, vì vậy một số trang web được bảo vệ có thể không thành công. Tìm kiếm sử dụng DuckDuckGo thay vì Google.

Cài đặt:

Sao chép và khởi động ngăn xếp Firecrawl Docker (5 bộ chứa: API, Playwright, Redis, RabbitMQ, PostgreSQL — yêu cầu RAM ~4-8 GB):

   git clone https://github.com/firecrawl/firecrawl
   cd firecrawl
   

# In .env, set: USE_DB_AUTHENTICATION=false, HOST=0.0.0.0, PORT=3002
   docker compose up -d

Trỏ Hermes vào phiên bản của bạn (không cần khóa API):

   hermes config set FIRECRAWL_API_URL http://localhost:3002

Bạn cũng có thể đặt cả FIRECRAWL_API_KEY và FIRECRAWL_API_URL nếu phiên bản tự lưu trữ của bạn đã bật xác thực.

Định tuyến nhà cung cấp OpenRouter

Khi sử dụng OpenRouter, bạn có thể kiểm soát cách định tuyến các yêu cầu giữa các nhà cung cấp. Thêm phần provider_routing vào ~/.hermes/config.yaml :

provider_routing:
  sort: "throughput"          

# "price" (default), "throughput", or "latency"
  
# only: ["anthropic"]      

# Only use these providers
  
# ignore: ["deepinfra"]    

# Skip these providers
  
# order: ["anthropic", "google"]  

# Try providers in this order
  
# require_parameters: true  

# Only use providers that support all request params
  
# data_collection: "deny"   

# Exclude providers that may store/train on data

Phím tắt: Thêm :nitro vào bất kỳ tên mẫu máy nào để sắp xếp thông lượng (ví dụ: anthropic/claude-sonnet-4:nitro ) hoặc :floor để sắp xếp giá.

Mô hình dự phòng

Định cấu hình nhà cung cấp dự phòng:mô hình mà Hermes tự động chuyển sang khi mô hình chính của bạn bị lỗi (giới hạn tốc độ, lỗi máy chủ, lỗi xác thực):

fallback_model:
  provider: openrouter                    

# required
  model: anthropic/claude-sonnet-4        

# required
  
# base_url: http://localhost:8000/v1    

# optional, for custom endpoints
  
# api_key_env: MY_CUSTOM_KEY           

# optional, env var name for custom endpoint API key

Khi được kích hoạt, dự phòng sẽ hoán đổi mô hình và nhà cung cấp giữa phiên mà không làm mất cuộc trò chuyện của bạn. Nó kích hoạt nhiều nhất một lần mỗi phiên.

Các nhà cung cấp được hỗ trợ: openrouter , nous , openai-codex , copilot , copilot-acp , anthropic , huggingface , zai , kimi-coding , minimax , minimax-cn , deepseek , ai-gateway , opencode-zen , opencode-go , kilocode , alibaba , custom .

mẹo

Dự phòng được định cấu hình riêng thông qua config.yaml — không có biến môi trường nào cho nó. Để biết thông tin chi tiết đầy đủ về thời điểm kích hoạt, nhà cung cấp được hỗ trợ cũng như cách nó tương tác với các nhiệm vụ phụ trợ và ủy quyền, hãy xem Nhà cung cấp dự phòng.

Định tuyến mô hình thông minh

Định tuyến rẻ-so-mạnh tùy chọn cho phép Hermes giữ mô hình chính của bạn cho công việc phức tạp trong khi gửi các vòng quay rất ngắn/đơn giản đến mô hình rẻ hơn.

smart_model_routing:
  enabled: true
  max_simple_chars: 160
  max_simple_words: 28
  cheap_model:
    provider: openrouter
    model: google/gemini-2.5-flash
    

# base_url: http://localhost:8000/v1  

# optional custom endpoint
    

# api_key_env: MY_CUSTOM_KEY          

# optional env var name for that endpoint's API key

Nó hoạt động như thế nào:

Nếu một lượt ngắn, một dòng và không có vẻ nặng nề về mã/công cụ/gỡ lỗi, Hermes có thể định tuyến nó tới cheap_model
Nếu ngã rẽ có vẻ phức tạp, Hermes sẽ tiếp tục sử dụng mô hình/nhà cung cấp chính của bạn
Nếu tuyến đường giá rẻ không thể được giải quyết rõ ràng, Hermes sẽ tự động quay trở lại mẫu chính

Đây là cố ý bảo thủ. Nó dành cho những lượt quay nhanh, ít rủi ro như:

câu hỏi thực tế ngắn
viết lại nhanh
tóm tắt nhẹ

Nó sẽ tránh các lời nhắc định tuyến giống như:

công việc mã hóa/gỡ lỗi
yêu cầu nặng về công cụ
yêu cầu phân tích dài hoặc nhiều dòng

Sử dụng tính năng này khi bạn muốn độ trễ hoặc chi phí thấp hơn mà không cần thay đổi hoàn toàn mô hình mặc định của mình.

Xem thêm

Cấu hình — Cấu hình chung (cấu trúc thư mục, mức độ ưu tiên của cấu hình, phụ trợ đầu cuối, bộ nhớ, nén, v.v.)
Biến môi trường - Tham chiếu đầy đủ tất cả các biến môi trường

Nhà cung cấp suy luận

Nhân chủng học (Bản địa)​

GitHub Copilot​

Nhà cung cấp AI Trung Quốc hạng nhất​

xAI (Grok) — API Phản hồi + Bộ nhớ đệm nhắc nhở (Prompt Caching)​

Ollama Cloud — Mô hình Ollama được quản lý, OAuth + Khóa API​

AWS Bedrock​

Qwen Portal (OAuth)​

Nhà cung cấp suy luận ôm mặt​

Nhà cung cấp LLM tùy chỉnh và tự lưu trữ

Cài đặt chung​

Chuyển đổi model bằng /model​

vLLM — Suy luận GPU hiệu suất cao​

SGLang — Phục vụ nhanh chóng với RadixAttention​

llama.cpp / llama-server — Suy luận CPU & kim loại​

Mạng WSL2 (Người dùng Windows)​

Tùy chọn 1: Chế độ kết nối mạng được nhân đôi (Được khuyến nghị)​

Tùy chọn 2: Sử dụng IP máy chủ Windows (Windows 10 / bản dựng cũ hơn)​

Tường lửa của Windows​

Xác minh nhanh​

Khắc phục sự cố với các mô hình cục bộ​

"Kết nối bị từ chối" từ WSL2 đến máy chủ mô hình được lưu trữ trên máy chủ Windows​

Lệnh gọi công cụ xuất hiện dưới dạng văn bản thay vì thực thi​

"Giới hạn bối cảnh: 2048 mã thông báo" khi khởi động​

Câu trả lời bị cắt giữa câu​

Proxy LiteLLM — Cổng đa nhà cung cấp​

ClawRouter — Định tuyến được tối ưu hóa chi phí​

Nhà cung cấp tương thích khác​

Phát hiện độ dài ngữ cảnh​

Nhà cung cấp tùy chỉnh được đặt tên​

Chọn cài đặt phù hợp​

Khóa API tùy chọn

Firecrawl tự lưu trữ​

Định tuyến nhà cung cấp OpenRouter

Mô hình dự phòng

Định tuyến mô hình thông minh

Xem thêm

Nhân chủng học (Bản địa)

GitHub Copilot

Nhà cung cấp AI Trung Quốc hạng nhất

xAI (Grok) — API Phản hồi + Bộ nhớ đệm nhắc nhở (Prompt Caching)

Ollama Cloud — Mô hình Ollama được quản lý, OAuth + Khóa API

AWS Bedrock

Qwen Portal (OAuth)

Nhà cung cấp suy luận ôm mặt

Cài đặt chung

Chuyển đổi model bằng `/model`

vLLM — Suy luận GPU hiệu suất cao

SGLang — Phục vụ nhanh chóng với RadixAttention

llama.cpp / llama-server — Suy luận CPU & kim loại

Mạng WSL2 (Người dùng Windows)

Tùy chọn 1: Chế độ kết nối mạng được nhân đôi (Được khuyến nghị)

Tùy chọn 2: Sử dụng IP máy chủ Windows (Windows 10 / bản dựng cũ hơn)

Tường lửa của Windows

Xác minh nhanh

Khắc phục sự cố với các mô hình cục bộ

"Kết nối bị từ chối" từ WSL2 đến máy chủ mô hình được lưu trữ trên máy chủ Windows

Lệnh gọi công cụ xuất hiện dưới dạng văn bản thay vì thực thi

"Giới hạn bối cảnh: 2048 mã thông báo" khi khởi động

Câu trả lời bị cắt giữa câu

Proxy LiteLLM — Cổng đa nhà cung cấp

ClawRouter — Định tuyến được tối ưu hóa chi phí

Nhà cung cấp tương thích khác

Phát hiện độ dài ngữ cảnh

Nhà cung cấp tùy chỉnh được đặt tên

Chọn cài đặt phù hợp

Firecrawl tự lưu trữ