Sử dụng Chế độ giọng nói với Hermes

Hướng dẫn này là người bạn đồng hành thiết thực với Voice Mode feature reference.

Nếu trang tính năng giải thích những gì chế độ giọng nói có thể thực hiện thì hướng dẫn này sẽ chỉ ra cách sử dụng nó thực sự hiệu quả.

Chế độ giọng nói nào phù hợp

Chế độ giọng nói đặc biệt hữu ích khi:

bạn muốn có quy trình làm việc CLI rảnh tay
bạn muốn có phản hồi bằng giọng nói trong Telegram hoặc Discord
bạn muốn Hermes ngồi trong kênh thoại Discord để trò chuyện trực tiếp
bạn muốn nắm bắt, gỡ lỗi hoặc qua lại ý tưởng nhanh chóng trong khi đi bộ xung quanh thay vì gõ

Chọn thiết lập chế độ giọng nói của bạn

Thực sự có ba trải nghiệm giọng nói khác nhau trong Hermes.

Chế độ	Tốt nhất cho	Nền tảng
Vòng micro tương tác	Sử dụng rảnh tay cá nhân trong khi viết mã hoặc nghiên cứu	CLI
Trả lời bằng giọng nói trong trò chuyện	Phản hồi bằng giọng nói cùng với tin nhắn thông thường	Telegram, Discord
Bot kênh thoại trực tiếp	Cuộc trò chuyện trực tiếp theo nhóm hoặc cá nhân trong VC	Kênh thoại Discord

Một con đường tốt là:

làm cho văn bản hoạt động trước
bật trả lời bằng giọng nói thứ hai
chuyển sang kênh thoại Discord cuối cùng nếu bạn muốn có trải nghiệm đầy đủ

Bước 1: Đảm bảo Hermes bình thường hoạt động trước

Trước khi chạm vào chế độ giọng nói, hãy xác minh rằng:

Hermes bắt đầu
nhà cung cấp của bạn đã được cấu hình
Agent có thể trả lời lời nhắc văn bản một cách bình thường

Hermes

Hãy hỏi điều gì đó đơn giản:

What tools do you have available?

Nếu điều đó vẫn chưa ổn định, trước tiên hãy sửa chế độ văn bản.

Bước 2: cài đặt các tính năng bổ sung phù hợp

Micrô CLI + phát lại

pip install "Hermes-agent[voice]"

Nền tảng nhắn tin

pip install "Hermes-agent[messaging]"

Premium ElevenLabs TTS

pip install "Hermes-agent[tts-premium]"

NeuTTS cục bộ (tùy chọn)

Python -m pip install -U neutts[all]

Mọi thứ

pip install "Hermes-agent[all]"

Bước 3: cài đặt các phụ thuộc hệ thống

macOS

brew install portaudio ffmpeg opus
brew install espeak-ng

Ubuntu / Debian

sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng

Tại sao những điều này lại quan trọng:

portaudio → đầu vào / phát lại micrô cho chế độ giọng nói CLI
ffmpeg → chuyển đổi âm thanh cho TTS và gửi tin nhắn
opus → Hỗ trợ codec giọng nói Discord
espeak-ng → phụ trợ phát âm cho NeuTTS

Bước 4: chọn nhà cung cấp STT và TTS

Hermes hỗ trợ cả ngăn xếp lời nói cục bộ và đám mây.

Thiết lập dễ nhất/rẻ nhất

Sử dụng STT cục bộ và Edge TTS miễn phí:

Nhà cung cấp STT: local
Nhà cung cấp TTS: edge

Đây thường là nơi tốt nhất để bắt đầu.

Ví dụ về tệp môi trường

Thêm vào ~/.Hermes/.env:

# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OpenAI_KEY=***

# Premium TTS (optional)
ELEVENLABS_API_KEY=***

Khuyến nghị của nhà cung cấp

Chuyển giọng nói thành văn bản

local → mặc định tốt nhất cho quyền riêng tư và sử dụng không tốn phí
groq → sao chép đám mây rất nhanh
OpenAI → dự phòng được trả lương cao

Chuyển văn bản thành giọng nói

edge → miễn phí và đủ tốt cho hầu hết người dùng
neutts → TTS cục bộ/trên thiết bị miễn phí
elevenlabs → chất lượng tốt nhất
OpenAI → trung bình tốt
Mistral → Opus đa ngôn ngữ, bản địa

Nếu bạn sử dụng `Hermes setup`

Nếu bạn chọn NeuTTS trong trình hướng dẫn thiết lập, Hermes sẽ kiểm tra xem neutts đã được cài đặt chưa. Nếu thiếu, trình hướng dẫn sẽ cho bạn biết NeuTTS cần gói Python neutts và gói hệ thống espeak-ng, đề nghị cài đặt chúng cho bạn, cài đặt espeak-ng bằng trình quản lý gói nền tảng của bạn, sau đó chạy:

Python -m pip install -U neutts[all]

Nếu bạn bỏ qua quá trình cài đặt đó hoặc cài đặt không thành công, trình hướng dẫn sẽ quay lại Edge TTS.

Bước 5: cấu hình đề xuất

voice:
  record_key: "ctrl+b"
  max_recording_seconds: 120
  auto_tts: false
  silence_threshold: 200
  silence_duration: 3.0

stt:
  provider: "local"
  local:
    model: "base"

tts:
  provider: "edge"
  edge:
    voice: "en-US-AriaNeural"

Đây là một mặc định bảo thủ tốt cho hầu hết mọi người.

Thay vào đó, nếu bạn muốn TTS cục bộ, hãy chuyển khối tts sang:

tts:
  provider: "neutts"
  neutts:
    ref_audio: ''
    ref_text: ''
    model: neuphonic/neutts-air-q4-gguf
    device: cpu

Trường hợp sử dụng 1: Chế độ giọng nói CLI

Bật nó lên

Bắt đầu Hermes:

Hermes

Bên trong CLI:

/voice on

Luồng ghi

Khóa mặc định:

Ctrl+B

Quy trình làm việc:

nhấn Ctrl+B
nói
chờ phát hiện im lặng để tự động dừng ghi
Hermes phiên âm và phản hồi
nếu TTS được bật, nó sẽ đưa ra câu trả lời
vòng lặp có thể tự động khởi động lại để sử dụng liên tục

Các lệnh hữu ích

/voice
/voice on
/voice off
/voice tts
/voice status

Quy trình làm việc CLI tốt

Gỡ lỗi trực tiếp

Nói:

I keep getting a Docker permission error. Help me debug it.

Sau đó tiếp tục rảnh tay:

"Đọc lại lỗi cuối cùng"
"Giải thích nguyên nhân gốc rễ bằng những thuật ngữ đơn giản hơn"
"Bây giờ hãy cho tôi cách khắc phục chính xác"

Nghiên cứu/ động não

Tuyệt vời cho:

vừa đi vừa suy nghĩ
đưa ra những ý tưởng chưa hình thành
yêu cầu Hermes sắp xếp suy nghĩ của bạn theo thời gian thực

Khả năng truy cập / phiên gõ ítNếu việc gõ phím không thuận tiện thì chế độ giọng nói là một trong những cách nhanh nhất để duy trì vòng lặp Hermes đầy đủ.

Điều chỉnh hành vi CLI

Ngưỡng im lặng

Nếu Hermes bắt đầu/dừng lại quá mạnh mẽ, hãy điều chỉnh:

voice:
  silence_threshold: 250

Ngưỡng cao hơn = ít nhạy cảm hơn.

Thời gian im lặng

Nếu bạn tạm dừng nhiều giữa các câu, hãy tăng:

voice:
  silence_duration: 4.0

Phím ghi

Nếu Ctrl+B xung đột với thiết bị đầu cuối hoặc thói quen tmux của bạn:

voice:
  record_key: "ctrl+space"

Trường hợp sử dụng 2: trả lời bằng giọng nói trong Telegram hoặc Discord

Chế độ này đơn giản hơn các kênh thoại đầy đủ.

Hermes vẫn là một bot trò chuyện bình thường nhưng có thể nói câu trả lời.

Khởi động cổng

Hermes gateway

Bật trả lời bằng giọng nói

Bên trong Telegram hoặc Discord:

/voice on

hoặc

/voice tts

Chế độ

Chế độ	Ý nghĩa
`off`	chỉ văn bản
`voice_only`	chỉ nói khi người dùng gửi giọng nói
`all`	nói từng câu trả lời

Khi nào nên sử dụng chế độ nào

/voice on nếu bạn chỉ muốn trả lời bằng giọng nói cho các tin nhắn có nguồn gốc bằng giọng nói
/voice tts nếu bạn muốn có một trợ lý nói hoàn toàn mọi lúc

Quy trình nhắn tin tốt

Trợ lý Telegram trên điện thoại của bạn

Sử dụng khi:

bạn đang ở xa máy của mình
bạn muốn gửi ghi chú bằng giọng nói và nhận được câu trả lời nhanh chóng
bạn muốn Hermes hoạt động như một trợ lý nghiên cứu hoặc hoạt động di động

Discord DM có đầu ra bằng giọng nói

Hữu ích khi bạn muốn tương tác riêng tư mà không có hành vi đề cập đến kênh máy chủ.

Trường hợp sử dụng 3: Kênh thoại Discord

Đây là chế độ tiên tiến nhất.

Hermes tham gia Discord VC, lắng nghe bài phát biểu của người dùng, phiên âm nó, chạy quy trình tác nhân thông thường và nói các câu trả lời trở lại kênh.

Quyền Discord bắt buộc

Ngoài việc thiết lập bot văn bản thông thường, hãy đảm bảo bot có:

Kết nối
Nói
tốt nhất là Sử dụng Hoạt động bằng giọng nói

Đồng thời kích hoạt các ý định đặc quyền trong Cổng thông tin dành cho nhà phát triển:

Ý định hiện diện
Ý định của thành viên máy chủ
Ý định nội dung tin nhắn

Tham gia và rời đi

Trong kênh văn bản Discord có bot:

/voice join
/voice leave
/voice status

Điều gì xảy ra khi tham gia

người dùng nói trong VC
Hermes phát hiện ranh giới lời nói
bảng điểm được đăng trong kênh văn bản liên quan
Hermes trả lời bằng văn bản và âm thanh
kênh văn bản là kênh đã phát hành /voice join

Các phương pháp hay nhất để sử dụng Discord VC

giữ chặt Discord_ALLOWED_USERS
lúc đầu sử dụng kênh bot/thử nghiệm chuyên dụng
xác minh STT và TTS hoạt động ở chế độ giọng nói trò chuyện văn bản thông thường trước khi thử chế độ VC

Đề xuất chất lượng giọng nói

Thiết lập chất lượng tốt nhất

STT: large-v3 cục bộ hoặc Groq whisper-large-v3
TTS: ElevenLabs

Thiết lập tốc độ/tiện lợi tốt nhất

STT: base cục bộ hoặc Groq
TTS: Cạnh

Thiết lập không tốn phí tốt nhất

STT: địa phương
TTS: Cạnh

Các chế độ lỗi thường gặp

"Không tìm thấy thiết bị âm thanh"

Cài đặt portaudio.

"Bot tham gia nhưng không nghe thấy gì"

Kiểm tra:

ID người dùng Discord của bạn nằm trong Discord_ALLOWED_USERS
bạn không bị tắt tiếng
ý định đặc quyền được kích hoạt
bot có quyền Kết nối/Nói

"Nó phiên âm nhưng không nói"

Kiểm tra:

Cấu hình nhà cung cấp TTS
Khóa / hạn ngạch API cho ElevenLabs hoặc OpenAI
Cài đặt ffmpeg cho đường dẫn chuyển đổi Edge

"Thì thầm tạo ra rác"

Hãy thử:

môi trường yên tĩnh hơn
silence_threshold cao hơn
nhà cung cấp/mô hình STT khác nhau
Lời nói ngắn gọn, rõ ràng hơn

"Nó hoạt động trong DM nhưng không hoạt động trong kênh máy chủ"

Đó là thường xuyên đề cập đến chính sách.

Theo mặc định, bot cần có @mention trong các kênh văn bản của máy chủ Discord trừ khi được định cấu hình khác.

Đề xuất thiết lập tuần đầu tiên

Nếu bạn muốn con đường ngắn nhất dẫn đến thành công:

làm cho văn bản Hermes hoạt động
cài đặt Hermes-agent[voice]
sử dụng chế độ giọng nói CLI với STT cục bộ + Edge TTS
sau đó kích hoạt /voice on trong Telegram hoặc Discord
chỉ sau đó, hãy thử chế độ Discord VC

Sự tiến triển đó giữ cho bề mặt gỡ lỗi nhỏ.

Chế độ giọng nói nào phù hợp​

Chọn thiết lập chế độ giọng nói của bạn​

Bước 1: Đảm bảo Hermes bình thường hoạt động trước​

Bước 2: cài đặt các tính năng bổ sung phù hợp​

Micrô CLI + phát lại​

Nền tảng nhắn tin​

Premium ElevenLabs TTS​

NeuTTS cục bộ (tùy chọn)​

Mọi thứ​

Bước 3: cài đặt các phụ thuộc hệ thống​

macOS​

Ubuntu / Debian​

Bước 4: chọn nhà cung cấp STT và TTS​

Thiết lập dễ nhất/rẻ nhất​

Ví dụ về tệp môi trường​

Khuyến nghị của nhà cung cấp​

Chuyển giọng nói thành văn bản​

Chuyển văn bản thành giọng nói​

Nếu bạn sử dụng Hermes setup​

Bước 5: cấu hình đề xuất​

Trường hợp sử dụng 1: Chế độ giọng nói CLI​

Bật nó lên​

Luồng ghi​

Các lệnh hữu ích​

Quy trình làm việc CLI tốt​

Gỡ lỗi trực tiếp​

Nghiên cứu/ động não​

Khả năng truy cập / phiên gõ ítNếu việc gõ phím không thuận tiện thì chế độ giọng nói là một trong những cách nhanh nhất để duy trì vòng lặp Hermes đầy đủ.​

Điều chỉnh hành vi CLI​

Ngưỡng im lặng​

Thời gian im lặng​

Phím ghi​

Trường hợp sử dụng 2: trả lời bằng giọng nói trong Telegram hoặc Discord​

Khởi động cổng​

Bật trả lời bằng giọng nói​

Chế độ​

Khi nào nên sử dụng chế độ nào​

Quy trình nhắn tin tốt​

Trợ lý Telegram trên điện thoại của bạn​

Discord DM có đầu ra bằng giọng nói​

Trường hợp sử dụng 3: Kênh thoại Discord​

Quyền Discord bắt buộc​

Tham gia và rời đi​

Điều gì xảy ra khi tham gia​

Các phương pháp hay nhất để sử dụng Discord VC​

Đề xuất chất lượng giọng nói​

Thiết lập chất lượng tốt nhất​

Thiết lập tốc độ/tiện lợi tốt nhất​

Thiết lập không tốn phí tốt nhất​

Các chế độ lỗi thường gặp​

"Không tìm thấy thiết bị âm thanh"​

"Bot tham gia nhưng không nghe thấy gì"​

"Nó phiên âm nhưng không nói"​

"Thì thầm tạo ra rác"​

"Nó hoạt động trong DM nhưng không hoạt động trong kênh máy chủ"​

Đề xuất thiết lập tuần đầu tiên​

Nơi đọc tiếp theo​