Chuyển tới nội dung chính

Sử dụng Chế độ giọng nói với Hermes

Hướng dẫn này là người bạn đồng hành thiết thực với tham chiếu tính năng Chế độ giọng nói.

Nếu trang tính năng giải thích những gì chế độ giọng nói có thể thực hiện thì hướng dẫn này sẽ chỉ ra cách sử dụng nó thực sự hiệu quả.

Chế độ giọng nói nào phù hợp

Chế độ giọng nói đặc biệt hữu ích khi:

  • bạn muốn có quy trình làm việc CLI rảnh tay
  • bạn muốn có phản hồi bằng giọng nói trong Telegram hoặc Discord
  • bạn muốn Hermes ngồi trong kênh thoại Discord để trò chuyện trực tiếp
  • bạn muốn nắm bắt, gỡ lỗi hoặc qua lại ý tưởng nhanh chóng trong khi đi bộ xung quanh thay vì gõ

Chọn thiết lập chế độ giọng nói của bạn

Thực sự có ba trải nghiệm giọng nói khác nhau trong Hermes.

Chế độTốt nhất choNền tảng
Vòng micro tương tácSử dụng rảnh tay cá nhân trong khi viết mã hoặc nghiên cứuCLI
Trả lời bằng giọng nói trong trò chuyệnPhản hồi bằng giọng nói cùng với tin nhắn thông thườngĐiện tín, Bất hòa
Bot kênh thoại trực tiếpCuộc trò chuyện trực tiếp theo nhóm hoặc cá nhân trong VCKênh thoại Discord

Một con đường tốt là:

  1. làm cho văn bản hoạt động trước
  2. bật trả lời bằng giọng nói thứ hai
  3. chuyển sang kênh thoại Discord cuối cùng nếu bạn muốn có trải nghiệm đầy đủ

Bước 1: Đảm bảo Hermes bình thường hoạt động trước

Trước khi chạm vào chế độ giọng nói, hãy xác minh rằng:

  • Hermes bắt đầu
  • nhà cung cấp của bạn đã được cấu hình
  • đại lý có thể trả lời lời nhắc văn bản một cách bình thường
hermes

Hãy hỏi điều gì đó đơn giản:

What tools do you have available?

Nếu điều đó vẫn chưa ổn định, trước tiên hãy sửa chế độ văn bản.

Bước 2: cài đặt các tính năng bổ sung phù hợp

Micrô CLI + phát lại

pip install "hermes-agent[voice]"

Nền tảng nhắn tin

pip install "hermes-agent[messaging]"

Premium ElevenLabs TTS

pip install "hermes-agent[tts-premium]"

NeuTTS cục bộ (tùy chọn)

python -m pip install -U neutts[all]

Mọi thứ

pip install "hermes-agent[all]"

Bước 3: cài đặt các phụ thuộc hệ thống

macOS

brew install portaudio ffmpeg opus
brew install espeak-ng

Ubuntu / Debian

sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng

Tại sao những điều này lại quan trọng:

  • portaudio → đầu vào / phát lại micrô cho chế độ giọng nói CLI
  • ffmpeg → chuyển đổi âm thanh cho TTS và gửi tin nhắn
  • opus → Hỗ trợ codec giọng nói Discord
  • espeak-ng → phần phụ trợ phát âm cho NeuTTS

Bước 4: chọn nhà cung cấp STT và TTS

Hermes hỗ trợ cả ngăn xếp lời nói cục bộ và đám mây.

Thiết lập dễ nhất/rẻ nhất

Sử dụng STT cục bộ và Edge TTS miễn phí:

  • Nhà cung cấp STT: local
  • Nhà cung cấp TTS: edge

Đây thường là nơi tốt nhất để bắt đầu.

Ví dụ về tệp môi trường

Thêm vào ~/.hermes/.env :

# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***

# Premium TTS (optional)
ELEVENLABS_API_KEY=***

Khuyến nghị của nhà cung cấp

Chuyển giọng nói thành văn bản

  • local → mặc định tốt nhất cho quyền riêng tư và sử dụng không tốn phí
  • groq → sao chép đám mây rất nhanh
  • openai → dự phòng được trả lương cao

Chuyển văn bản thành giọng nói

  • edge → miễn phí và đủ tốt cho hầu hết người dùng
  • neutts → TTS cục bộ/trên thiết bị miễn phí
  • elevenlabs → chất lượng tốt nhất
  • openai → trung bình tốt

Nếu bạn sử dụng hermes setupNếu bạn chọn NeuTTS trong trình hướng dẫn thiết lập, Hermes sẽ kiểm tra xem neutts đã được cài đặt chưa. Nếu thiếu, trình hướng dẫn sẽ cho bạn biết NeuTTS cần gói Python neutts và gói hệ thống espeak-ng , đề nghị cài đặt chúng cho bạn, cài đặt espeak-ng bằng trình quản lý gói nền tảng của bạn rồi chạy:

python -m pip install -U neutts[all]

Nếu bạn bỏ qua quá trình cài đặt đó hoặc cài đặt không thành công, trình hướng dẫn sẽ quay lại Edge TTS.

Bước 5: cấu hình đề xuất

voice:
record_key: "ctrl+b"
max_recording_seconds: 120
auto_tts: false
silence_threshold: 200
silence_duration: 3.0

stt:
provider: "local"
local:
model: "base"

tts:
provider: "edge"
edge:
voice: "en-US-AriaNeural"

Đây là một mặc định bảo thủ tốt cho hầu hết mọi người.

Thay vào đó, nếu bạn muốn TTS cục bộ, hãy chuyển khối tts sang:

tts:
provider: "neutts"
neutts:
ref_audio: ''
ref_text: ''
model: neuphonic/neutts-air-q4-gguf
device: cpu

Trường hợp sử dụng 1: Chế độ giọng nói CLI

Bật nó lên

Bắt đầu Hermes:

hermes

Bên trong CLI:

/voice on

Luồng ghi

Khóa mặc định:

  • Ctrl+B

Quy trình làm việc:

  1. nhấn Ctrl+B
  2. nói
  3. chờ phát hiện im lặng để tự động dừng ghi
  4. Hermes phiên âm và phản hồi
  5. nếu TTS được bật, nó sẽ đưa ra câu trả lời
  6. vòng lặp có thể tự động khởi động lại để sử dụng liên tục

Các lệnh hữu ích

/voice
/voice on
/voice off
/voice tts
/voice status

Quy trình làm việc CLI tốt

Gỡ lỗi trực tiếp

Nói:

I keep getting a docker permission error. Help me debug it.

Sau đó tiếp tục rảnh tay:

  • "Đọc lại lỗi cuối cùng"
  • "Giải thích nguyên nhân gốc rễ bằng những thuật ngữ đơn giản hơn"
  • "Bây giờ hãy cho tôi cách khắc phục chính xác"

Nghiên cứu/ động não

Tuyệt vời cho:

  • vừa đi vừa suy nghĩ
  • đưa ra những ý tưởng chưa hình thành
  • yêu cầu Hermes sắp xếp suy nghĩ của bạn theo thời gian thực

Khả năng truy cập / phiên gõ ít

Nếu việc gõ phím không thuận tiện thì chế độ giọng nói là một trong những cách nhanh nhất để duy trì vòng lặp Hermes đầy đủ.

Điều chỉnh hành vi CLI

Ngưỡng im lặng

Nếu Hermes bắt đầu/dừng lại quá mạnh mẽ, hãy điều chỉnh:

voice:
silence_threshold: 250

Ngưỡng cao hơn = ít nhạy cảm hơn.

Thời gian im lặng

Nếu bạn tạm dừng nhiều giữa các câu, hãy tăng:

voice:
silence_duration: 4.0

Phím ghi

Nếu Ctrl+B xung đột với terminal hoặc thói quen tmux của bạn:

voice:
record_key: "ctrl+space"

Trường hợp sử dụng 2: trả lời bằng giọng nói trong Telegram hoặc Discord

Chế độ này đơn giản hơn các kênh thoại đầy đủ.

Hermes vẫn là một bot trò chuyện bình thường nhưng có thể nói câu trả lời.

Khởi động cổng

hermes gateway

Bật trả lời bằng giọng nói

Bên trong Telegram hoặc Discord:

/voice on

hoặc

/voice tts

Chế độ

Chế độÝ nghĩa
offchỉ văn bản
voice_onlychỉ nói khi người dùng gửi giọng nói
allnói từng câu trả lời

Khi nào nên sử dụng chế độ nào

  • /voice on nếu bạn chỉ muốn trả lời bằng giọng nói cho các tin nhắn có nguồn gốc bằng giọng nói
  • /voice tts nếu bạn luôn muốn có một trợ lý nói hoàn toàn

Quy trình nhắn tin tốt

Trợ lý Telegram trên điện thoại của bạn

Sử dụng khi:

  • bạn đang ở xa máy của mình
  • bạn muốn gửi ghi chú bằng giọng nói và nhận được câu trả lời nhanh chóng
  • bạn muốn Hermes hoạt động như một trợ lý nghiên cứu hoặc hoạt động di động

Discord DM có đầu ra bằng giọng nói

Hữu ích khi bạn muốn tương tác riêng tư mà không có hành vi đề cập đến kênh máy chủ.

Trường hợp sử dụng 3: Kênh thoại Discord

Đây là chế độ tiên tiến nhất.Hermes tham gia Discord VC, lắng nghe bài phát biểu của người dùng, phiên âm nó, chạy quy trình tác nhân thông thường và nói các câu trả lời trở lại kênh.

Quyền Discord bắt buộc

Ngoài việc thiết lập bot văn bản thông thường, hãy đảm bảo bot có:

  • Kết nối
  • Nói
  • tốt nhất là Sử dụng Hoạt động bằng giọng nói

Đồng thời kích hoạt các ý định đặc quyền trong Cổng thông tin dành cho nhà phát triển:

  • Ý định hiện diện
  • Ý định của thành viên máy chủ
  • Ý định nội dung tin nhắn

Tham gia và rời đi

Trong kênh văn bản Discord có bot:

/voice join
/voice leave
/voice status

Điều gì xảy ra khi tham gia

  • người dùng nói trong VC
  • Hermes phát hiện ranh giới lời nói
  • bảng điểm được đăng trong kênh văn bản liên quan
  • Hermes trả lời bằng văn bản và âm thanh
  • kênh văn bản là kênh mà /voice join được phát hành

Các phương pháp hay nhất để sử dụng Discord VC

  • giữ chặt DISCORD_ALLOWED_USERS
  • lúc đầu sử dụng kênh bot/thử nghiệm chuyên dụng
  • xác minh STT và TTS hoạt động ở chế độ giọng nói trò chuyện văn bản thông thường trước khi thử chế độ VC

Đề xuất chất lượng giọng nói

Thiết lập chất lượng tốt nhất

  • STT: địa phương large-v3 hoặc Groq whisper-large-v3
  • TTS: ElevenLabs

Thiết lập tốc độ/tiện lợi tốt nhất

  • STT: địa phương base hoặc Groq
  • TTS: Cạnh

Thiết lập không tốn phí tốt nhất

  • STT: địa phương
  • TTS: Cạnh

Các chế độ lỗi thường gặp

"Không tìm thấy thiết bị âm thanh"

Cài đặt portaudio .

"Bot tham gia nhưng không nghe thấy gì"

Kiểm tra:

  • ID người dùng Discord của bạn là DISCORD_ALLOWED_USERS
  • bạn không bị tắt tiếng
  • ý định đặc quyền được kích hoạt
  • bot có quyền Kết nối/Nói

"Nó phiên âm nhưng không nói"

Kiểm tra:

  • Cấu hình nhà cung cấp TTS
  • Khóa/hạn ngạch API cho ElevenLabs hoặc OpenAI
  • ffmpeg cài đặt cho đường dẫn chuyển đổi Edge

"Thì thầm tạo ra rác"

Hãy thử:

  • môi trường yên tĩnh hơn
  • cao hơn silence_threshold
  • nhà cung cấp/mô hình STT khác nhau
  • Lời nói ngắn gọn, rõ ràng hơn

"Nó hoạt động trong DM nhưng không hoạt động trong kênh máy chủ"

Đó là thường xuyên đề cập đến chính sách.

Theo mặc định, bot cần @mention trong các kênh văn bản của máy chủ Discord trừ khi được định cấu hình khác.

Đề xuất thiết lập tuần đầu tiên

Nếu bạn muốn con đường ngắn nhất dẫn đến thành công:

  1. làm cho văn bản Hermes hoạt động
  2. cài đặt hermes-agent[voice]
  3. sử dụng chế độ giọng nói CLI với STT cục bộ + Edge TTS
  4. sau đó kích hoạt /voice on trong Telegram hoặc Discord
  5. chỉ sau đó, hãy thử chế độ Discord VC

Sự tiến triển đó giữ cho bề mặt gỡ lỗi nhỏ.

Nơi đọc tiếp theo