Sử dụng Chế độ giọng nói với Hermes
Hướng dẫn này là người bạn đồng hành thiết thực với tham chiếu tính năng Chế độ giọng nói.
Nếu trang tính năng giải thích những gì chế độ giọng nói có thể thực hiện thì hướng dẫn này sẽ chỉ ra cách sử dụng nó thực sự hiệu quả.
Chế độ giọng nói nào phù hợp
Chế độ giọng nói đặc biệt hữu ích khi:
- bạn muốn có quy trình làm việc CLI rảnh tay
- bạn muốn có phản hồi bằng giọng nói trong Telegram hoặc Discord
- bạn muốn Hermes ngồi trong kênh thoại Discord để trò chuyện trực tiếp
- bạn muốn nắm bắt, gỡ lỗi hoặc qua lại ý tưởng nhanh chóng trong khi đi bộ xung quanh thay vì gõ
Chọn thiết lập chế độ giọng nói của bạn
Thực sự có ba trải nghiệm giọng nói khác nhau trong Hermes.
| Chế độ | Tốt nhất cho | Nền tảng |
|---|---|---|
| Vòng micro tương tác | Sử dụng rảnh tay cá nhân trong khi viết mã hoặc nghiên cứu | CLI |
| Trả lời bằng giọng nói trong trò chuyện | Phản hồi bằng giọng nói cùng với tin nhắn thông thường | Điện tín, Bất hòa |
| Bot kênh thoại trực tiếp | Cuộc trò chuyện trực tiếp theo nhóm hoặc cá nhân trong VC | Kênh thoại Discord |
Một con đường tốt là:
- làm cho văn bản hoạt động trước
- bật trả lời bằng giọng nói thứ hai
- chuyển sang kênh thoại Discord cuối cùng nếu bạn muốn có trải nghiệm đầy đủ
Bước 1: Đảm bảo Hermes bình thường hoạt động trước
Trước khi chạm vào chế độ giọng nói, hãy xác minh rằng:
- Hermes bắt đầu
- nhà cung cấp của bạn đã được cấu hình
- đại lý có thể trả lời lời nhắc văn bản một cách bình thường
hermes
Hãy hỏi điều gì đó đơn giản:
What tools do you have available?
Nếu điều đó vẫn chưa ổn định, trước tiên hãy sửa chế độ văn bản.
Bước 2: cài đặt các tính năng bổ sung phù hợp
Micrô CLI + phát lại
pip install "hermes-agent[voice]"
Nền tảng nhắn tin
pip install "hermes-agent[messaging]"
Premium ElevenLabs TTS
pip install "hermes-agent[tts-premium]"
NeuTTS cục bộ (tùy chọn)
python -m pip install -U neutts[all]
Mọi thứ
pip install "hermes-agent[all]"
Bước 3: cài đặt các phụ thuộc hệ thống
macOS
brew install portaudio ffmpeg opus
brew install espeak-ng
Ubuntu / Debian
sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng
Tại sao những điều này lại quan trọng:
portaudio→ đầu vào / phát lại micrô cho chế độ giọng nói CLIffmpeg→ chuyển đổi âm thanh cho TTS và gửi tin nhắnopus→ Hỗ trợ codec giọng nói Discordespeak-ng→ phần phụ trợ phát âm cho NeuTTS
Bước 4: chọn nhà cung cấp STT và TTS
Hermes hỗ trợ cả ngăn xếp lời nói cục bộ và đám mây.
Thiết lập dễ nhất/rẻ nhất
Sử dụng STT cục bộ và Edge TTS miễn phí:
- Nhà cung cấp STT:
local - Nhà cung cấp TTS:
edge
Đây thường là nơi tốt nhất để bắt đầu.
Ví dụ về tệp môi trường
Thêm vào ~/.hermes/.env :
# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***
# Premium TTS (optional)
ELEVENLABS_API_KEY=***
Khuyến nghị của nhà cung cấp
Chuyển giọng nói thành văn bản
local→ mặc định tốt nhất cho quyền riêng tư và sử dụng không tốn phígroq→ sao chép đám mây rất nhanhopenai→ dự phòng được trả lương cao
Chuyển văn bản thành giọng nói
edge→ miễn phí và đủ tốt cho hầu hết người dùngneutts→ TTS cục bộ/trên thiết bị miễn phíelevenlabs→ chất lượng tốt nhấtopenai→ trung bình tốt
Nếu bạn sử dụng hermes setupNếu bạn chọn NeuTTS trong trình hướng dẫn thiết lập, Hermes sẽ kiểm tra xem neutts đã được cài đặt chưa. Nếu thiếu, trình hướng dẫn sẽ cho bạn biết NeuTTS cần gói Python neutts và gói hệ thống espeak-ng , đề nghị cài đặt chúng cho bạn, cài đặt espeak-ng bằng trình quản lý gói nền tảng của bạn rồi chạy:
python -m pip install -U neutts[all]
Nếu bạn bỏ qua quá trình cài đặt đó hoặc cài đặt không thành công, trình hướng dẫn sẽ quay lại Edge TTS.
Bước 5: cấu hình đề xuất
voice:
record_key: "ctrl+b"
max_recording_seconds: 120
auto_tts: false
silence_threshold: 200
silence_duration: 3.0
stt:
provider: "local"
local:
model: "base"
tts:
provider: "edge"
edge:
voice: "en-US-AriaNeural"
Đây là một mặc định bảo thủ tốt cho hầu hết mọi người.
Thay vào đó, nếu bạn muốn TTS cục bộ, hãy chuyển khối tts sang:
tts:
provider: "neutts"
neutts:
ref_audio: ''
ref_text: ''
model: neuphonic/neutts-air-q4-gguf
device: cpu
Trường hợp sử dụng 1: Chế độ giọng nói CLI
Bật nó lên
Bắt đầu Hermes:
hermes
Bên trong CLI:
/voice on
Luồng ghi
Khóa mặc định:
Ctrl+B
Quy trình làm việc:
- nhấn
Ctrl+B - nói
- chờ phát hiện im lặng để tự động dừng ghi
- Hermes phiên âm và phản hồi
- nếu TTS được bật, nó sẽ đưa ra câu trả lời
- vòng lặp có thể tự động khởi động lại để sử dụng liên tục
Các lệnh hữu ích
/voice
/voice on
/voice off
/voice tts
/voice status
Quy trình làm việc CLI tốt
Gỡ lỗi trực tiếp
Nói:
I keep getting a docker permission error. Help me debug it.
Sau đó tiếp tục rảnh tay:
- "Đọc lại lỗi cuối cùng"
- "Giải thích nguyên nhân gốc rễ bằng những thuật ngữ đơn giản hơn"
- "Bây giờ hãy cho tôi cách khắc phục chính xác"
Nghiên cứu/ động não
Tuyệt vời cho:
- vừa đi vừa suy nghĩ
- đưa ra những ý tưởng chưa hình thành
- yêu cầu Hermes sắp xếp suy nghĩ của bạn theo thời gian thực
Khả năng truy cập / phiên gõ ít
Nếu việc gõ phím không thuận tiện thì chế độ giọng nói là một trong những cách nhanh nhất để duy trì vòng lặp Hermes đầy đủ.
Điều chỉnh hành vi CLI
Ngưỡng im lặng
Nếu Hermes bắt đầu/dừng lại quá mạnh mẽ, hãy điều chỉnh:
voice:
silence_threshold: 250
Ngưỡng cao hơn = ít nhạy cảm hơn.
Thời gian im lặng
Nếu bạn tạm dừng nhiều giữa các câu, hãy tăng:
voice:
silence_duration: 4.0
Phím ghi
Nếu Ctrl+B xung đột với terminal hoặc thói quen tmux của bạn:
voice:
record_key: "ctrl+space"
Trường hợp sử dụng 2: trả lời bằng giọng nói trong Telegram hoặc Discord
Chế độ này đơn giản hơn các kênh thoại đầy đủ.
Hermes vẫn là một bot trò chuyện bình thường nhưng có thể nói câu trả lời.
Khởi động cổng
hermes gateway
Bật trả lời bằng giọng nói
Bên trong Telegram hoặc Discord:
/voice on
hoặc
/voice tts
Chế độ
| Chế độ | Ý nghĩa |
|---|---|
off | chỉ văn bản |
voice_only | chỉ nói khi người dùng gửi giọng nói |
all | nói từng câu trả lời |
Khi nào nên sử dụng chế độ nào
/voice onnếu bạn chỉ muốn trả lời bằng giọng nói cho các tin nhắn có nguồn gốc bằng giọng nói/voice ttsnếu bạn luôn muốn có một trợ lý nói hoàn toàn
Quy trình nhắn tin tốt
Trợ lý Telegram trên điện thoại của bạn
Sử dụng khi:
- bạn đang ở xa máy của mình
- bạn muốn gửi ghi chú bằng giọng nói và nhận được câu trả lời nhanh chóng
- bạn muốn Hermes hoạt động như một trợ lý nghiên cứu hoặc hoạt động di động
Discord DM có đầu ra bằng giọng nói
Hữu ích khi bạn muốn tương tác riêng tư mà không có hành vi đề cập đến kênh máy chủ.
Trường hợp sử dụng 3: Kênh thoại Discord
Đây là chế độ tiên tiến nhất.Hermes tham gia Discord VC, lắng nghe bài phát biểu của người dùng, phiên âm nó, chạy quy trình tác nhân thông thường và nói các câu trả lời trở lại kênh.
Quyền Discord bắt buộc
Ngoài việc thiết lập bot văn bản thông thường, hãy đảm bảo bot có:
- Kết nối
- Nói
- tốt nhất là Sử dụng Hoạt động bằng giọng nói
Đồng thời kích hoạt các ý định đặc quyền trong Cổng thông tin dành cho nhà phát triển:
- Ý định hiện diện
- Ý định của thành viên máy chủ
- Ý định nội dung tin nhắn
Tham gia và rời đi
Trong kênh văn bản Discord có bot:
/voice join
/voice leave
/voice status
Điều gì xảy ra khi tham gia
- người dùng nói trong VC
- Hermes phát hiện ranh giới lời nói
- bảng điểm được đăng trong kênh văn bản liên quan
- Hermes trả lời bằng văn bản và âm thanh
- kênh văn bản là kênh mà
/voice joinđược phát hành
Các phương pháp hay nhất để sử dụng Discord VC
- giữ chặt
DISCORD_ALLOWED_USERS - lúc đầu sử dụng kênh bot/thử nghiệm chuyên dụng
- xác minh STT và TTS hoạt động ở chế độ giọng nói trò chuyện văn bản thông thường trước khi thử chế độ VC
Đề xuất chất lượng giọng nói
Thiết lập chất lượng tốt nhất
- STT: địa phương
large-v3hoặc Groqwhisper-large-v3 - TTS: ElevenLabs
Thiết lập tốc độ/tiện lợi tốt nhất
- STT: địa phương
basehoặc Groq - TTS: Cạnh
Thiết lập không tốn phí tốt nhất
- STT: địa phương
- TTS: Cạnh
Các chế độ lỗi thường gặp
"Không tìm thấy thiết bị âm thanh"
Cài đặt portaudio .
"Bot tham gia nhưng không nghe thấy gì"
Kiểm tra:
- ID người dùng Discord của bạn là
DISCORD_ALLOWED_USERS - bạn không bị tắt tiếng
- ý định đặc quyền được kích hoạt
- bot có quyền Kết nối/Nói
"Nó phiên âm nhưng không nói"
Kiểm tra:
- Cấu hình nhà cung cấp TTS
- Khóa/hạn ngạch API cho ElevenLabs hoặc OpenAI
ffmpegcài đặt cho đường dẫn chuyển đổi Edge
"Thì thầm tạo ra rác"
Hãy thử:
- môi trường yên tĩnh hơn
- cao hơn
silence_threshold - nhà cung cấp/mô hình STT khác nhau
- Lời nói ngắn gọn, rõ ràng hơn
"Nó hoạt động trong DM nhưng không hoạt động trong kênh máy chủ"
Đó là thường xuyên đề cập đến chính sách.
Theo mặc định, bot cần @mention trong các kênh văn bản của máy chủ Discord trừ khi được định cấu hình khác.
Đề xuất thiết lập tuần đầu tiên
Nếu bạn muốn con đường ngắn nhất dẫn đến thành công:
- làm cho văn bản Hermes hoạt động
- cài đặt
hermes-agent[voice] - sử dụng chế độ giọng nói CLI với STT cục bộ + Edge TTS
- sau đó kích hoạt
/voice ontrong Telegram hoặc Discord - chỉ sau đó, hãy thử chế độ Discord VC
Sự tiến triển đó giữ cho bề mặt gỡ lỗi nhỏ.