Giọng nói & TTS
Hermes Agent hỗ trợ cả đầu ra chuyển văn bản thành giọng nói và sao chép tin nhắn thoại trên tất cả các nền tảng nhắn tin.
Chuyển văn bản thành giọng nói
Chuyển đổi văn bản thành giọng nói với năm nhà cung cấp:
| Nhà cung cấp | Chất lượng | Chi phí | Khóa API |
|---|---|---|---|
| ** Edge TTS** (mặc định) | Tốt | Miễn phí | Không cần thiết |
| ElevenLabs | Xuất sắc | Đã trả tiền | ELEVENLABS_API_KEY |
| OpenAI TTS | Tốt | Đã trả tiền | VOICE_TOOLS_OPENAI_KEY |
| TTS MiniMax | Xuất sắc | Đã trả tiền | MINIMAX_API_KEY |
| NeuTTS | Tốt | Miễn phí | Không cần thiết |
Phân phối nền tảng
| Nền tảng | Giao hàng | Định dạng |
|---|---|---|
| Điện tín | Bong bóng thoại (phát nội tuyến) | Tác phẩm .ogg |
| Bất hòa | Bong bóng thoại (Opus/OGG), quay lại tệp đính kèm | Tác phẩm/MP3 |
| Tệp đính kèm âm thanh | MP3 | |
| CLI | Đã lưu vào ~/.hermes/audio_cache/ | MP3 |
Cấu hình
# In ~/.hermes/config.yaml
tts:
provider: "edge"
# "edge"
| "elevenlabs" | "openai"
| "minimax" | "neutts"
edge:
voice: "en-US-AriaNeural"
# 322 voices, 74 languages
elevenlabs:
voice_id: "pNInz6obpgDQGcFmaJgB"
# Adam
model_id: "eleven_multilingual_v2"
openai:
model: "gpt-4o-mini-tts"
voice: "alloy"
# alloy, echo, fable, onyx, nova, shimmer
base_url: "https://api.openai.com/v1"
# Override for OpenAI-compatible TTS endpoints
minimax:
model: "speech-2.8-hd"
# speech-2.8-hd (default), speech-2.8-turbo
voice_id: "English_Graceful_Lady"
# See https://platform.minimax.io/faq/system-voice-id
speed: 1
# 0.5 - 2.0
vol: 1
# 0 - 10
pitch: 0
# -12 - 12
neutts:
ref_audio: ''
ref_text: ''
model: neuphonic/neutts-air-q4-gguf
device: cpu
Bong bóng giọng nói Telegram & ffmpeg
Bong bóng thoại Telegram yêu cầu định dạng âm thanh Opus/OGG:
- OpenAI và ElevenLabs sản xuất Opus nguyên bản — không cần thiết lập thêm
- Edge TTS (mặc định) xuất MP3 và cần ffmpeg để chuyển đổi:
- MiniMax TTS xuất MP3 và cần ffmpeg để chuyển đổi cho bong bóng thoại Telegram
- NeuTTS xuất ra WAV và cũng cần ffmpeg để chuyển đổi cho bong bóng thoại Telegram
# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg
# Fedora
sudo dnf install ffmpeg
Nếu không có ffmpeg, âm thanh Edge TTS, MiniMax TTS và NeuTTS sẽ được gửi dưới dạng tệp âm thanh thông thường (có thể phát nhưng được hiển thị dưới dạng trình phát hình chữ nhật thay vì bong bóng thoại).
Nếu bạn muốn bong bóng thoại mà không cần cài đặt ffmpeg, hãy chuyển sang nhà cung cấp OpenAI hoặc ElevenLabs.
Phiên âm tin nhắn thoại (STT)
Tin nhắn thoại được gửi trên Telegram, Discord, WhatsApp, Slack hoặc Signal sẽ tự động được chép lại và đưa dưới dạng văn bản vào cuộc trò chuyện. Nhân viên xem bản ghi dưới dạng văn bản bình thường.
| Nhà cung cấp | Chất lượng | Chi phí | Khóa API |
|---|---|---|---|
| Lời thì thầm cục bộ (mặc định) | Tốt | Miễn phí | Không cần thiết |
| API thì thầm Groq | Tốt–Tốt nhất | Cấp miễn phí | GROQ_API_KEY |
| API thì thầm OpenAI | Tốt–Tốt nhất | Đã trả tiền | VOICE_TOOLS_OPENAI_KEY hoặc OPENAI_API_KEY |
Phiên âm cục bộ hoạt động ngay lập tức khi faster-whisper được cài đặt. Nếu điều đó không khả dụng, Hermes cũng có thể sử dụng whisper CLI cục bộ từ các vị trí cài đặt phổ biến (như /opt/homebrew/bin ) hoặc lệnh tùy chỉnh thông qua HERMES_LOCAL_STT_COMMAND .
Cấu hình
# In ~/.hermes/config.yaml
stt:
provider: "local"
# "local"
| "groq" | "openai" | "mistral"
local:
model: "base"
# tiny, base, small, medium, large-v3
openai:
model: "whisper-1"
# whisper-1, gpt-4o-mini-transcribe, gpt-4o-transcribe
mistral:
model: "voxtral-mini-latest"
# voxtral-mini-latest, voxtral-mini-2602
Chi tiết nhà cung cấp
Cục bộ (thì thầm nhanh hơn) — Chạy Whisper cục bộ thông qua faster-whisper. Sử dụng CPU theo mặc định, GPU nếu có. Kích thước mô hình:
| Người mẫu | Kích thước | Tốc độ | Chất lượng |
|---|---|---|---|
tiny | ~75 MB | Nhanh nhất | Cơ bản |
base | ~150 MB | Nhanh | Tốt (mặc định) |
small | ~500 MB | Trung bình | Tốt hơn |
medium | ~1,5 GB | Chậm hơn | Tuyệt vời |
large-v3 | ~3 GB | Chậm nhất | Tốt nhất |
API Groq — Yêu cầu GROQ_API_KEY . Dự phòng đám mây tốt khi bạn muốn có tùy chọn STT được lưu trữ miễn phí.API OpenAI — Chấp nhận VOICE_TOOLS_OPENAI_KEY trước và quay lại OPENAI_API_KEY . Hỗ trợ whisper-1 , gpt-4o-mini-transcribe và gpt-4o-transcribe .
API Mistral (Phiên âm Voxtral) — Yêu cầu MISTRAL_API_KEY . Sử dụng mô hình Voxtral Transcribe của Mistral. Hỗ trợ 13 ngôn ngữ, ghi nhật ký người nói và dấu thời gian ở cấp độ từ. Cài đặt với pip install hermes-agent[mistral] .
Dự phòng CLI cục bộ tùy chỉnh — Đặt HERMES_LOCAL_STT_COMMAND nếu bạn muốn Hermes gọi trực tiếp lệnh phiên âm cục bộ. Mẫu lệnh hỗ trợ các phần giữ chỗ {input_path} , {output_dir} , {language} và {model} .
Hành vi dự phòng
Nếu nhà cung cấp đã định cấu hình của bạn không có sẵn, Hermes sẽ tự động quay lại:
- Không có tính năng thì thầm nhanh hơn cục bộ → Thử
whisperCLI hoặcHERMES_LOCAL_STT_COMMANDcục bộ trước nhà cung cấp đám mây - Khóa Groq chưa được đặt → Quay lại phiên âm cục bộ, sau đó là OpenAI
- Khóa OpenAI chưa được đặt → Quay lại phiên âm cục bộ, sau đó là Groq
- Chưa đặt khóa sai/SDK → Bị bỏ qua trong tính năng tự động phát hiện; chuyển sang nhà cung cấp có sẵn tiếp theo
- Không có gì → Tin nhắn thoại được gửi kèm theo ghi chú chính xác cho người dùng