Giọng nói & TTS

Hermes Agent hỗ trợ cả đầu ra chuyển văn bản thành giọng nói và sao chép tin nhắn thoại trên tất cả các nền tảng nhắn tin.

Chuyển văn bản thành giọng nói

Chuyển đổi văn bản thành giọng nói với năm nhà cung cấp:

Nhà cung cấp	Chất lượng	Chi phí	Khóa API
Edge TTS (mặc định)	Tốt	Miễn phí	Không cần thiết
ElevenLabs	Xuất sắc	Đã trả tiền	`ELEVENLABS_API_KEY`
OpenAI TTS	Tốt	Đã trả tiền	`VOICE_TOOLS_OPENAI_KEY`
TTS MiniMax	Xuất sắc	Đã trả tiền	`MINIMAX_API_KEY`
NeuTTS	Tốt	Miễn phí	Không cần thiết

Phân phối nền tảng

Nền tảng	Giao hàng	Định dạng
Telegram	Bong bóng thoại (phát nội tuyến)	`.ogg` Opus
Discord	Bong bóng thoại (Opus/OGG), quay lại tệp đính kèm	Opus/MP3
WhatsApp	Tệp đính kèm âm thanh	MP3
CLI	Đã lưu vào `~/.hermes/audio_cache/`	MP3

Cấu hình

# In ~/.hermes/config.yaml
tts:
  provider: "edge"               # "edge" | "elevenlabs" | "openai" | "minimax" | "neutts"
  edge:
    voice: "en-US-AriaNeural"    # 322 voices, 74 languages
  elevenlabs:
    voice_id: "pNInz6obpgDQGcFmaJgB"  # Adam
    model_id: "eleven_multilingual_v2"
  openai:
    model: "gpt-4o-mini-tts"
    voice: "alloy"               # alloy, echo, fable, onyx, nova, shimmer
    base_url: "https://api.openai.com/v1"  # Override for OpenAI-compatible TTS endpoints
  minimax:
    model: "speech-2.8-hd"       # speech-2.8-hd (default), speech-2.8-turbo
    voice_id: "English_Graceful_Lady"  # See https://platform.minimax.io/faq/system-voice-id
    speed: 1                     # 0.5 - 2.0
    vol: 1                       # 0 - 10
    pitch: 0                     # -12 - 12
  neutts:
    ref_audio: ''
    ref_text: ''
    model: neuphonic/neutts-air-q4-gguf
    device: cpu

Điều khiển tốc độ: Giá trị tts.speed toàn cục áp dụng cho tất cả các nhà cung cấp theo mặc định. Mỗi nhà cung cấp có thể ghi đè nó bằng cài đặt speed riêng (ví dụ: tts.openai.speed: 1.5). Tốc độ dành riêng cho nhà cung cấp được ưu tiên hơn giá trị toàn cục. Mặc định là 1.0 (tốc độ bình thường).

Bong bóng giọng nói Telegram & ffmpeg

Bong bóng thoại Telegram yêu cầu định dạng âm thanh Opus/OGG:

OpenAI và ElevenLabs sản xuất Opus nguyên bản — không cần thiết lập thêm
Edge TTS (mặc định) xuất MP3 và cần ffmpeg để chuyển đổi:
MiniMax TTS xuất MP3 và cần ffmpeg để chuyển đổi cho bong bóng thoại Telegram
NeuTTS xuất ra WAV và cũng cần ffmpeg để chuyển đổi cho bong bóng thoại Telegram

# Ubuntu/Debian
sudo apt install ffmpeg

# macOS
brew install ffmpeg

# Fedora
sudo dnf install ffmpeg

Nếu không có ffmpeg, âm thanh Edge TTS, MiniMax TTS và NeuTTS sẽ được gửi dưới dạng tệp âm thanh thông thường (có thể phát nhưng được hiển thị dưới dạng trình phát hình chữ nhật thay vì bong bóng thoại).

mẹo

Nếu bạn muốn bong bóng thoại mà không cần cài đặt ffmpeg, hãy chuyển sang nhà cung cấp OpenAI hoặc ElevenLabs.

Phiên âm tin nhắn thoại (STT)

Tin nhắn thoại được gửi trên Telegram, Discord, WhatsApp, Slack hoặc Signal sẽ tự động được chép lại và đưa dưới dạng văn bản vào cuộc trò chuyện. Nhân viên xem bản ghi dưới dạng văn bản bình thường.

Nhà cung cấp	Chất lượng	Chi phí	Khóa API
Lời thì thầm cục bộ (mặc định)	Tốt	Miễn phí	Không cần thiết
API thì thầm Groq	Tốt–Tốt nhất	Cấp miễn phí	`GROQ_API_KEY`
API thì thầm OpenAI	Tốt–Tốt nhất	Đã trả tiền	`VOICE_TOOLS_OPENAI_KEY` hoặc `OPENAI_API_KEY`

Cấu hình Zero

Phiên âm cục bộ hoạt động ngay lập tức khi faster-whisper được cài đặt. Nếu điều đó không khả dụng, Hermes cũng có thể sử dụng whisper CLI cục bộ từ các vị trí cài đặt phổ biến (như /opt/homebrew/bin ) hoặc lệnh tùy chỉnh thông qua HERMES_LOCAL_STT_COMMAND .

Cấu hình

# In ~/.hermes/config.yaml
stt:
  provider: "local"             # "local" | "groq"  | "openai"  | "mistral"
  local:
    model: "base"               # tiny, base, small, medium, large-v3
  openai:
    model: "whisper-1"          # whisper-1, gpt-4o-mini-transcribe, gpt-4o-transcribe
  mistral:
    model: "voxtral-mini-latest"  # voxtral-mini-latest, voxtral-mini-2602

Chi tiết nhà cung cấp

Cục bộ (thì thầm nhanh hơn) — Chạy Whisper cục bộ thông qua faster-whisper. Sử dụng CPU theo mặc định, GPU nếu có. Kích thước mô hình:

Mô hình	Kích thước	Tốc độ	Chất lượng
`tiny`	~75 MB	Nhanh nhất	Cơ bản
`base`	~150 MB	Nhanh	Tốt (mặc định)
`small`	~500 MB	Trung bình	Tốt hơn
`medium`	~1,5 GB	Chậm hơn	Tuyệt vời
`large-v3`	~3 GB	Chậm nhất	Tốt nhất

API Groq — Yêu cầu GROQ_API_KEY . Dự phòng đám mây tốt khi bạn muốn có tùy chọn STT được lưu trữ miễn phí.API OpenAI — Chấp nhận VOICE_TOOLS_OPENAI_KEY trước và quay lại OPENAI_API_KEY . Hỗ trợ whisper-1 , gpt-4o-mini-transcribe và gpt-4o-transcribe .

API Mistral (Phiên âm Voxtral) — Yêu cầu MISTRAL_API_KEY . Sử dụng mô hình Voxtral Transcribe của Mistral. Hỗ trợ 13 ngôn ngữ, ghi nhật ký người nói và dấu thời gian ở cấp độ từ. Cài đặt với pip install hermes-agent[mistral] .

Dự phòng CLI cục bộ tùy chỉnh — Đặt HERMES_LOCAL_STT_COMMAND nếu bạn muốn Hermes gọi trực tiếp lệnh phiên âm cục bộ. Mẫu lệnh hỗ trợ các phần giữ chỗ {input_path} , {output_dir} , {language} và {model} .

Hành vi dự phòng

Nếu nhà cung cấp đã định cấu hình của bạn không có sẵn, Hermes sẽ tự động quay lại:

Không có tính năng thì thầm nhanh hơn cục bộ → Thử whisper CLI hoặc HERMES_LOCAL_STT_COMMAND cục bộ trước nhà cung cấp đám mây
Khóa Groq chưa được đặt → Quay lại phiên âm cục bộ, sau đó là OpenAI
Khóa OpenAI chưa được đặt → Quay lại phiên âm cục bộ, sau đó là Groq
Chưa đặt khóa sai/SDK → Bị bỏ qua trong tính năng tự động phát hiện; chuyển sang nhà cung cấp có sẵn tiếp theo
Không có gì → Tin nhắn thoại được gửi kèm theo ghi chú chính xác cho người dùng

Chuyển văn bản thành giọng nói

Phân phối nền tảng​

Cấu hình​

Bong bóng giọng nói Telegram & ffmpeg​

Phiên âm tin nhắn thoại (STT)

Cấu hình​

Chi tiết nhà cung cấp​

Hành vi dự phòng​

Phân phối nền tảng

Cấu hình

Bong bóng giọng nói Telegram & ffmpeg

Cấu hình

Chi tiết nhà cung cấp

Hành vi dự phòng