Chuyển tới nội dung chính

Giọng nói & TTS

Hermes Agent hỗ trợ cả đầu ra chuyển văn bản thành giọng nói và sao chép tin nhắn thoại trên tất cả các nền tảng nhắn tin.

Chuyển văn bản thành giọng nói

Chuyển đổi văn bản thành giọng nói với năm nhà cung cấp:

Nhà cung cấpChất lượngChi phíKhóa API
** Edge TTS** (mặc định)TốtMiễn phíKhông cần thiết
ElevenLabsXuất sắcĐã trả tiềnELEVENLABS_API_KEY
OpenAI TTSTốtĐã trả tiềnVOICE_TOOLS_OPENAI_KEY
TTS MiniMaxXuất sắcĐã trả tiềnMINIMAX_API_KEY
NeuTTSTốtMiễn phíKhông cần thiết

Phân phối nền tảng

Nền tảngGiao hàngĐịnh dạng
Điện tínBong bóng thoại (phát nội tuyến)Tác phẩm .ogg
Bất hòaBong bóng thoại (Opus/OGG), quay lại tệp đính kèmTác phẩm/MP3
WhatsAppTệp đính kèm âm thanhMP3
CLIĐã lưu vào ~/.hermes/audio_cache/MP3

Cấu hình

# In ~/.hermes/config.yaml
tts:
provider: "edge"

# "edge"

| "elevenlabs" | "openai"

| "minimax" | "neutts"
edge:
voice: "en-US-AriaNeural"

# 322 voices, 74 languages
elevenlabs:
voice_id: "pNInz6obpgDQGcFmaJgB"

# Adam
model_id: "eleven_multilingual_v2"
openai:
model: "gpt-4o-mini-tts"
voice: "alloy"

# alloy, echo, fable, onyx, nova, shimmer
base_url: "https://api.openai.com/v1"

# Override for OpenAI-compatible TTS endpoints
minimax:
model: "speech-2.8-hd"

# speech-2.8-hd (default), speech-2.8-turbo
voice_id: "English_Graceful_Lady"

# See https://platform.minimax.io/faq/system-voice-id
speed: 1

# 0.5 - 2.0
vol: 1

# 0 - 10
pitch: 0

# -12 - 12
neutts:
ref_audio: ''
ref_text: ''
model: neuphonic/neutts-air-q4-gguf
device: cpu

Bong bóng giọng nói Telegram & ffmpeg

Bong bóng thoại Telegram yêu cầu định dạng âm thanh Opus/OGG:

  • OpenAI và ElevenLabs sản xuất Opus nguyên bản — không cần thiết lập thêm
  • Edge TTS (mặc định) xuất MP3 và cần ffmpeg để chuyển đổi:
  • MiniMax TTS xuất MP3 và cần ffmpeg để chuyển đổi cho bong bóng thoại Telegram
  • NeuTTS xuất ra WAV và cũng cần ffmpeg để chuyển đổi cho bong bóng thoại Telegram
# Ubuntu/Debian
sudo apt install ffmpeg

# macOS
brew install ffmpeg

# Fedora
sudo dnf install ffmpeg

Nếu không có ffmpeg, âm thanh Edge TTS, MiniMax TTS và NeuTTS sẽ được gửi dưới dạng tệp âm thanh thông thường (có thể phát nhưng được hiển thị dưới dạng trình phát hình chữ nhật thay vì bong bóng thoại).

mẹo

Nếu bạn muốn bong bóng thoại mà không cần cài đặt ffmpeg, hãy chuyển sang nhà cung cấp OpenAI hoặc ElevenLabs.

Phiên âm tin nhắn thoại (STT)

Tin nhắn thoại được gửi trên Telegram, Discord, WhatsApp, Slack hoặc Signal sẽ tự động được chép lại và đưa dưới dạng văn bản vào cuộc trò chuyện. Nhân viên xem bản ghi dưới dạng văn bản bình thường.

Nhà cung cấpChất lượngChi phíKhóa API
Lời thì thầm cục bộ (mặc định)TốtMiễn phíKhông cần thiết
API thì thầm GroqTốt–Tốt nhấtCấp miễn phíGROQ_API_KEY
API thì thầm OpenAITốt–Tốt nhấtĐã trả tiềnVOICE_TOOLS_OPENAI_KEY hoặc OPENAI_API_KEY
Cấu hình Zero

Phiên âm cục bộ hoạt động ngay lập tức khi faster-whisper được cài đặt. Nếu điều đó không khả dụng, Hermes cũng có thể sử dụng whisper CLI cục bộ từ các vị trí cài đặt phổ biến (như /opt/homebrew/bin ) hoặc lệnh tùy chỉnh thông qua HERMES_LOCAL_STT_COMMAND .

Cấu hình

# In ~/.hermes/config.yaml
stt:
provider: "local"

# "local"

| "groq" | "openai" | "mistral"
local:
model: "base"

# tiny, base, small, medium, large-v3
openai:
model: "whisper-1"

# whisper-1, gpt-4o-mini-transcribe, gpt-4o-transcribe
mistral:
model: "voxtral-mini-latest"

# voxtral-mini-latest, voxtral-mini-2602

Chi tiết nhà cung cấp

Cục bộ (thì thầm nhanh hơn) — Chạy Whisper cục bộ thông qua faster-whisper. Sử dụng CPU theo mặc định, GPU nếu có. Kích thước mô hình:

Người mẫuKích thướcTốc độChất lượng
tiny~75 MBNhanh nhấtCơ bản
base~150 MBNhanhTốt (mặc định)
small~500 MBTrung bìnhTốt hơn
medium~1,5 GBChậm hơnTuyệt vời
large-v3~3 GBChậm nhấtTốt nhất

API Groq — Yêu cầu GROQ_API_KEY . Dự phòng đám mây tốt khi bạn muốn có tùy chọn STT được lưu trữ miễn phí.API OpenAI — Chấp nhận VOICE_TOOLS_OPENAI_KEY trước và quay lại OPENAI_API_KEY . Hỗ trợ whisper-1 , gpt-4o-mini-transcribegpt-4o-transcribe .

API Mistral (Phiên âm Voxtral) — Yêu cầu MISTRAL_API_KEY . Sử dụng mô hình Voxtral Transcribe của Mistral. Hỗ trợ 13 ngôn ngữ, ghi nhật ký người nói và dấu thời gian ở cấp độ từ. Cài đặt với pip install hermes-agent[mistral] .

Dự phòng CLI cục bộ tùy chỉnh — Đặt HERMES_LOCAL_STT_COMMAND nếu bạn muốn Hermes gọi trực tiếp lệnh phiên âm cục bộ. Mẫu lệnh hỗ trợ các phần giữ chỗ {input_path} , {output_dir} , {language}{model} .

Hành vi dự phòng

Nếu nhà cung cấp đã định cấu hình của bạn không có sẵn, Hermes sẽ tự động quay lại:

  • Không có tính năng thì thầm nhanh hơn cục bộ → Thử whisper CLI hoặc HERMES_LOCAL_STT_COMMAND cục bộ trước nhà cung cấp đám mây
  • Khóa Groq chưa được đặt → Quay lại phiên âm cục bộ, sau đó là OpenAI
  • Khóa OpenAI chưa được đặt → Quay lại phiên âm cục bộ, sau đó là Groq
  • Chưa đặt khóa sai/SDK → Bị bỏ qua trong tính năng tự động phát hiện; chuyển sang nhà cung cấp có sẵn tiếp theo
  • Không có gì → Tin nhắn thoại được gửi kèm theo ghi chú chính xác cho người dùng