Tạo hình ảnh
Hermes Agent có thể tạo hình ảnh từ lời nhắc văn bản bằng cách sử dụng mẫu FLUX 2 Pro của FAL.ai với khả năng nâng cấp tự động gấp 2 lần thông qua Clarity Upscaler để nâng cao chất lượng.
Thiết lập
Nhận khóa API FAL
- Đăng ký tại fal.ai
- Tạo khóa API từ trang tổng quan của bạn
Định cấu hình khóa
# Add to ~/.hermes/.env
FAL_KEY=your-fal-api-key-here
Cài đặt Thư viện Máy khách
pip install fal-client
Công cụ tạo hình ảnh sẽ tự động khả dụng khi FAL_KEY được đặt. Không cần cấu hình bộ công cụ bổ sung.
Nó hoạt động như thế nào
Khi bạn yêu cầu Hermes tạo một hình ảnh:
- Thế hệ — Lời nhắc của bạn được gửi tới mẫu FLUX 2 Pro (
fal-ai/flux-2-pro) - Nâng cấp — Hình ảnh được tạo sẽ tự động được nâng cấp gấp 2 lần bằng cách sử dụng Clarity Upscaler (
fal-ai/clarity-upscaler) - Giao hàng — URL hình ảnh đã nâng cấp được trả về
Nếu việc nâng cấp không thành công vì bất kỳ lý do gì, hình ảnh gốc sẽ được trả về dưới dạng dự phòng.
Cách sử dụng
Đơn giản chỉ cần yêu cầu Hermes tạo một hình ảnh:
Generate an image of a serene mountain landscape with cherry blossoms
Create a portrait of a wise old owl perched on an ancient tree branch
Make me a futuristic cityscape with flying cars and neon lights
Thông số
image_generate_tool chấp nhận các tham số sau:
| Tham số | Mặc định | Phạm vi | Mô tả |
|---|---|---|---|
prompt | (bắt buộc) | — | Mô tả văn bản của hình ảnh mong muốn |
aspect_ratio | "landscape" | landscape , square , portrait | Tỷ lệ khung hình hình ảnh |
num_inference_steps | 50 | 1–100 | Số bước khử nhiễu (nhiều hơn = chất lượng cao hơn, chậm hơn) |
guidance_scale | 4.5 | 0,1–20,0 | Làm thế nào để làm theo lời nhắc chặt chẽ |
num_images | 1 | 1–4 | Số lượng hình ảnh cần tạo |
output_format | "png" | png , jpeg | Định dạng tệp hình ảnh |
seed | (ngẫu nhiên) | bất kỳ số nguyên nào | Hạt giống ngẫu nhiên cho kết quả có thể tái sản xuất |
Tỷ lệ khung hình
Công cụ này sử dụng tên tỷ lệ khung hình được đơn giản hóa để ánh xạ tới kích thước hình ảnh FLUX 2 Pro:
| Tỷ lệ khung hình | Bản đồ tới | Tốt nhất cho |
|---|---|---|
landscape | landscape_16_9 | Hình nền, biểu ngữ, cảnh |
square | square_hd | Hình ảnh hồ sơ, bài đăng trên mạng xã hội |
portrait | portrait_16_9 | Nghệ thuật nhân vật, hình nền điện thoại |
Bạn cũng có thể sử dụng trực tiếp các cài đặt trước kích thước FLUX 2 Pro thô: square_hd , square , portrait_4_3 , portrait_16_9 , landscape_4_3 , landscape_16_9 . Kích thước tùy chỉnh lên tới 2048x2048 cũng được hỗ trợ.
Tự động nâng cấp
Mọi hình ảnh được tạo sẽ được tự động nâng cấp gấp 2 lần bằng cách sử dụng Clarity Upscaler của FAL.ai với các cài đặt sau:
| Cài đặt | Giá trị |
|---|---|
| Yếu tố cao cấp | 2x |
| Sáng tạo | 0,35 |
| Sự giống nhau | 0,6 |
| Thang hướng dẫn | 4 |
| Các bước suy luận | 18 |
| Lời nhắc tích cực | "masterpiece, best quality, highres" + lời nhắc ban đầu của bạn |
| Lời nhắc tiêu cực | "(worst quality, low quality, normal quality:2)" |
Tính năng nâng cấp nâng cao độ chi tiết và độ phân giải trong khi vẫn giữ nguyên bố cục ban đầu. Nếu quá trình nâng cấp không thành công (sự cố mạng, giới hạn tốc độ), hình ảnh có độ phân giải gốc sẽ tự động được trả về.
Ví dụ về lời nhắc
Dưới đây là một số lời nhắc hiệu quả để thử:
A candid street photo of a woman with a pink bob and bold eyeliner
Modern architecture building with glass facade, sunset lighting
Abstract art with vibrant colors and geometric patterns
Portrait of a wise old owl perched on ancient tree branch
Futuristic cityscape with flying cars and neon lights
Gỡ lỗi
Cho phép ghi nhật ký gỡ lỗi để tạo hình ảnh:
export IMAGE_TOOLS_DEBUG=true
Nhật ký gỡ lỗi được lưu vào ./logs/image_tools_debug_<session_id>.json với thông tin chi tiết về từng yêu cầu tạo, thông số, thời gian và bất kỳ lỗi nào.
Cài đặt an toàn
Công cụ tạo hình ảnh chạy với chế độ kiểm tra an toàn bị tắt theo mặc định ( safety_tolerance: 5 , cài đặt dễ dãi nhất). Điều này được định cấu hình ở cấp mã và người dùng không thể điều chỉnh được.
Phân phối nền tảng
Hình ảnh được tạo sẽ được phân phối khác nhau tùy thuộc vào nền tảng:
| Nền tảng | Phương thức giao hàng |
|---|---|
| CLI | URL hình ảnh được in dưới dạng đánh dấu  — nhấp để mở trong trình duyệt |
| Điện tín | Hình ảnh được gửi dưới dạng tin nhắn ảnh với lời nhắc là chú thích |
| Bất hòa | Hình ảnh được nhúng trong tin nhắn |
| Chống lười | URL hình ảnh trong tin nhắn (Slack mở nó ra) |
| Hình ảnh được gửi dưới dạng tin nhắn media | |
| Nền tảng khác | URL hình ảnh ở dạng văn bản thuần túy |
Tác nhân sử dụng cú pháp MEDIA:<url> trong phản hồi của nó, cú pháp mà bộ điều hợp nền tảng chuyển đổi sang định dạng thích hợp.
Hạn chế
- Yêu cầu khóa API FAL — việc tạo hình ảnh sẽ phát sinh chi phí API trên tài khoản FAL.ai của bạn
- Không chỉnh sửa hình ảnh — đây chỉ là tính năng chuyển văn bản thành hình ảnh, không inpainting hoặc img2img
- Phân phối dựa trên URL — hình ảnh được trả về dưới dạng URL FAL.ai tạm thời, không được lưu cục bộ. URL hết hạn sau một khoảng thời gian (thường là vài giờ)
- Nâng cấp sẽ tăng thêm độ trễ — bước nâng cấp tự động gấp 2 lần sẽ thêm thời gian xử lý
- Tối đa 4 hình ảnh cho mỗi yêu cầu —
num_imagesđược giới hạn ở mức 4