Chuyển tới nội dung chính

Tạo hình ảnh

Hermes Agent có thể tạo hình ảnh từ lời nhắc văn bản bằng cách sử dụng mẫu FLUX 2 Pro của FAL.ai với khả năng nâng cấp tự động gấp 2 lần thông qua Clarity Upscaler để nâng cao chất lượng.

Thiết lập

Nhận khóa API FAL

  1. Đăng ký tại fal.ai
  2. Tạo khóa API từ trang tổng quan của bạn

Định cấu hình khóa

# Add to ~/.hermes/.env
FAL_KEY=your-fal-api-key-here

Cài đặt Thư viện Máy khách

pip install fal-client

thông tin

Công cụ tạo hình ảnh sẽ tự động khả dụng khi FAL_KEY được đặt. Không cần cấu hình bộ công cụ bổ sung.

Nó hoạt động như thế nào

Khi bạn yêu cầu Hermes tạo một hình ảnh:

  1. Thế hệ — Lời nhắc của bạn được gửi tới mẫu FLUX 2 Pro ( fal-ai/flux-2-pro )
  2. Nâng cấp — Hình ảnh được tạo sẽ tự động được nâng cấp gấp 2 lần bằng cách sử dụng Clarity Upscaler ( fal-ai/clarity-upscaler )
  3. Giao hàng — URL hình ảnh đã nâng cấp được trả về

Nếu việc nâng cấp không thành công vì bất kỳ lý do gì, hình ảnh gốc sẽ được trả về dưới dạng dự phòng.

Cách sử dụng

Đơn giản chỉ cần yêu cầu Hermes tạo một hình ảnh:

Generate an image of a serene mountain landscape with cherry blossoms

Create a portrait of a wise old owl perched on an ancient tree branch

Make me a futuristic cityscape with flying cars and neon lights

Thông số

image_generate_tool chấp nhận các tham số sau:

Tham sốMặc địnhPhạm viMô tả
prompt(bắt buộc)Mô tả văn bản của hình ảnh mong muốn
aspect_ratio"landscape"landscape , square , portraitTỷ lệ khung hình hình ảnh
num_inference_steps501–100Số bước khử nhiễu (nhiều hơn = chất lượng cao hơn, chậm hơn)
guidance_scale4.50,1–20,0Làm thế nào để làm theo lời nhắc chặt chẽ
num_images11–4Số lượng hình ảnh cần tạo
output_format"png"png , jpegĐịnh dạng tệp hình ảnh
seed(ngẫu nhiên)bất kỳ số nguyên nàoHạt giống ngẫu nhiên cho kết quả có thể tái sản xuất

Tỷ lệ khung hình

Công cụ này sử dụng tên tỷ lệ khung hình được đơn giản hóa để ánh xạ tới kích thước hình ảnh FLUX 2 Pro:

Tỷ lệ khung hìnhBản đồ tớiTốt nhất cho
landscapelandscape_16_9Hình nền, biểu ngữ, cảnh
squaresquare_hdHình ảnh hồ sơ, bài đăng trên mạng xã hội
portraitportrait_16_9Nghệ thuật nhân vật, hình nền điện thoại
mẹo

Bạn cũng có thể sử dụng trực tiếp các cài đặt trước kích thước FLUX 2 Pro thô: square_hd , square , portrait_4_3 , portrait_16_9 , landscape_4_3 , landscape_16_9 . Kích thước tùy chỉnh lên tới 2048x2048 cũng được hỗ trợ.

Tự động nâng cấp

Mọi hình ảnh được tạo sẽ được tự động nâng cấp gấp 2 lần bằng cách sử dụng Clarity Upscaler của FAL.ai với các cài đặt sau:

Cài đặtGiá trị
Yếu tố cao cấp2x
Sáng tạo0,35
Sự giống nhau0,6
Thang hướng dẫn4
Các bước suy luận18
Lời nhắc tích cực"masterpiece, best quality, highres" + lời nhắc ban đầu của bạn
Lời nhắc tiêu cực"(worst quality, low quality, normal quality:2)"

Tính năng nâng cấp nâng cao độ chi tiết và độ phân giải trong khi vẫn giữ nguyên bố cục ban đầu. Nếu quá trình nâng cấp không thành công (sự cố mạng, giới hạn tốc độ), hình ảnh có độ phân giải gốc sẽ tự động được trả về.

Ví dụ về lời nhắc

Dưới đây là một số lời nhắc hiệu quả để thử:

A candid street photo of a woman with a pink bob and bold eyeliner

Modern architecture building with glass facade, sunset lighting

Abstract art with vibrant colors and geometric patterns

Portrait of a wise old owl perched on ancient tree branch

Futuristic cityscape with flying cars and neon lights

Gỡ lỗi

Cho phép ghi nhật ký gỡ lỗi để tạo hình ảnh:

export IMAGE_TOOLS_DEBUG=true

Nhật ký gỡ lỗi được lưu vào ./logs/image_tools_debug_<session_id>.json với thông tin chi tiết về từng yêu cầu tạo, thông số, thời gian và bất kỳ lỗi nào.

Cài đặt an toàn

Công cụ tạo hình ảnh chạy với chế độ kiểm tra an toàn bị tắt theo mặc định ( safety_tolerance: 5 , cài đặt dễ dãi nhất). Điều này được định cấu hình ở cấp mã và người dùng không thể điều chỉnh được.

Phân phối nền tảng

Hình ảnh được tạo sẽ được phân phối khác nhau tùy thuộc vào nền tảng:

Nền tảngPhương thức giao hàng
CLIURL hình ảnh được in dưới dạng đánh dấu ![description](url) — nhấp để mở trong trình duyệt
Điện tínHình ảnh được gửi dưới dạng tin nhắn ảnh với lời nhắc là chú thích
Bất hòaHình ảnh được nhúng trong tin nhắn
Chống lườiURL hình ảnh trong tin nhắn (Slack mở nó ra)
WhatsAppHình ảnh được gửi dưới dạng tin nhắn media
Nền tảng khácURL hình ảnh ở dạng văn bản thuần túy

Tác nhân sử dụng cú pháp MEDIA:<url> trong phản hồi của nó, cú pháp mà bộ điều hợp nền tảng chuyển đổi sang định dạng thích hợp.

Hạn chế

  • Yêu cầu khóa API FAL — việc tạo hình ảnh sẽ phát sinh chi phí API trên tài khoản FAL.ai của bạn
  • Không chỉnh sửa hình ảnh — đây chỉ là tính năng chuyển văn bản thành hình ảnh, không inpainting hoặc img2img
  • Phân phối dựa trên URL — hình ảnh được trả về dưới dạng URL FAL.ai tạm thời, không được lưu cục bộ. URL hết hạn sau một khoảng thời gian (thường là vài giờ)
  • Nâng cấp sẽ tăng thêm độ trễ — bước nâng cấp tự động gấp 2 lần sẽ thêm thời gian xử lý
  • Tối đa 4 hình ảnh cho mỗi yêu cầunum_images được giới hạn ở mức 4