Stable Diffusion WebUI AUTOMATIC1111: Tất cả những gì bạn cần biết

Stable Diffusion web UI (AUTOMATIC1111 hoặc A1111 để ngắn gọn) là giao diện đồ họa người dùng (GUI) mặc định cho người dùng nâng cao. Nhờ cộng đồng đam mê, hầu hết các tính năng mới đều được đem đến cho giao diện miễn phí Stable Diffusion này trước tiên. Nhưng đó không phải là phần mềm dễ sử dụng nhất. Tài liệu hướng dẫn thiếu sót. Danh sách tính năng mở rộng mà nó cung cấp có thể khiến bạn cảm thấy sợ hãi.

Hướng dẫn này sẽ giúp bạn học cách sử dụng GUI AUTOTMATIC1111. Bạn có thể sử dụng nó như một bài hướng dẫn. Có rất nhiều ví dụ bạn có thể làm theo từng bước.

Bạn cũng có thể sử dụng hướng dẫn này như một bộ tài liệu tham khảo. Lướt qua nó và xem những gì có. Quay lại khi bạn thực sự cần sử dụng một tính năng.

Bạn sẽ thấy nhiều ví dụ để minh họa hiệu quả của một thiết lập vì tôi tin rằng đó là cách duy nhất để làm cho nó trở nên rõ ràng.

Tab chuyển văn bản thành ảnh

Khi bạn khởi động GUI, bạn sẽ thấy tab txt2img. Tab này thực hiện chức năng cơ bản nhất của Stable Diffusion: chuyển đổi một đoạn văn bản thành hình ảnh.

Cách sử dụng cơ bản

Đây là các thiết lập mà bạn có thể muốn thay đổi nếu đây là lần đầu tiên bạn sử dụng AUTOMATIC1111.

Stable Diffusion Checkpoint: Chọn mô hình mà bạn muốn sử dụng. Người dùng lần đầu có thể sử dụng mô hình cơ bản v1.5.

Prompt: Mô tả những gì bạn muốn thấy trong hình ảnh. Dưới đây là một ví dụ. Xem hướng dẫn đầy đủ để xây dựng prompt cho bài học.

Một bức tranh siêu thực về mèo của Salvador Dali

Chiều rộng và chiều cao: Kích thước của hình ảnh đầu ra trong AUTOMATIC1111. Bạn nên thiết lập ít nhất một bên thành 512 pixel khi sử dụng mô hình v1. Ví dụ, thiết lập chiều rộng là 512 và chiều cao là 768 cho một hình ảnh chân dung với tỷ lệ khung hình 2:3.

Batch size: Số lượng hình ảnh được tạo ra mỗi lần. Bạn nên tạo ra ít nhất vài bức ảnh khi kiểm tra prompt vì mỗi bức ảnh sẽ khác nhau.

Cuối cùng, nhấn nút Generate. Sau một thời gian ngắn chờ đợi, bạn sẽ nhận được các hình ảnh của mình!

Mặc định, bạn sẽ nhận được một hình ảnh bổ sung của các hình ảnh thu nhỏ.

Bạn có thể lưu hình ảnh vào ổ đĩa cục bộ của mình. Đầu tiên, chọn hình ảnh bằng cách sử dụng các hình thu nhỏ dưới khung hình ảnh chính. Nhấp chuột phải vào hình ảnh để hiển thị menu ngữ cảnh. Bạn nên có các tùy chọn để lưu hình ảnh hoặc sao chép hình ảnh vào clipboard.

Đó là tất cả những gì bạn cần biết về các khái niệm cơ bản của AUTOMATIC1111! Phần còn lại của phần này giải thích từng chức năng chi tiết hơn về AUTOMATIC1111.

Các tham số tạo hình ảnh trong AUTOMATIC1111

Txt2img tab

Stable Diffusion checkpoint là một menu thả xuống để chọn mô hình. Bạn cần đặt các tệp mô hình trong thư mục stable-diffusion-webui> models> Stable-diffusion. Xem thêm về cách cài đặt các mô hình.

Nút làm mới bên cạnh menu thả xuống được sử dụng để làm mới danh sách các mô hình. Nó được sử dụng khi bạn vừa đặt một mô hình mới trong thư mục mô hình và muốn cập nhật danh sách.

Prompt: Nhập những gì bạn muốn thấy trong hình ảnh. Hãy chi tiết và cụ thể. Sử dụng một số từ khóa thử và chắc chắn. Bạn có thể tìm một danh sách ngắn ở đây hoặc một danh sách chi tiết hơn trong trình tạo prompt.

Negative Prompt: Nhập những gì bạn không muốn thấy. Bạn nên sử dụng negativeprompt khi sử dụng các mô hình v2. Bạn có thể sử dụng negative prompt chung. Xem bài viết này để biết thêm chi tiết.

Phương pháp lấy mẫu: Thuật toán cho quá trình giảm nhiễu. Tôi sử dụng DPM ++ 2M Karras vì nó cân bằng tốc độ và chất lượng tốt. Xem phần này để biết thêm chi tiết. Bạn có thể muốn tránh bất kỳ bộ lấy mẫu tổ tiên nào (những bộ có chữ a) vì hình ảnh của chúng không ổn định ngay cả khi sử dụng bước lấy mẫu lớn. Điều này làm cho việc điều chỉnh hình ảnh khó khăn hơn.

Bước lấy mẫu: Số bước lấy mẫu cho quá trình giảm nhiễu. Càng nhiều càng tốt, nhưng nó cũng mất nhiều thời gian hơn. 25 bước làm việc cho hầu hết các trường hợp.

Chiều rộng và chiều cao: Kích thước của hình ảnh đầu ra. Bạn nên thiết lập ít nhất một bên thành 512 pixel cho các mô hình v1. Ví dụ, thiết lập chiều rộng là 512 và chiều cao là 768 cho một hình ảnh chân dung với tỷ lệ khung hình 2:3. Thiết lập ít nhất một bên thành 768 khi sử dụng mô hình v2-768px.

Số lượng Batch: Số lần bạn chạy luồng tạo hình ảnh.

Kích thước Batch: Số lượng hình ảnh được tạo ra mỗi lần bạn chạy luồng tạo hình ảnh.

Tổng số hình ảnh được tạo ra bằng tổng số lần Batch lần số lượng Batch. Bạn thường sẽ thay đổi kích thước Batch vì nó nhanh hơn. Bạn chỉ thay đổi số lượng Batch nếu bạn gặp vấn đề về bộ nhớ.

Thang CFG: Thang mức hướng dẫn miễn phí của bộ phân loại là một tham số để điều khiển mức độ mà mô hình nên tôn trọng prompt của bạn.

1 – Hầu như bỏ qua prompt của bạn.
3 – Sáng tạo hơn.
7 – Sự cân bằng tốt giữa theo prompt và tự do.
15 – Tuân theo nhiều hơn với prompt.
30 – Tuân theo prompt một cách nghiêm ngặt.

Các hình ảnh dưới đây cho thấy hiệu ứng của việc thay đổi CFG với các giá trị hạt cố định. Bạn không muốn đặt các giá trị CFG quá cao hoặc quá thấp. Stable Diffusion sẽ bỏ qua prompt của bạn nếu giá trị CFG quá thấp. Màu của các hình ảnh sẽ bị bão hòa khi nó quá cao.

Xem thêm: Khám phá Stable Diffusion SDXL Beta – Đột phá mới trong trí tuệ nhân tạo

Seed trong AUTOMATIC1111

Seed: Giá trị hạt giống được sử dụng để tạo ra tensor ngẫu nhiên ban đầu trong không gian ẩn. Thực tế, nó điều khiển nội dung của hình ảnh. Mỗi hình ảnh được tạo ra đều có giá trị hạt giống riêng của nó. Nếu AUTOMATIC1111 được đặt thành -1, nó sẽ sử dụng giá trị hạt giống ngẫu nhiên.

Một lý do phổ biến để cố định giá trị hạt giống là để cố định nội dung của một hình ảnh và điều chỉnh câu hỏi. Hãy giả sử tôi đã tạo ra một hình ảnh bằng cách sử dụng câu hỏi sau đây:

Hình ảnh của phụ nữ, váy, nền đêm thành phố

Tôi thích hình ảnh này và muốn điều chỉnh câu hỏi để thêm vòng đeo tay vào cổ tay của cô ấy. Bạn sẽ đặt giá trị hạt giống cho giá trị của hình ảnh này. Giá trị hạt giống được hiển thị trong thông báo nhật ký dưới khung hình ảnh.

Giá trị khởi tạo của một hình ảnh (được làm nổi bật) nằm trong thông báo nhật ký

Sao chép giá trị này vào ô đầu vào giá trị hạt giống. Hoặc sử dụng nút tái sử dụng để sao chép giá trị hạt giống.

Bây giờ thêm thuật ngữ “vòng đeo tay” vào câu hỏi:

Hình ảnh của phụ nữ, váy, nền đêm thành phố, vòng đeo tay

Bạn sẽ có được một bức tranh tương tự với những chiếc vòng đeo tay trên cổ tay của cô ấy.

Tuy nhiên, cảnh có thể thay đổi hoàn toàn vì một số từ khóa đủ mạnh để thay đổi cấu trúc. Bạn có thể thử nghiệm bằng cách thay thế từ khóa sau khi lấy mẫu ở bước sau.

Sử dụng biểu tượng xúc xắc để đặt lại giá trị hạt giống thành -1 (ngẫu nhiên).

Tùy chọn seed bổ sung:

Kiểm tra Tùy chọn bổ sung sẽ hiển thị menu Seed bổ sung.

Seed biến thể: Một giá trị seed giống bổ sung mà bạn muốn sử dụng.

Độ mạnh biến thể: Mức độ nội suy giữa giá trị seed và giá trị seed biến thể. Đặt nó thành 0 sẽ sử dụng giá trị seed. Đặt nó thành 1 sẽ sử dụng giá trị seed biến thể.

Dưới đây là một ví dụ. Giả sử bạn đã tạo ra 2 hình ảnh từ cùng một câu hỏi và cài đặt. Chúng có giá trị seed riêng của chúng, là 1 và 3.

Ảnh đầu tiên: giá trị seed là 1

Ảnh thứ hai: giá trị seed là 3

Bạn muốn tạo ra một sự pha trộn của hai hình ảnh này. Bạn sẽ đặt giá trị seed thành 1, giá trị seed biến thể thành 3 và điều chỉnh độ mạnh biến thể từ 0 đến 1. Trong thí nghiệm dưới đây, độ mạnh biến thể cho phép bạn tạo ra một chuyển đổi nội dung hình ảnh giữa hai giá trị seed. Tư thế của cô gái và nền tảng sẽ thay đổi dần khi độ mạnh biến thể tăng từ 0 đến 1.

Thay đổi seed từ chiều rộng/chiều cao: Hình ảnh sẽ thay đổi đáng kể nếu bạn thay đổi kích thước hình ảnh, ngay cả khi sử dụng cùng một giá trị seed. Cài đặt này cố gắng cố định nội dung của hình ảnh khi thay đổi kích thước hình ảnh. Bạn sẽ đặt giá trị kích thước mới trong thanh trượt chiều rộng và chiều cao và đặt chiều rộng và chiều cao của hình ảnh ban đầu vào đây. Đặt giá trị seed ban đầu vào ô đầu vào giá trị seed. Đặt độ mạnh biến thể thành 0 để bỏ qua giá trị seed biến thể.

Giả sử bạn thích hình ảnh này có kích thước 512×800 với giá trị seed là 3.

512×800

Cấu trúc sẽ thay đổi đáng kể khi bạn thay đổi kích thước hình ảnh, ngay cả khi giữ nguyên giá trị seed.

512×600

512×744

Đặt một kích thước khác nhau sẽ thay đổi hình ảnh một cách đáng kể

Khi bạn bật cài đặt thay đổi seed từ chiều rộng và chiều cao, bạn sẽ có được một cái gì đó gần giống với hình ảnh ban đầu khi thay đổi kích thước. Chúng không hoàn toàn giống nhau, nhưng chúng gần giống.

512×600

512×744

Các hình ảnh gần giống với hình ảnh gốc nhiều hơn khi sử dụng tùy chọn thay đổi kích thước giá trị khởi tạo

Phục hồi khuôn mặt của AUTOMATIC1111

Phục hồi khuôn mặt áp dụng một mô hình bổ sung được đào tạo để phục hồi các khuyết điểm trên khuôn mặt. Dưới đây là các ví dụ trước và sau khi áp dụng.

Ảnh gốc

Phục hồi khuôn mặt

Trước khi sử dụng Phục hồi khuôn mặt, bạn phải xác định mô hình phục hồi khuôn mặt nào sẽ được sử dụng. Đầu tiên, hãy truy cập tab Cài đặt. Điều hướng đến phần Phục hồi khuôn mặt. Chọn một mô hình phục hồi khuôn mặt. CodeFormer là sự lựa chọn tốt. Đặt trọng số CodeFormer thành 0 để đạt hiệu quả tối đa. Nhớ nhấn nút Áp dụng cài đặt để lưu cài đặt!

Quay lại tab txt2img. Kiểm tra Phục hồi khuôn mặt. Mô hình phục hồi khuôn mặt sẽ được áp dụng cho tất cả các hình ảnh bạn tạo ra.

Bạn có thể tắt phục hồi khuôn mặt nếu bạn thấy ứng dụng ảnh hưởng đến phong cách trên khuôn mặt. Hoặc bạn có thể tăng tham số trọng số CodeFormer để giảm hiệu ứng.

Tiling của AUTOMATIC1111

Sử dụng tùy chọn Tiling để tạo ra một hình ảnh chu kỳ có thể được lát thành nhiều lần. Dưới đây là một ví dụ.

mẫu hoa

Hình ảnh này có thể được lát như giấy dán tường.

2×2 tiled

Sự thật là sử dụng Stable Diffusion cho phép bạn tạo ra các ô vuông của bất kỳ hình ảnh nào, không chỉ là các mẫu truyền thống. Bạn chỉ cần đưa ra một yêu cầu văn bản.

Hires. fix.

Tùy chọn sửa đổi độ phân giải cao áp dụng một upscaler để mở rộng kích thước hình ảnh của bạn. Bạn cần điều này vì độ phân giải gốc của Stable Diffusion là 512 pixel (hoặc 768 pixel đối với một số mô hình v2 nhất định). Hình ảnh quá nhỏ cho nhiều mục đích sử dụng.

Tại sao bạn không đặt chiều rộng và chiều cao lớn hơn, ví dụ 1024 pixel? Khác biệt so với độ phân giải gốc sẽ ảnh hưởng đến cấu trúc và tạo ra vấn đề như tạo ra hình ảnh có hai cái đầu.

Vì vậy, trước tiên bạn phải tạo ra một hình ảnh nhỏ có 512 pixel trên mỗi bên. Sau đó, bạn có thể phóng to nó thành một hình ảnh lớn hơn.

Kiểm tra Hires. fix để kích hoạt sửa đổi độ phân giải cao.

Upscaler: Chọn một upscaler để sử dụng. Xem bài viết này để biết thêm thông tin.

Các tùy chọn Upscaler tiềm ẩn khác nhau tỷ lệ hình ảnh trong không gian tiềm ẩn. Nó được thực hiện sau các bước lấy mẫu của quá trình tạo hình ảnh từ văn bản. Quá trình này tương tự như hình ảnh đến hình ảnh.

Các tùy chọn khác là sự kết hợp giữa các upscaler truyền thống và trí tuệ nhân tạo. Xem bài viết upscaler trí tuệ nhân tạo để biết thêm chi tiết.

Các bước Hires chỉ áp dụng cho upscaler tiềm ẩn. Đó là số lần lấy mẫu sau khi phóng to hình ảnh tiềm ẩn.

Độ mạnh của Denoising chỉ áp dụng cho upscaler tiềm ẩn. Tham số này có ý nghĩa giống như trong hình ảnh đến hình ảnh. Nó điều khiển độ ồn được thêm vào hình ảnh tiềm ẩn trước khi thực hiện các bước lấy mẫu Hires.

Bây giờ, hãy xem hiệu ứng của việc phóng to hình ảnh dưới đây lên 2 lần, sử dụng latent làm upscaler.

Ảnh gốc

0.4

0.65

0.9

Độ mạnh giảm nhiễu của bộ phát hiện tiềm ẩn phải cao hơn 0,5. Nếu không, bạn sẽ nhận được các hình ảnh mờ nhạt.

Vì một lý do nào đó, nó phải lớn hơn 0,5 để có được hình ảnh sắc nét. Đặt quá cao sẽ thay đổi hình ảnh nhiều.

Lợi ích của việc sử dụng upscaler tiềm ẩn là thiếu các hiện tượng nhiễu sau khi phóng to mà các upscaler khác như ESRGAN có thể gây ra. Bộ giải mã của Stable Diffusion sản xuất hình ảnh, đảm bảo phong cách được hài hòa. Nhược điểm là nó sẽ thay đổi hình ảnh đến một mức độ nhất định, phụ thuộc vào giá trị của độ mạnh của Denoising.

Yếu tố tăng kích thước điều khiển số lần lớn hơn hình ảnh sẽ được bao nhiêu lần. Ví dụ, đặt nó thành 2 sẽ tăng kích thước của hình ảnh 512×768 pixel lên 1024×1536 pixel.

Hoặc bạn có thể chỉ định các giá trị “thay đổi chiều rộng thành” và “thay đổi chiều cao thành” để đặt kích thước hình ảnh mới.

Bạn có thể tránh những rắc rối của việc đặt đúng Độ mạnh của Denoising bằng cách sử dụng các upscaler trí tuệ nhân tạo như ESRGAN. Nói chung, tách txt2img và upscaling thành hai bước cho phép bạn linh hoạt hơn. Tôi không sử dụng tùy chọn sửa đổi độ phân giải cao mà sử dụng Trang bổ sung để thực hiện upscaling.

Các nút bấm dưới nút Generate

Từ trái sang phải:

1. Đọc các thông số cuối cùng: Nó sẽ điền tất cả các trường để bạn tạo ra các hình ảnh giống nhau khi nhấn nút Tạo. Lưu ý rằng giá trị tham số khởi tạo và mô hình sẽ được đặt lại. Nếu điều này không phải là những gì bạn muốn, hãy đặt giá trị khởi tạo là -1 và xóa giá trị đặt lại.

Giá trị khởi tạo và Ghi đè mô hình được làm nổi bật

2. Biểu tượng thùng rác: Xóa câu hỏi hiện tại và câu hỏi phủ định.

3. Biểu tượng mô hình: Hiển thị các mạng phụ. Nút này là để chèn các siêu mạng, nhúng và cụm từ LoRA vào câu hỏi.

Bạn có thể sử dụng hai nút bấm sau đây để tải và lưu câu hỏi và câu hỏi phủ định. Bộ đôi này được gọi là kiểu dáng. Nó có thể là một cụm từ ngắn như tên của nghệ sĩ, hoặc nó có thể là một câu hỏi đầy đủ.

4. Tải kiểu dáng: Bạn có thể chọn nhiều kiểu dáng từ menu thả xuống dưới. Sử dụng nút này để chèn chúng vào câu hỏi và câu hỏi phủ định.

5. Lưu kiểu dáng: Lưu câu hỏi và câu hỏi phủ định. Bạn sẽ cần đặt tên cho kiểu dáng.

Các hành động tệp hình ảnh

Bạn sẽ tìm thấy một hàng các nút bấm để thực hiện các chức năng khác nhau trên các hình ảnh được tạo ra. Từ trái sang phải …

Mở thư mục: Mở thư mục đầu ra hình ảnh. Nó có thể không hoạt động trên tất cả các hệ thống.

Lưu: Lưu một hình ảnh. Sau khi nhấp vào, nó sẽ hiển thị một liên kết tải xuống phía dưới các nút bấm. Nó sẽ lưu tất cả các hình ảnh nếu bạn chọn lưới hình ảnh.

Zip: Nén các hình ảnh để tải xuống.

Gửi đến img2img: Gửi hình ảnh được chọn đến tab img2img.

Gửi đến inpainting: Gửi hình ảnh được chọn đến tab inpainting trong tab img2img.

Gửi đến extras: Gửi hình ảnh được chọn đến tab Extras.

Xem thêm: Cách tối ưu ánh sáng trong Stable Diffusion: 3 phương pháp đáng thử

Tab Img2img

Tab Img2img là nơi bạn sử dụng các chức năng hình ảnh sang hình ảnh. Hầu hết người dùng sẽ truy cập tab này để thực hiện việc điền vào và chuyển đổi một hình ảnh thành hình ảnh khác.

Hình ảnh sang hình ảnh

Một trường hợp sử dụng thường xuyên trong tab Img2img là thực hiện hình ảnh sang hình ảnh. Bạn có thể tạo ra các hình ảnh mới theo cấu trúc của hình ảnh gốc.

Bước 1: Kéo và thả hình ảnh gốc vào tab img2img trên trang img2img.

Ảnh cơ bản

Bước 2: Điều chỉnh chiều rộng hoặc chiều cao để hình ảnh mới có cùng tỷ lệ khung hình. Bạn sẽ thấy một khung hình chữ nhật trên bề mặt hình ảnh cho biết tỷ lệ khung hình. Trong hình ảnh phong cảnh trên, tôi đặt chiều rộng là 760 và giữ chiều cao ở 512.

Bước 3: Đặt phương pháp lấy mẫu và các bước lấy mẫu. Tôi thường sử dụng DPM++ 2M Karass với 25 bước.

Bước 4: Đặt kích thước lô hàng là 4.

Bước 5: Viết một câu hỏi cho hình ảnh mới. Tôi sẽ sử dụng câu hỏi sau đây.

Một minh hoạ về rồng chân thực

Bước 6: Nhấn nút Tạo để tạo ra hình ảnh. Điều chỉnh độ mạnh giảm nhiễu và lặp lại. Dưới đây là các hình ảnh với độ mạnh giảm nhiễu khác nhau.

0.4

0.6

0.8

Giá trị khởi tạo và Ghi đè mô hình được làm nổi bật.Các hình ảnh được tạo bởi img2img với các độ mạnh giảm nhiễu khác nhau.

Nhiều cài đặt được chia sẻ với txt2img. Tôi chỉ giải thích những cài đặt mới.

Chế độ thay đổi kích cỡ: Nếu tỷ lệ khung hình của hình ảnh mới không giống với hình ảnh đầu vào, có một vài cách để giải quyết sự khác biệt.

“Chỉ thay đổi kích thước” thay đổi tỷ lệ khung hình của hình ảnh đầu vào để phù hợp với kích thước hình ảnh mới. Nó sẽ kéo dãn hoặc co hình ảnh.
“Cắt và thay đổi kích thước” phù hợp với khung hình hình ảnh mới vào hình ảnh đầu vào. Các phần không phù hợp sẽ bị xóa bỏ. Tỷ lệ khung hình của hình ảnh ban đầu sẽ được bảo tồn.
“Thay đổi kích thước và điền đầy” phù hợp hình ảnh đầu vào vào khung hình hình ảnh mới. Phần thừa sẽ được điền vào với màu trung bình của hình ảnh đầu vào. Tỷ lệ khung hình sẽ được bảo tồn.
“Chỉ thay đổi kích thước (phóng to tiềm ẩn)” tương tự như “Chỉ thay đổi kích thước”, nhưng việc thay đổi tỷ lệ được thực hiện trong không gian tiềm ẩn. Sử dụng độ mạnh giảm nhiễu lớn hơn 0,5 để tránh hình ảnh mờ.

Just resize

Crop and resize

Resize and fill

Just resize (latent upscale)

Độ mạnh giảm nhiễu: Điều khiển mức độ thay đổi của hình ảnh. Không có gì thay đổi nếu nó được đặt là 0. Hình ảnh mới không theo hình ảnh đầu vào nếu nó được đặt là 1. 0,75 là điểm bắt đầu tốt có một số thay đổi tốt.

Bạn có thể sử dụng tập lệnh tích hợp nghèo của người ngoài hình ảnh: Đối với mở rộng hình ảnh. Xem hướng dẫn mở rộng.

Bản phác thảo (Sketch)

Thay vì tải lên một hình ảnh, bạn có thể phác thảo bức tranh ban đầu. Bạn nên bật công cụ phác thảo màu bằng đối số sau khi bắt đầu trang webui. (Nó đã được bật trong sổ tay Google Colab trong Hướng dẫn Khởi đầu Nhanh)

–gradio-img2img-tool color-sketch

Bước 1: Điều hướng đến tab phác thảo trên trang img2img.

Bước 2: Tải lên một hình ảnh nền lên bảng vẽ. Bạn có thể sử dụng các nền đen hoặc trắng bên dưới.

Bước 3: Phác thảo sáng tạo của bạn. Với công cụ phác thảo màu được bật, bạn nên có thể phác thảo bằng màu sắc.

Bước 4: Viết một câu hỏi.

nhà chiến thắng giải thưởng

Bước 5: Nhấn nút Tạo.

Phác thảo bức tranh của bạn cho hình ảnh-đến-hình ảnh

Bạn không cần phải vẽ một thứ gì từ đầu. Bạn có thể sử dụng chức năng phác thảo để sửa đổi một hình ảnh. Dưới đây là một ví dụ về việc loại bỏ tóc bằng cách tô chúng và thực hiện một vòng lặp hình ảnh-đến-hình ảnh. Sử dụng công cụ ống nhỏ để chọn màu từ các khu vực xung quanh.

Khử nhiễu

Có lẽ chức năng được sử dụng nhiều nhất trong tab img2img là khử nhiễu. Bạn đã tạo ra một hình ảnh mà bạn thích trong tab txt2img. Nhưng có một khuyết điểm nhỏ, và bạn muốn tạo lại nó.

Hãy nói rằng bạn đã tạo ra hình ảnh sau đây trong tab txt2img. Bạn muốn tạo lại khuôn mặt vì nó bị rối. Bạn có thể sử dụng nút Gửi đến khử nhiễu để gửi một hình ảnh từ tab txt2img đến tab img2img.

Bạn nên thấy hình ảnh của mình khi chuyển sang tab Khử nhiễu trên trang img2img. Sử dụng công cụ cọ vẽ để tạo một mặt nạ trên khu vực cần tạo lại.

Các tham số như kích thước ảnh đã được đặt đúng vì bạn đã sử dụng chức năng “Gửi đến khử nhiễu”. Thông thường, bạn sẽ điều chỉnh

Độ mạnh giảm nhiễu: Bắt đầu từ 0,75. Giảm để thay đổi nhiều hơn. Tăng để thay đổi ít hơn.
Nội dung của mặt nạ: ban đầu
Chế độ mặt nạ: Inpaint masked
Kích thước lô: 4

Nhấn nút Tạo. Chọn cái bạn thích.

Khử nhiễu phác thảo (Inpaint sketch)

Khử nhiễu phác thảo kết hợp khử nhiễu và phác thảo. Nó cho phép bạn vẽ như trong tab phác thảo nhưng chỉ tạo lại khu vực đã vẽ. Khu vực chưa được vẽ không thay đổi. Dưới đây là một ví dụ.

Inpaint sketch

Khử nhiễu tải lên (Inpaint upload)

Khử nhiễu tải lên cho phép bạn tải lên một tệp mặt nạ riêng biệt thay vì vẽ nó.

Batch

Batch cho phép bạn khử nhiễu hoặc thực hiện hình ảnh-đến-hình ảnh cho nhiều hình ảnh.

Lấy câu hỏi từ một hình ảnh

Nút Interogate CLIP của AUTOMATIC1111 lấy hình ảnh bạn tải lên tab img2img và đoán câu hỏi. Nó hữu ích khi bạn muốn làm việc trên các hình ảnh mà bạn không biết câu hỏi. Để lấy câu hỏi đoán từ một hình ảnh:

Bước 1: Điều hướng đến trang img2img.

Bước 2: Tải lên một hình ảnh lên tab img2img.

Bước 3: Nhấp vào nút Interrogate CLIP.

Một câu hỏi sẽ xuất hiện trong hộp văn bản câu hỏi.

Nút Interrogate DeepBooru cung cấp một chức năng tương tự, ngoại trừ nó được thiết kế cho các hình ảnh anime.

Nâng cấp hình ảnh

Bạn sẽ đi đến Trang thêm để nâng cấp hình ảnh. Tại sao bạn cần AUTOMATIC1111 để phóng to hình ảnh? Bạn có thể sử dụng một bộ nâng cấp AI thường không có sẵn trên máy tính của bạn. Thay vì trả tiền cho dịch vụ nâng cấp AI, bạn có thể làm điều đó miễn phí với AUTOMATIC1111.

Sử dụng cơ bản

Làm theo các bước sau để nâng cấp hình ảnh.

Bước 1: Điều hướng đến Trang thêm.

Bước 2: Tải lên một hình ảnh lên khung ảnh.

Bước 3: Thiết lập tỷ lệ theo yếu tố dưới nhãn thay đổi kích thước. Hình ảnh mới sẽ lớn gấp nhiều lần về mỗi phía. Ví dụ, hình ảnh 200×400 sẽ trở thành 800×1600 với tỷ lệ thu phóng là 4.

Bước 4: Chọn Upscaler 1. Một bộ nâng cấp AI phổ biến đa dụng là R-ESRGAN 4x+.

Bước 5: Nhấn nút Tạo. Bạn sẽ nhận được một hình ảnh mới ở bên phải.

Hãy chắc chắn kiểm tra hình ảnh mới ở độ phân giải đầy đủ. Ví dụ, bạn có thể mở hình ảnh mới trên một tab mới và tắt tự động điều chỉnh kích cỡ. Bộ nâng cấp có thể tạo ra các hiện tượng nghệ thuật mà bạn có thể bỏ qua nếu nó được thu nhỏ.

Ngay cả khi bạn không cần phóng to 4 lần, bạn vẫn có thể phóng to lên 4 lần và sau đó thay đổi kích thước sau đó. Điều này có thể giúp cải thiện độ sắc nét.

Thay vì đặt tỷ lệ, bạn có thể chỉ định kích thước để thay đổi kích thước trong tab “Thay đổi kích thước”.

Bộ nâng cấp

AUTOMATIC1111 cung cấp một số bộ nâng cấp theo mặc định.

Bộ nâng cấp: Trình xuống danh sách các tùy chọn bộ nâng cấp. Bạn cũng có thể tự cài đặt. Xem bài viết về bộ nâng cấp AI để biết hướng dẫn.

Lanczos và Nearest là những bộ nâng cấp cũ. Chúng không mạnh mẽ nhưng hành vi dễ dự đoán.

ESRGAN, R-ESRGAN, ScuNet và SwinIR là các bộ nâng cấp AI. Chúng có thể tạo ra nội dung để tăng độ phân giải. Một số được đào tạo cho một phong cách cụ thể. Cách tốt nhất để xem liệu chúng có hoạt động cho hình ảnh của bạn là thử nghiệm. Tôi có thể nghe như một câu nói nhàm chán hiện giờ, nhưng hãy chắc chắn nhìn vào hình ảnh một cách kỹ lưỡng ở độ phân giải đầy đủ.

Bộ nâng cấp 2: Đôi khi, bạn muốn kết hợp hiệu quả của hai bộ nâng cấp. Tùy chọn này cho phép bạn kết hợp kết quả của hai bộ nâng cấp. Lượng kết hợp được điều khiển bằng thanh trượt Hiển thị Bộ nâng cấp 2. Giá trị cao hơn sẽ hiển thị Bộ nâng cấp 2 nhiều hơn.

Bạn không tìm thấy bộ nâng cấp bạn thích? Bạn có thể cài đặt thêm các bộ nâng cấp từ thư viện mô hình. Xem hướng dẫn cài đặt.

Khôi phục khuôn mặt

Bạn có thể tùy chọn khôi phục khuôn mặt trong quá trình nâng cấp. Có hai tùy chọn: (1) GFPGAN và (2) CodeFormer. Đặt mức hiển thị của một trong hai tùy chọn này để áp dụng sự điều chỉnh. Thường thì bạn nên đặt mức thấp nhất mà bạn có thể để không ảnh hưởng đến phong cách của hình ảnh.

Thông tin PNG

Nhiều giao diện người dùng ổn định, bao gồm AUTOMATIC1111, ghi thông số sinh học vào tệp hình ảnh png. Điều này là một chức năng tiện dụng để nhanh chóng lấy lại thông số sinh học.

Nếu hình ảnh được tạo bởi AUTOMATIC1111, bạn có thể sử dụng nút Gửi để nhanh chóng sao chép thông số sinh học vào các trang khác nhau.

Điều này hữu ích khi bạn tìm thấy một hình ảnh trên web và muốn xem xem liệu câu gợi ý có còn lại trong tệp.

Chức năng này cũng hữu ích cho hình ảnh không được tạo ra từ AUTOMATIC1111. Bạn có thể nhanh chóng gửi hình ảnh và kích thước của nó vào một trang.

Trình hợp nhất điểm kiểm tra

Trình hợp nhất điểm kiểm tra của AUTOMATIC1111 được sử dụng để kết hợp hai hoặc nhiều mô hình. Bạn có thể kết hợp tối đa 3 mô hình để tạo một mô hình mới. Thường thì điều này để kết hợp các phong cách của hai hoặc nhiều mô hình. Tuy nhiên, kết quả kết hợp không được đảm bảo. Đôi khi nó có thể tạo ra những hiện tượng không mong muốn.

Mô hình chính (A, B, C): Các mô hình đầu vào. Việc hợp nhất sẽ được thực hiện theo công thức hiển thị. Công thức sẽ thay đổi tùy theo phương pháp nội suy được chọn.

Phương pháp nội suy:

Không nội suy: Chỉ sử dụng mô hình A. Điều này để chuyển đổi tệp hoặc thay thế VAE.
Tổng có trọng số: Kết hợp hai mô hình A và B, với trọng số nhân M được áp dụng cho B. Công thức là A * (1 – M) + B * M.
Cộng sai biệt: Kết hợp ba mô hình bằng công thức A + (B – C) * M.

Định dạng điểm kiểm tra

ckpt: Định dạng mô hình điểm kiểm tra gốc.
safetensors: SafeTensors là một định dạng mô hình mới được phát triển bởi Hugging Face. Điều này an toàn vì, khác với các mô hình ckpt, việc tải mô hình Safe Tensor sẽ không thực thi bất kỳ mã độc hại nào, ngay cả nếu chúng có trong mô hình.

Nạp VAE vào: Thay thế bộ giải mã VAE bằng bộ giải mã được chọn. Điều này để thay thế bộ giải mã gốc bằng một bộ giải mã tốt hơn được phát hành bởi Stability.

Huấn luyện

Trang Huấn luyện dùng để huấn luyện các mô hình. Hiện tại, nó hỗ trợ việc đảo ngữ văn bản (nhúng) và mạng lưới siêu (hypernetwork). Tôi không may mắn khi sử dụng AUTOMATIC1111 để huấn luyện, vì vậy tôi sẽ không đề cập đến phần này.

Cài đặt

Trang cài đặt của AUTOMATIC1111 có một danh sách cài đặt rộng lớn. Tôi sẽ không thể đi qua từng cái một trong bài viết này. Dưới đây là một số cái bạn nên kiểm tra.

Hãy chắc chắn nhấn Áp dụng cài đặt sau khi thay đổi bất kỳ cài đặt nào.

Khôi phục khuôn mặt

Hãy chắc chắn chọn phương pháp khôi phục khuôn mặt mặc định. CodeFormer là một phương pháp tốt.

Ổn định Diffusion

Tải xuống và chọn một VAE được phát hành bởi Stability để cải thiện mắt và khuôn mặt trong các mô hình v1.

Cài đặt nhanh

Bạn có thể bật phím tắt tùy chỉnh ở phía trên.

Trên trang Cài đặt, nhấp vào Hiển thị tất cả các trang trên bảng điều khiển bên trái.

Tìm từ khóa Quicksettings để tiếp cận trường Cài đặt Nhanh.

Có nhiều cài đặt có sẵn để chọn. Ví dụ, sau đây là cách bật phím tắt cho bỏ qua Clip và các thư mục đầu ra hình ảnh tùy chỉnh.

Sau khi lưu cài đặt và tải lại Giao diện người dùng Web, bạn sẽ thấy các phím tắt mới ở phía trên trang.

Các thư mục đầu ra tùy chỉnh rất hữu ích để tổ chức các hình ảnh.

Để biết thêm thông tin chi tiết về Stable Diffusion có thể tìm hiểu thêm tại khóa học Stable Diffusion – Midjourney tại Arcline Academy hoặc có thể tham khảo thêm thông tin các khóa học khác tại đây

Trụ sở chính: 32/19 Nghĩa Hòa, Phường 06, Q. Tân Bình, TPHCM (Nhà Thờ Nghĩa Hòa – Khu Bắc Hải)

Trụ sở miền Tây: L30-09, Đường số 43, Khu Dân cư Stella Megacity, P. Bình Thủy, Q. Bình Thủy, Tp. Cần Thơ

Hotline: 0988 363 967