ControlNet là gì? Hướng dẫn thao tác chính xác hình ảnh với ControlNet v1.1

ControlNet là một mô hình Stable Diffusion cho phép bạn sao chép các thành phần hay tư thế con người từ một hình ảnh tham chiếu.

Những người dùng Stable Diffusion dày dạn biết rằng việc tạo ra cấu trúc chính xác bạn mong muốn khá khó khăn. Các hình ảnh thu được có phần ngẫu nhiên. Tất cả những gì bạn có thể làm là chơi trò chơi số: Tạo ra một số lượng lớn hình ảnh và chọn ra một tấm bạn thích.

Với ControlNet, người dùng Stable Diffusion cuối cùng đã có cách để kiểm soát vị trí của các đối tượng và hình dáng của chúng – với độ chính xác!

Trong bài viết này, bạn sẽ tìm hiểu mọi thứ bạn cần biết về ControlNet.

ControlNet là gì?
Cách cài đặt ControlNet trên Windows, Mac và Google Colab.
Cài đặt và một số trường hợp sử dụng phổ biến.

ControlNet là gì?

ControlNet là một mô hình mạng neural dùng để điều khiển các mô hình Stable Diffusion. Bạn có thể sử dụng ControlNet cùng với bất kỳ mô hình Stable Diffusion nào.

Hình thức cơ bản nhất khi sử dụng các mô hình Stable Diffusion là text-to-image. Nó sử dụng đầu vào văn bản như điều kiện để điều chỉnh việc tạo hình ảnh sao cho bạn tạo ra các hình ảnh khớp với đầu vào văn bản.

ControlNet thêm một điều kiện nữa ngoài đầu vào văn bản. Điều kiện thêm vào có thể có nhiều hình thức trong ControlNet.

Hãy để tôi cho bạn xem hai ví dụ về những gì ControlNet có thể làm: Kiểm soát việc tạo hình ảnh với (1) phát hiện cạnh và (2) phát hiện tư thế con người.

Ví dụ về phát hiện cạnh

Như minh họa dưới đây, ControlNet nhận một hình ảnh đầu vào bổ sung và phát hiện đường viền của nó bằng bộ phát hiện cạnh Canny. Một hình ảnh chứa các cạnh được phát hiện sau đó được lưu trữ dưới dạng bản đồ điều khiển. Nó được đưa vào mô hình ControlNet như một điều kiện thêm vào đầu vào văn bản.

Quy trình làm việc của mô hình ControlNet Stable Diffusion.

ControlNet Stable Diffusion với điều kiện phát hiện cạnh Canny.
Quá trình trích xuất thông tin cụ thể (cạnh trong trường hợp này) từ hình ảnh đầu vào được gọi là chú thích (trong bài viết nghiên cứu) hoặc tiền xử lý (trong phần mở rộng ControlNet).

Ví dụ về phát hiện tư thế con người

Phát hiện cạnh không phải là cách duy nhất một hình ảnh có thể được tiền xử lý. Openpose là một mô hình phát hiện điểm chính nhanh của con người có thể trích xuất tư thế con người như vị trí của tay, chân và đầu. Xem ví dụ dưới đây.

Hình ảnh đầu vào được chú thích với phát hiện tư thế con người bằng Openpose.

Dưới đây là quy trình làm việc của ControlNet sử dụng OpenPose. Điểm chính được trích xuất từ hình ảnh đầu vào bằng OpenPose, và được lưu dưới dạng bản đồ điều khiển chứa vị trí của các điểm chính. Sau đó, nó được cung cấp cho Stable Diffusion như một điều kiện thêm vào cùng với đầu vào văn bản. Các hình ảnh được tạo ra dựa trên hai điều kiện này.

Sự khác biệt giữa việc sử dụng phát hiện cạnh Canny và Openpose là gì? Bộ phát hiện cạnh Canny trích xuất cạnh của đối tượng và nền tương tự. Nó có xu hướng dịch chuyển cảnh quan một cách trung thực hơn. Bạn có thể thấy người đàn ông đang nhảy múa trở thành một người phụ nữ, nhưng đường viền và kiểu tóc được giữ nguyên.

OpenPose chỉ phát hiện các điểm chính của con người như vị trí của đầu, cánh tay, v.v. Việc tạo hình ảnh tự do hơn nhưng theo dõi tư thế gốc.

Ví dụ trên đã tạo ra một người phụ nữ nhảy lên với bàn chân trái chỉ sang bên, khác với hình ảnh gốc và hình ảnh trong ví dụ về Canny Edge. Lý do là phát hiện điểm chính của OpenPose không chỉ định hướng của các bàn chân.

Cài đặt Stable Diffusion ControlNet

Hãy cùng đi qua cách cài đặt ControlNet trong AUTOMATIC1111, một GUI Stable Diffusion phổ biến và đầy đủ tính năng (và miễn phí!). Chúng tôi sẽ sử dụng tiện ích mở rộng này, đó là tiêu chuẩn thông thường, để sử dụng ControlNet.

Nếu bạn đã cài đặt ControlNet, bạn có thể bỏ qua phần tiếp theo để tìm hiểu cách sử dụng nó.

Cài đặt ControlNet trong Google Colab

Rất dễ dàng để sử dụng ControlNet với sổ ghi chú Stable Diffusion Colab 1-click trong Hướng dẫn Khởi động nhanh của chúng tôi.

Trong phần Extensions của sổ ghi chú Colab, đánh dấu vào ControlNet.

Nhấn nút Play để bắt đầu AUTOMATIC1111. Đó là tất cả!

Cài đặt ControlNet trên PC Windows hoặc Mac

Bạn có thể sử dụng ControlNet với AUTOMATIC1111 trên PC Windows hoặc Mac. Theo dõi hướng dẫn trong những bài viết này để cài đặt AUTOMATIC1111 nếu bạn chưa làm vậy.

Nếu bạn đã cài đặt AUTOMATIC1111, hãy đảm bảo phiên bản của bạn là mới nhất.

Cài đặt tiện ích mở rộng ControlNet (Windows/Mac)

1. Điều hướng đến trang Extensions.

2. Chọn tab Install from URL.

3. Nhập URL sau vào trường URL for extension’s repository.

https://github.com/Mikubill/sd-webui-controlnet

Nhấn nút Install.

5. Đợi thông điệp xác nhận nói rằng tiện ích mở rộng đã được cài đặt.

6. Khởi động lại AUTOMATIC1111.

7. Truy cập trang mô hình ControlNet.

8. Tải xuống tất cả các tệp mô hình (tên tệp kết thúc bằng .pth).

(Nếu bạn không muốn tải xuống tất cả chúng, bạn có thể tải xuống các mô hình openpose và canny cho hiện tại, đây là những mô hình được sử dụng phổ biến nhất.)

9. Đặt tệp mô hình vào thư mục mô hình của tiện ích mở rộng ControlNet.

stable-diffusion-webui\extensions\sd-webui-controlnet\models

Khởi động lại webui AUTOMATIC1111.

Nếu tiện ích mở rộng được cài đặt thành công, bạn sẽ thấy một phần mở rộng mới trong tab txt2img có tên là ControlNet. Nó nên nằm ngay phía trên menu thả xuống Script.

Điều này cho thấy việc cài đặt tiện ích mở rộng đã thành công.

Cài đặt T2I adapters

T2I adapters là các mô hình mạng nơ-ron để cung cấp điều khiển thêm cho các hình ảnh được tạo bởi mô hình phân kỳ. Chúng có khái niệm tương tự như ControlNet nhưng với thiết kế khác.

Mô hình T2I adapters

Tiện ích mở rộng ControlNet A1111 có thể sử dụng T2I adapters. Bạn sẽ cần tải xuống các mô hình tại đây. Lấy những cái có tên tệp tương tự như t2iadapter_XXXXX.pth

Các chức năng của nhiều T2I adapters trùng lập với các mô hình ControlNet. Tôi sẽ chỉ bao gồm hai mô hình sau đây.

t2iadapter_color_sd14v1.pth
t2iadapter_style_sd14v1.pth

Đặt chúng vào thư mục mô hình của ControlNet.

stable-diffusion-webui\extensions\sd-webui-controlnet\models

Cập nhật tiện ích mở rộng ControlNet

ControlNet là một tiện ích mở rộng đã trải qua sự phát triển nhanh chóng. Không phải là điều bất thường khi bạn phát hiện ra phiên bản ControlNet của mình đã lỗi thời.

Việc cập nhật chỉ cần thiết nếu bạn chạy AUTOMATIC1111 trên máy tính Windows hoặc Mac. Sổ ghi chú Colab của trang web luôn chạy phiên bản mới nhất của tiện ích mở rộng ControlNet.

Để xác định phiên bản ControlNet của bạn có cập nhật hay không, so sánh số phiên bản của bạn trong phần ControlNet trên trang txt2img với số phiên bản mới nhất.

Tùy chọn 1: Cập nhật từ Web-UI

Cách dễ nhất để cập nhật tiện ích mở rộng ControlNet là sử dụng GUI AUTOMATIC1111.

1. Đi đến trang Extensions.

2. Trong tab Installed, nhấn Check for updates.

3. Đợi thông điệp xác nhận.

4. Hoàn toàn đóng và khởi động lại AUTOMATIC1111 Web-UI.

Tùy chọn 2: Dòng lệnh

Nếu bạn thoải mái với dòng lệnh, bạn có thể sử dụng tùy chọn này để cập nhật ControlNet, điều này sẽ giúp bạn yên tâm rằng Web-UI không làm gì khác.

Bước 1: Mở ứng dụng Terminal (Mac) hoặc ứng dụng PowerShell (Windows).

Bước 2: Điều hướng đến thư mục tiện ích mở rộng ControlNet. (Điều chỉnh tương ứng nếu bạn đã cài đặt ở nơi khác)

cd stable-diffusion-webui/extensions/sd-webui-controlnet

Bước 3: Cập nhật tiện ích mở rộng bằng cách chạy lệnh sau.

git pull

Sử dụng ControlNet – Một ví dụ đơn giản

Bây giờ bạn đã cài đặt ControlNet, hãy cùng đi qua một ví dụ đơn giản về cách sử dụng nó! Bạn sẽ thấy một giải thích chi tiết về mỗi cài đặt sau.

Bạn nên đã cài đặt tiện ích mở rộng ControlNet để theo dõi phần này. Bạn có thể xác nhận bằng cách xem phần ControlNet phía dưới.

Nhấn nút mũi tên ở bên phải để mở rộng bảng ControlNet. Nó hiển thị phần đầy đủ của các núm điều khiển và bức vẽ tải ảnh lên.

Tôi sẽ sử dụng hình ảnh sau để chỉ cho bạn cách sử dụng ControlNet. Bạn có thể tải xuống hình ảnh bằng cách sử dụng nút tải xuống để theo dõi hướng dẫn.

Cài đặt văn bản thành hình ảnh

ControlNet sẽ cần được sử dụng với một mô hình Stable Diffusion. Trong menu dropdown của Stable Diffusion checkpoint, chọn mô hình bạn muốn sử dụng với ControlNet. Chọn v1-5-pruned-emaonly.ckpt để sử dụng mô hình cơ sở v1.5.

Trong tab txt2image, viết một lời nhắc và, tùy chọn, một lời nhắc tiêu cực để được sử dụng bởi ControlNet. Tôi sẽ sử dụng các lời nhắc dưới đây.

Gợi ý:

full-body, a young female, highlights in hair, dancing outside a restaurant, brown eyes, wearing jeans

Gợi ý phủ định:

disfigured, ugly, bad, immature

Đặt kích thước hình ảnh cho việc tạo hình ảnh. Tôi sẽ sử dụng chiều rộng 512 và chiều cao 776 cho hình ảnh demo của mình. Lưu ý rằng kích thước hình ảnh được đặt trong phần txt2img, KHÔNG trong phần ControlNet.

Giao diện GUI nên trông như dưới đây.

Cài đặt ControlNet

Bây giờ chúng ta hãy chuyển sang bảng ControlNet.

Đầu tiên, tải ảnh lên vùng vẽ ảnh.

Đánh dấu vào hộp kiểm Enable.

Bạn sẽ cần chọn một bộ tiền xử lý và một mô hình. Bộ tiền xử lý chỉ là tên khác của bộ ghi chú đã đề cập trước đó, chẳng hạn như bộ phát hiện keypoint OpenPose. Hãy chọn openpose làm Bộ tiền xử lý.

Mô hình ControlNet đã chọn phải phù hợp với bộ tiền xử lý. Đối với OpenPose, bạn nên chọn control_openpose-fp16 làm mô hình.

Bảng ControlNet nên trông như thế này.

Đó là tất cả. Bây giờ nhấn Generate để bắt đầu tạo hình ảnh bằng cách sử dụng ControlNet.

Bạn nên thấy hình ảnh được tạo theo tư thế của hình ảnh đầu vào. Hình ảnh cuối cùng là từ bước tiền xử lý. Trong trường hợp này, đó là các keypoint được phát hiện.

Khi bạn hoàn thành, bỏ chọn hộp kiểm Enable để vô hiệu hóa tiện ích mở rộng ControlNet.

Đó là cơ bản về việc sử dụng ControlNet!

Phần còn lại là hiểu

Những bộ tiền xử lý nào có sẵn (Có rất nhiều!)
Cài đặt ControlNet

Xem thêm: 3 phương pháp độc đáo tăng kích thước hình ảnh trong Stable Diffusion

Bộ tiền xử lý và mô hình

Bước đầu tiên khi sử dụng ControlNet là chọn một bộ tiền xử lý. Rất hữu ích khi bật chế độ xem trước để bạn biết bộ tiền xử lý đang làm gì. Khi quá trình tiền xử lý hoàn tất, hình ảnh gốc sẽ bị loại bỏ, và chỉ hình ảnh đã được tiền xử lý sẽ được sử dụng cho ControlNet.

Để bật chế độ xem trước:

1. Chọn Allow Preview.

2. Tùy chọn chọn Pixel Perfect. ControlNet sẽ sử dụng chiều cao và chiều rộng hình ảnh bạn đã chỉ định trong text-to-image để tạo hình ảnh đã qua tiền xử lý.

3. Nhấp vào biểu tượng vụ nổ bên cạnh menu dropdown Preprocessor.

Một số mô hình Control có thể ảnh hưởng quá mức đến hình ảnh. Giảm Control Weight nếu bạn thấy có vấn đề về màu sắc hoặc các hiện tượng khác.

Chọn mô hình phù hợp

Khi bạn chọn một bộ tiền xử lý, bạn phải chọn mô hình đúng.

Rất dễ để xác định đâu là mô hình đúng để sử dụng trong v1.1. Tất cả những gì bạn cần làm là chọn mô hình có cùng từ khóa bắt đầu với bộ tiền xử lý.

Ví dụ:

OpenPose

Có nhiều bộ tiền xử lý OpenPose.

OpenPose phát hiện các điểm chính của con người như vị trí của đầu, vai, tay, v.v. Nó rất hữu ích để sao chép các tư thế con người mà không sao chép các chi tiết khác như trang phục, kiểu tóc, và nền.

Tất cả bộ tiền xử lý openpose cần phải được sử dụng với mô hình openpose trong menu dropdown Model của ControlNet.

Các bộ tiền xử lý OpenPose bao gồm:

OpenPose: mắt, mũi, mắt, cổ, vai, khuỷu tay, cổ tay, đầu gối, và mắt cá chân.
OpenPose_face: OpenPose + chi tiết khuôn mặt OpenPose_hand: OpenPose + tay và ngón tay
OpenPose_faceonly: chỉ chi tiết khuôn mặt
OpenPose_full: Tất cả các mục trên

OpenPose

OpenPose là bộ tiền xử lý OpenPose cơ bản phát hiện vị trí của mắt, mũi, mắt, cổ, vai, khuỷu tay, cổ tay, đầu gối, và mắt cá chân.

OpenPose_face

OpenPose_face làm tất cả những gì bộ xử lý OpenPose làm nhưng phát hiện thêm các chi tiết khuôn mặt.

Nó hữu ích cho việc sao chép biểu cảm khuôn mặt.

Hình ảnh mẫu

OpenPose_faceonly

OpenPose_faceonly chỉ phát hiện khuôn mặt mà không phát hiện các keypoint khác. Điều này hữu ích khi sao chép chỉ khuôn mặt mà không phải các keypoint khác.

Xem các mẫu từ text-to-image dưới đây. Cơ thể không bị hạn chế.

OpenPose_hand

OpenPose_hand phát hiện keypoint như OpenPose và tay và ngón tay.

Hình ảnh mẫu:

OpenPose_full

OpenPose_full phát hiện tất cả mọi thứ mà OpenPose_face và OpenPose_hand làm.

Hình ảnh mẫu:

Tile resample

Mô hình Tile resample được sử dụng để thêm chi tiết vào hình ảnh. Nó thường được sử dụng với một bộ phóng to để phóng to hình ảnh cùng một lúc.

Reference

Reference là một tập hợp mới của bộ tiền xử lý cho phép bạn tạo hình ảnh tương tự như hình ảnh tham khảo. Hình ảnh vẫn sẽ bị ảnh hưởng bởi mô hình Stable Diffusion và lời nhắc.

Các bộ tiền xử lý Reference KHÔNG sử dụng mô hình kiểm soát. Bạn chỉ cần chọn bộ tiền xử lý nhưng không phải mô hình. (Thực tế, menu dropdown mô hình sẽ bị ẩn sau khi chọn một bộ tiền xử lý tham chiếu.)

Có 3 bộ tiền xử lý tham chiếu.

1. Reference adain: Chuyển giao kiểu qua Adaptive Instance Normalization.

2. Reference only: Liên kết hình ảnh tham chiếu trực tiếp với các lớp chú ý.

3. Reference adain+attn: Sự kết hợp của phía trên. Chọn một trong những bộ tiền xử lý này để sử dụng.

Dưới đây là một ví dụ.

Hình ảnh tham khảo (Input)

Sử dụng CLIP interrogator để đoán gợi ý.

a woman with pink hair and a robot suit on, with a sci – fi, Artgerm, cyberpunk style, cyberpunk art, retrofuturism

disfigured, ugly, bad, immature

Mô hình: Protogen v2.2

Reference adain

Reference only

Reference adain+attn

Tôi sẽ nói rằng reference-only hoạt động tốt nhất nếu bạn ép tôi.

Hình ảnh trên đều từ chế độ cân đối. Tôi không thấy sự khác biệt lớn trong việc thay đổi độ trung thực của phong cách.

Canny

Bộ dò viền Canny là một bộ dò viền đa dụng, theo phong cách cũ. Nó trích xuất các đường viền của một hình ảnh. Nó hữu ích để giữ nguyên cấu trúc của hình ảnh gốc.

Chọn canny trong cả hai menu dropdown Preprocessor và Model để sử dụng.

Các hình ảnh được tạo sẽ tuân theo các đường viền.

Depth

Bộ tiền xử lý depth đoán thông tin độ sâu từ hình ảnh tham khảo.

Depth Midas: Bộ ước lượng độ sâu cổ điển. Cũng được sử dụng trong mô hình depth-to-image chính thức v2.
Depth Leres: Có nhiều chi tiết hơn nhưng cũng có xu hướng render nền.
Depth Leres++: Có nhiều chi tiết hơn nữa.
Zoe: Mức độ chi tiết nằm giữa Midas và Leres.

Hình ảnh tham chiếu:

Bản đồ độ sâu:

Midas

Letes

Letes++

Zoe

Gợi ý và gợi ý phủ định:

một người phụ nữ theo phong cách retrofuturism

xấu xí, dị dạng, xấu, không chín chắn

Bạn có thể thấy hình ảnh được tạo theo bản đồ độ sâu (Zoe).

Text-to-image với Depth Zoe

So sánh với Leres++ chi tiết hơn:

Text-to-image với Depth Leres

Line Art

Line Art vẽ đường viền của một hình ảnh. Nó cố gắng chuyển đổi nó thành một bức vẽ đơn giản.

Có một số bộ tiền xử lý line art.

Line art anime: Đường vẽ phong cách anime
Line art anime denoise: Đường vẽ phong cách anime với ít chi tiết hơn.
Line art realistic: Đường vẽ phong cách thực tế.
Line art coarse: Đường vẽ phong cách thực tế với trọng lượng nặng hơn.

Sử dụng với mô hình kiểm soát lineart.

Các hình ảnh dưới đây được tạo ra với cài đặt Control Weight là 0.7.

Line Art Anime

Line Art Anime Denoise

Line Art Realistic

Line Art Coarse

MLSD

M-LSD (Mobile Line Segment Detection) là một bộ dò đường thẳng. Nó hữu ích để trích xuất các đường viền có các cạnh thẳng như thiết kế nội thất, tòa nhà, cảnh đường phố, khung tranh, và cạnh giấy.

Các đường cong sẽ bị bỏ qua.

Normal maps

Bản đồ phổ thông chỉ định hướng của một bề mặt. Đối với ControlNet, đó là một hình ảnh chỉ định hướng của bề mặt mà mỗi pixel nằm trên. Thay vì giá trị màu, các pixel hình ảnh đại diện cho hướng một bề mặt đang hướng về.

Việc sử dụng bản đồ phổ thông tương tự như bản đồ độ sâu. Chúng được sử dụng để chuyển cấu trúc 3D của hình ảnh tham khảo.

Bộ tiền xử lý bản đồ phổ thông:

Normal Midas: Ước lượng bản đồ phổ thông từ bản đồ độ sâu Midas.
Normal Bae: Ước lượng bản đồ phổ thông bằng phương pháp không chắc chắn bình thường được đề xuất bởi Bae et al.

Normal Midas

Giống như bản đồ độ sâu Midas, bản đồ phổ thông Midas tốt để phân tách chủ đề khỏi nền.

bản đồ phổ thông Midas controlnet

Normal Bae

Bản đồ phổ thông Bae có xu hướng render chi tiết trong cả nền và chủ đề.

Scribbles

Các bộ tiền xử lý Scribble chuyển một bức hình thành một bức vẽ phác thảo, giống như những thứ được vẽ bằng tay.

Scribble HED: Phát hiện cạnh toàn diện lồng nhau (HED) là một bộ dò cạnh tốt trong việc tạo ra các đường viền giống như một người thực sự. Theo tác giả của ControlNet, HED phù hợp để tái màu và tái phong cách một hình ảnh.
Scribble Pidinet: Mạng khác biệt pixel (Pidinet) phát hiện các đường cong và cạnh thẳng. Kết quả của nó tương tự như HED nhưng thường mang lại các đường nét sạch hơn với ít chi tiết hơn.
Scribble xdog: EXtended Difference of Gaussian (XDoG) là một kỹ thuật phương pháp phát hiện cạnh. Điều quan trọng là điều chỉnh ngưỡng xDoG và quan sát kết quả tiền xử lý.

Tất cả các bộ tiền xử lý này nên được sử dụng với mô hình kiểm soát scribble.

Scribble HED

HED tạo ra các đường phác thảo sơ bộ.

Scribble Pidinet

Pidinet có xu hướng tạo ra các đường sơ bộ với ít chi tiết. Nó tốt cho việc sao chép đường viền bảng mà không có chi tiết nhỏ.

Scribble xDoG

Mức độ chi tiết có thể điều chỉnh bằng cách điều chỉnh ngưỡng XDoG, làm cho xDoG trở thành một bộ tiền xử lý linh hoạt để tạo ra các bức phác thảo.

Phân loại

Các bộ tiền xử lý phân loại gắn nhãn cho loại đối tượng có trong hình ảnh tham chiếu.

Dưới đây là một bộ xử lý phân loại đang hoạt động.

Các tòa nhà, bầu trời, cây cỏ, người và vỉa hè được gắn nhãn với các màu khác nhau và được xác định trước.

Bạn có thể tìm thấy các danh mục đối tượng và màu sắc trong bản đồ màu tại đây cho ufade20k và ofade20k.

Có một số tùy chọn phân loại

ufade20k: Phân loại UniFormer (uf) được đào tạo trên tập dữ liệu ADE20K.
ofade20k: Phân loại OneFormer (of) được đào tạo trên tập dữ liệu ADE20k.
ofcoco: Phân loại OneFormer được đào tạo trên tập dữ liệu COCO.

Lưu ý rằng bản đồ màu của phân loại ADE20k và COCO khác nhau.

Bạn có thể sử dụng các bộ tiền xử lý phân loại để chuyển vị trí và hình dạng của các đối tượng.

Dưới đây là việc sử dụng các bộ tiền xử lý này với cùng một lời nhắc và hạt giống.

Thành phố tương lai, cây, tòa nhà, cyberpunk

UniFormer ADE20k (ufade20k)

Uniformer gắn nhãn mọi thứ chính xác trong ví dụ này.

OneFormer ADE20k (ofade20k)

OneFormer hơi nhiễu hơn trong trường hợp này, nhưng không ảnh hưởng đến hình ảnh cuối cùng.

OneFormer COCO (ofcoco)

OneFormer COCO hoạt động tương tự, với một số nhãn sai.

Phân loại là một kỹ thuật mạnh mẽ. Bạn có thể thao tác thêm bản đồ phân loại để đặt đối tượng ở các vị trí chính xác. Sử dụng bản đồ màu cho ADE20k.

Shuffle (Trộn)

Bộ tiền xử lý trộn làm xáo lộn hình ảnh đầu vào. Hãy xem trộn hoạt động như thế nào.

Kết hợp với mô hình kiểm soát Trộn, bộ tiền xử lý Trộn có thể được sử dụng để chuyển giao màu sắc của hình ảnh tham chiếu.

Hình ảnh đầu vào:

Bộ tiền xử lý Trộn:

Khác với các bộ tiền xử lý khác, bộ tiền xử lý Trộn được ngẫu nhiên hóa. Nó sẽ bị ảnh hưởng bởi giá trị hạt giống của bạn.

Sử dụng bộ tiền xử lý Trộn với mô hình kiểm soát Trộn. Mô hình kiểm soát Trộn có thể được sử dụng với hoặc không có bộ tiền xử lý Trộn.

Hình ảnh dưới đây là với bộ tiền xử lý ControlNet Trộn và mô hình Trộn (Cùng lời nhắc như phần cuối cùng). Màu sắc gần như tuân theo hình ảnh tham chiếu.

Hình ảnh dưới đây chỉ với mô hình ControlNet Trộn (Bộ tiền xử lý: Không). Thành phần hình ảnh gần với bản gốc. Màu sắc giống với màu được trộn.

Để tham khảo, hình ảnh dưới đây là với cùng một lời nhắc nhưng không có ControlNet. Màu sắc thay đổi đáng kể.

Bộ chuyển đổi màu sang hình ảnh T2I

Bộ tiền xử lý bộ chuyển đổi màu sang hình ảnh T2i thu nhỏ hình ảnh tham chiếu xuống 64 lần nhỏ hơn và sau đó mở rộng nó trở lại kích thước gốc. Hiệu ứng tổng thể là một lưới như mảnh patch của màu sắc trung bình cục bộ.

Hình ảnh tham chiếu gốc:

Tiền xử lý với t2ia_color_grid:

Hình ảnh đã tiền xử lý sau đó có thể được sử dụng với mô hình kiểm soát màu T2I (t2iadapter_color).

Việc tạo hình ảnh sẽ theo một cách lỏng lẻo màu sắc không gian.

Phòng khách hiện đại

Tăng trọng lượng ControlNet để nó tuân theo gần hơn.

Bạn cũng có thể sử dụng bộ tiền xử lý Không cho mô hình màu này T2I.

Theo quan điểm của tôi, nó khá tương tự với hình ảnh sang hình ảnh.

Bộ chuyển đổi kiểu CLIP vision T2I

t2ia_style_clipvision chuyển hình ảnh tham chiếu thành CLIP vision embedding. Embedding này chứa thông tin phong phú về nội dung và kiểu hình ảnh.

Bạn sẽ cần sử dụng mô hình kiểm soát t2iadapter_style_XXXX.

Xem sự chuyển đổi kiểu tuyệt vời này trong hành động:

Hình ảnh tham chiếu:

Bộ chuyển đổi T2I – CLIP vision:

cô gái khoa học viễn tưởng

Dưới đây là những gì lời nhắc này sẽ tạo ra nếu bạn tắt ControlNet.

Chức năng khá tương tự như Reference ControlNet, nhưng tôi đánh giá T2IA CLIP vision cao hơn.

ControlNet Inpainting

ControlNet inpainting cho phép bạn sử dụng mức độ loại bỏ nhiễu cao trong inpainting để tạo ra biến thể lớn mà không làm giảm tính nhất quán với bức ảnh như một tổng thể.

Ví dụ, tôi sử dụng lời nhắc cho người thực tế.

Model: HenmixReal v4

photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores

Negative prompt

disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w

Tôi có hình ảnh này và muốn tạo lại khuôn mặt với inpainting.

Nếu tôi inpaint khuôn mặt với mức độ loại bỏ nhiễu cao (> 0.4), kết quả sẽ có khả năng không nhất quán toàn cầu. Dưới đây là các hình ảnh chưa được vẽ với mức độ loại bỏ nhiễu 1.

ControlNet Inpainting là giải pháp của bạn.

Để sử dụng ControlNet inpainting:

1. Tốt nhất là sử dụng cùng một mô hình tạo ra hình ảnh. Sau khi tạo ra một hình ảnh trên trang txt2img, nhấp vào Send to Inpaint để gửi hình ảnh đến tab Inpaint trên trang Img2img.

2. Sử dụng công cụ cọ để tạo một mặt nạ trên khu vực bạn muốn tạo lại. Xem hướng dẫn cho người mới bắt đầu về inpainting nếu bạn không quen với nó.

3. Đặt Inpaint area thành Only masked. (Whole picture also works)

4. Đặt denoising strength thành 1. (Bạn sẽ không đặt cao như vậy mà không có ControlNet.)

5. Đặt các tham số sau trong phần ControlNet. Bạn không cần tải lên hình ảnh tham chiếu.

Enable: Yes

Preprocessor: Inpaint_global_harmonious

Model: ControlNet

6. Nhấn Generate để bắt đầu inpainting.

Bây giờ tôi nhận được những khuôn mặt mới nhất quán với hình ảnh toàn cầu, ngay cả ở mức độ loại bỏ nhiễu tối đa (1)!

Hiện tại, có 3 bộ tiền xử lý inpainting

Inpaint_global_harmonious: Cải thiện tính nhất quán toàn cầu và cho phép bạn sử dụng mức độ loại bỏ nhiễu cao.
Inpaint_only: Sẽ không thay đổi khu vực không được che mặt. Nó giống như Inpaint_global_harmonious trong AUTOMATIC1111.
Inpaint_only+lama: Xử lý hình ảnh với mô hình lama. Nó có xu hướng tạo ra kết quả sạch hơn và tốt cho việc loại bỏ đối tượng.

Mô hình Inpaint+lama được sử dụng để xóa đối tượng. Lời nhắc rỗng đã được sử dụng

Tất cả các thiết lập ControlNet được giải thích

Bạn sẽ thấy rất nhiều thiết lập trong tiện ích mở rộng ControlNet! Điều này có thể hơi đáng sợ khi bạn sử dụng nó lần đầu, nhưng hãy cùng tìm hiểu từng cái một.

Đây sẽ là một cuộc thảo luận sâu sắc. Hãy nghỉ ngơi và đi đến nhà vệ sinh nếu bạn cần…

Các điều khiển đầu vào

Image Canvas: Bạn có thể kéo và thả hình ảnh đầu vào vào đây. Bạn cũng có thể nhấp vào vùng vẽ và chọn tệp bằng trình duyệt tệp. Hình ảnh đầu vào sẽ được xử lý bằng bộ tiền xử lý được chọn trong menu dropdown Preprocessor. Một bản đồ điều khiển sẽ được tạo ra.

Write icon: Tạo một vùng vẽ mới với hình ảnh trắng thay vì tải lên hình ảnh tham chiếu. Điều này dùng để tạo một bản phác họa trực tiếp.

Camera icon: Chụp một bức ảnh bằng camera của thiết bị của bạn và sử dụng nó làm hình ảnh đầu vào. Bạn sẽ cần cấp quyền cho trình duyệt của mình để truy cập vào camera.

Chọn mô hình

Enable: Có kích hoạt ControlNet hay không.

Low VRAM: Dành cho GPU có VRAM dưới 8GB. Đây là một tính năng thử nghiệm. Kiểm tra xem nếu bạn đang thiếu bộ nhớ GPU, hoặc muốn tăng số lượng hình ảnh được xử lý.

Allow Preview: Kiểm tra điều này để kích hoạt cửa sổ xem trước bên cạnh hình ảnh tham chiếu. Tôi khuyên bạn nên chọn tùy chọn này. Sử dụng biểu tượng vụ nổ bên cạnh menu dropdown Preprocessor để xem trước hiệu ứng của bộ tiền xử lý.

Preprocessor: Bộ tiền xử lý (gọi là annotator trong bài báo nghiên cứu) để tiền xử lý hình ảnh đầu vào, chẳng hạn như phát hiện cạnh, độ sâu, và bản đồ bình thường. None sử dụng hình ảnh đầu vào như là bản đồ điều khiển.

Model: Mô hình ControlNet để sử dụng. Nếu bạn đã chọn một bộ tiền xử lý, bạn thường chọn mô hình tương ứng. Mô hình ControlNet được sử dụng cùng với mô hình Stable Diffusion được chọn ở đầu GUI AUTOMATIC1111.

Trọng lượng kiểm soát

Dưới menu dropdown bộ tiền xử lý và mô hình, bạn sẽ thấy ba thanh trượt để bạn điều chỉnh hiệu ứng Control: Control Weight, Starting và ending Control Steps.

Tôi sẽ sử dụng hình ảnh sau để minh họa hiệu ứng của trọng lượng kiểm soát. Đó là một hình ảnh của một cô gái đang ngồi.

Nhưng trong lời nhắc, tôi sẽ yêu cầu tạo ra một người phụ nữ đang đứng.

full body, a young female, highlights in hair, standing outside restaurant, blue eyes, wearing a dress, side light

Weight: Mức độ nhấn mạnh cho bản đồ kiểm soát so với lời nhắc. Nó tương tự như trọng lượng từ khóa trong lời nhắc nhưng áp dụng cho bản đồ kiểm soát.

Các hình ảnh sau được tạo ra bằng bộ tiền xử lý ControlNet OpenPose và với mô hình OpenPose.

Weight 1

Weight 0.5

Weight 0.3

Weight 0.1

Như bạn có thể thấy, trọng lượng Controlnet kiểm soát mức độ mà bản đồ kiểm soát được tuân theo so với lời nhắc. Càng giảm trọng lượng, ControlNet yêu cầu hình ảnh tuân theo bản đồ kiểm soát càng ít.

Starting ControlNet step: Bước mà ControlNet áp dụng đầu tiên. 0 có nghĩa là bước đầu tiên.

Ending ControlNet step: Bước mà ControlNet kết thúc. 1 có nghĩa là bước cuối cùng.

Hãy để bước bắt đầu cố định ở 0 và thay đổi bước kết thúc ControlNet để xem điều gì sẽ xảy ra.

Ending ControlNet step: 1

Ending ControlNet step: 0.3

Ending ControlNet step: 0.2

Ending ControlNet step: 0.1

Do các bước ban đầu thiết lập cấu trúc toàn cầu (Bộ lấy mẫu loại bỏ lượng nhiễu tối đa trong mỗi bước, và nó bắt đầu với một tensor ngẫu nhiên trong không gian tiềm ẩn), vị trí được đặt ngay cả khi bạn chỉ áp dụng ControlNet vào khoảng 20% các bước lấy mẫu đầu tiên.

Ngược lại, việc thay đổi bước kết thúc ControlNet có tác động nhỏ hơn vì cấu trúc toàn cầu được thiết lập trong các bước đầu tiên.

Chế độ kiểm soát

Balanced: ControlNet được áp dụng cho cả điều kiện và không điều kiện trong một bước lấy mẫu. Đây là chế độ hoạt động tiêu chuẩn.

Gợi ý của tôi quan trọng hơn: Hiệu ứng của ControlNet dần giảm qua các phiên bản của U-Net injection (Có 13 phiên bản trong một bước lấy mẫu). Kết quả tổng cộng là lời nhắc của bạn có ảnh hưởng lớn hơn so với ControlNet.

ControlNet quan trọng hơn: Tắt ControlNet trên không điều kiện. Thực tế, tỷ lệ CFG cũng hoạt động như một nhân tố nhân cho hiệu ứng của ControlNet.

Đừng lo lắng nếu bạn không hoàn toàn hiểu cách chúng thực sự hoạt động. Các nhãn tùy chọn đã mô tả chính xác hiệu ứng.

Chế độ thay đổi kích cỡ

Chế độ thay đổi kích cỡ kiểm soát việc làm gì khi kích cỡ của hình ảnh đầu vào hoặc bản đồ kiểm soát khác nhau so với kích cỡ của hình ảnh sẽ được tạo. Bạn không cần phải lo lắng về những tùy chọn này nếu chúng ở cùng tỷ lệ khung hình.

Tôi sẽ minh họa hiệu ứng của các chế độ thay đổi kích cỡ bằng cách thiết lập text-to-image để tạo ra một hình ảnh phong cảnh, trong khi hình ảnh đầu vào/bản đồ kiểm soát là một hình ảnh chân dung.

Just Resize: Thay đổi độ rộng và chiều cao của bản đồ kiểm soát độc lập để phù hợp với vùng vẽ hình ảnh. Điều này sẽ thay đổi tỷ lệ khung hình của bản đồ kiểm soát.

Cô gái bây giờ cần phải nghiêng về phía trước để cô vẫn nằm trong vùng vẽ. Bạn có thể tạo ra một số hiệu ứng thú vị với chế độ này.

Control map

Generated image

Just Resize thay đổi kích cỡ bản đồ kiểm soát để phù hợp với vùng vẽ hình ảnh.

Crop and Resize: Đặt vùng vẽ hình ảnh để nằm trong bản đồ kiểm soát. Cắt bản đồ kiểm soát để nó có cùng kích cỡ với vùng vẽ.

Vì bản đồ kiểm soát được cắt ở phía trên và dưới, cô gái của chúng ta cũng vậy.

Control map

Generated image

Resize and fill: Phù hợp với toàn bộ bản đồ kiểm soát với vùng vẽ hình ảnh. Mở rộng bản đồ kiểm soát với các giá trị trống để nó có cùng kích cỡ với vùng vẽ hình ảnh.

So với hình ảnh đầu vào gốc, có nhiều không gian hơn ở các bên.

Control map

Generated image

Resize and fill phù hợp với toàn bộ bản đồ kiểm soát với vùng vẽ hình ảnh và mở rộng bản đồ kiểm soát.

OK, bây giờ (hy vọng) bạn biết tất cả các thiết lập. Hãy khám phá một số ý tưởng để sử dụng ControlNet.

Xem thêm: Stable Diffusion WebUI AUTOMATIC1111: Tất cả những gì bạn cần biết

Multipe ControlNets

Bạn có thể sử dụng ControlNets nhiều lần để tạo ra một hình ảnh. Hãy cùng đi qua một ví dụ.

Model: Protogen v2.2

Gợi ý:

Một phi hành gia ngồi, hành tinh ngoại lai

Gợi ý phủ định:

biến dạng, xấu xí

gợi ý này tạo ra hình ảnh với các loại cấu trúc khác nhau.

Giả sử tôi muốn kiểm soát cấu trúc của phi hành gia và nền độc lập. Chúng ta có thể sử dụng nhiều (trong trường hợp này là 2) ControlNets cho việc này.

Tôi sẽ sử dụng hình ảnh tham khảo này để cố định tư thế của phi hành gia.

Cài đặt cho ControlNet 0:

Kích hoạt: Có
Trình tiền xử lý: OpenPose
Mô hình: control_xxxx_openpose
Chế độ thay đổi kích cỡ: Resize and Refill (Vì hình ảnh tham khảo gốc của tôi ở dạng chân dung)

Tôi sẽ sử dụng hình ảnh tham khảo sau cho nền.

Các mô hình sâu hoàn hảo cho mục đích này. Bạn sẽ muốn thử nghiệm xem mô hình sâu nào và cài đặt nào tạo ra bản đồ sâu bạn muốn.

Cài đặt cho ControlNet 1:

Kích hoạt: Có
Trọng lượng Kiểm soát: 0.45
Trình tiền xử lý: depth_zeo
Mô hình: control_XXXX_depth
Chế độ thay đổi kích cỡ: Crop and resize

Bây giờ tôi có thể kiểm soát cấu trúc của chủ đề và nền độc lập:

Lời khuyên:

Điều chỉnh trọng lượng ControlNet nếu một trong số chúng không hoạt động.
Chú ý đến chế độ thay đổi kích cỡ nếu bạn có hình ảnh tham khảo có kích cỡ khác nhau so với hình ảnh cuối cùng.

Một số ý tưởng để sử dụng ControlNet

Sao chép tư thế con người

Có lẽ ứng dụng phổ biến nhất của ControlNet là sao chép tư thế con người. Điều này là vì thường khó để kiểm soát tư thế… cho đến bây giờ! Hình ảnh đầu vào có thể là hình ảnh được tạo ra bởi Stable Diffusion, hoặc có thể được chụp từ một máy ảnh thực sự.

Mô hình OpenPose

Để sử dụng ControlNet để chuyển tư thế con người, hãy làm theo hướng dẫn để kích hoạt ControlNet trong AUTOMATIC1111. Sử dụng các cài đặt sau.

Trình tiền xử lý: openpose

Mô hình: control_…._openpose

Hãy chắc chắn bạn đã kiểm tra Kích hoạt.

Dưới đây là một số ví dụ.

Ví dụ 1: Sao chép tư thế từ một hình ảnh

Là một ví dụ cơ bản, hãy sao chép tư thế của hình ảnh sau của một người phụ nữ đang ngắm lá.

Hình ảnh đầu vào

Sử dụng các mô hình và lời nhắc khác nhau, bạn có thể thay đổi nội dung một cách đáng kể nhưng vẫn giữ được tư thế.

Dreamlike Photoreal model

Anything v3 model

DreamShaper model

Anything v3 model

Ví dụ 2: Remix một cảnh phim

Bạn có thể thay diễn viên cho cảnh nhảy điêu luyện nổi tiếng trong Pulp Fiction thành một số bài tập yoga trong công viên.

Việc này sử dụng ControlNet với mô hình DreamShaper.

Gợi ý: ảnh của phụ nữ đang tập yoga, ngoài công viên. Gợi ý phủ định: biến dạng, xấu xí, tồi tệ, non nớt

Đây là với cùng một gợi ý, nhưng sử dụng mô hình Inkpunk Diffusion. (Bạn sẽ cần thêm từ khóa kích hoạt nvinkpunk vào gợi ý)

Cùng một lời nhắc với mô hình ink punk diffusion

Làm cho hình ảnh phong cách với ControlNet

Sử dụng gợi ý

Dưới đây là với mô hình v1.5 nhưng các lời nhắc khác nhau để đạt được các phong cách khác nhau. ControlNet với các trình tiền xử lý khác nhau đã được sử dụng. Tốt nhất là thử nghiệm và xem cái nào hoạt động tốt nhất.

Pixel Art, Canny

3D rendering, Canny

Black and white, HED

water color, Normal

Sử dụng mô hình

Bạn cũng có thể sử dụng mô hình để làm cho hình ảnh phong cách. Dưới đây được tạo ra bằng lời nhắc “Bức tranh về Beethoven” với các mô hình Anythingv3, DreamShaper và OpenJourney.

Anything v3

DreamShaper

OpenJourney

Inkpunk Diffusion

Kiểm soát tư thế với Magic Pose

Đôi khi bạn có thể không tìm thấy hình ảnh với tư thế chính xác mà bạn muốn. Bạn có thể tạo tư thế tùy chỉnh của mình bằng cách sử dụng các công cụ phần mềm như Magic Poser (credit).

Bước 1: Truy cập website Magic Poser.

Bước 2: Di chuyển các điểm chính của mô hình để tùy chỉnh tư thế.

Bước 3: Nhấn Xem trước. Chụp màn hình của mô hình. Bạn nên có được hình ảnh giống như hình dưới đây.

Tư thế con người từ Magic Poser

Bước 4: Sử dụng mô hình ControlNet OpenPose. Chọn mô hình và lời nhắc của bạn để tạo hình ảnh.

Dưới đây là một số hình ảnh được tạo ra bằng mô hình 1.5 và mô hình DreamShaper. Tư thế đã được sao chép tốt trong tất cả các trường hợp.

Ý tưởng thiết kế nội thất

Bạn có thể sử dụng mô hình phát hiện đường thẳng MLSD của ControlNet Stable Diffusion để tạo ra ý tưởng thiết kế nội thất. Dưới đây là cài đặt ControlNet.

Trình tiền xử lý: mlsd

Mô hình: mlsd

Bắt đầu với bất kỳ hình ảnh thiết kế nội thất nào. Hãy sử dụng hình dưới đây làm ví dụ.

Hình ảnh đầu vào cho thiết kế nội thất

Gợi ý:

phòng khách đạt giải thưởng

Mô hình: Stable Diffusion v1.5

Dưới đây là một số ý tưởng thiết kế được tạo ra.

Hoặc, bạn có thể sử dụng mô hình sâu. Thay vì đường thẳng, nó sẽ nhấn mạnh việc bảo tồn thông tin độ sâu.

Trình tiền xử lý: Depth Midas

Mô hình: Depth

Hình ảnh được tạo ra:

Sự khác biệt giữa mô hình sâu Stable Diffusion và ControlNet

Stability AI, người tạo ra Stable Diffusion, đã phát hành một mô hình từ sâu đến hình ảnh. Nó có rất nhiều điểm tương đồng với ControlNet, nhưng cũng có những khác biệt quan trọng.

Hãy nói về những điểm tương đồng đầu tiên.

Cả hai đều là mô hình Stable Diffusion…
Cả hai đều sử dụng hai điều kiện (một hình ảnh được tiền xử lý và lời nhắc văn bản).
Cả hai đều sử dụng MiDAS để ước lượng bản đồ sâu.

Những khác biệt là

1. Mô hình từ sâu đến hình ảnh là mô hình v2. ControlNet có thể được sử dụng với bất kỳ mô hình v1 hoặc v2 nào. Điểm này rất quan trọng vì mô hình v2 rất khó sử dụng. Mọi người gặp khó khăn trong việc tạo ra hình ảnh tốt. Thực tế là ControlNet có thể sử dụng bất kỳ mô hình v1 nào không chỉ mở rộng điều kiện sâu cho mô hình cơ sở v1.5, mà còn hàng ngàn mô hình đặc biệt khác được phát hành bởi cộng đồng.

2. ControlNet linh hoạt hơn. Ngoài độ sâu, nó cũng có thể điều kiện với việc phát hiện cạnh, phát hiện tư thế, v.v.

3. Bản đồ sâu của ControlNet có độ phân giải cao hơn so với bản đồ sâu đến hình ảnh.

ControlNet hoạt động như thế nào?

Hướng dẫn này sẽ không hoàn chỉnh nếu không giải thích cách ControlNet hoạt động.

ControlNet hoạt động bằng cách kết nối các mô-đun mạng có thể huấn luyện vào các phần khác nhau của U-Net (bộ dự đoán nhiễu) của Mô hình Diffusion Ổn định (Stable Diffusion Model). Trọng số của Mô hình Diffusion Ổn định bị khóa để không thay đổi trong quá trình huấn luyện. Chỉ những mô-đun được kết nối mới được sửa đổi trong quá trình huấn luyện.

Sơ đồ mô hình từ bài báo nghiên cứu tóm tắt tốt. Ban đầu, trọng số của mô-đun mạng kết nối đều bằng không, giúp mô hình mới có thể tận dụng mô hình được huấn luyện và khóa.

Trong quá trình huấn luyện, hai điều kiện được cung cấp cùng với mỗi hình ảnh huấn luyện. (1) Lời nhắc văn bản, và (2) bản đồ kiểm soát như các điểm chính OpenPose hoặc các cạnh Canny. Mô hình ControlNet học cách tạo hình ảnh dựa trên hai đầu vào này.

Mỗi phương pháp kiểm soát được huấn luyện độc lập.

Để biết thêm thông tin chi tiết về Stable Diffusion có thể tìm hiểu thêm tại khóa học Stable Diffusion – Midjourney tại Arcline Academy hoặc có thể tham khảo thêm thông tin các khóa học thiết kế đồ hoạ khác tại đây

Trụ sở chính: 32/19 Nghĩa Hòa, Phường 06, Q. Tân Bình, TPHCM (Nhà Thờ Nghĩa Hòa – Khu Bắc Hải)

Trụ sở miền Tây: L30-09, Đường số 43, Khu Dân cư Stella Megacity, P. Bình Thủy, Q. Bình Thủy, Tp. Cần Thơ

Hotline: 0988 363 967