Phát triển một quy trình để xây dựng các prompt tốt là bước đầu tiên mà mỗi người dùng Stable Diffusion đối mặt. Bài viết này tóm tắt quy trình và các kỹ thuật được phát triển thông qua thử nghiệm và đầu vào từ người dùng khác. Mục tiêu là ghi chép tất cả những gì tôi biết về prompt, để bạn có thể biết tất cả chúng ở một nơi.
Cấu trúc của một prompt tốt
Một prompt tốt cần phải chi tiết và cụ thể. Một quy trình tốt là xem qua danh sách các hạng mục từ khóa và quyết định xem bạn có muốn sử dụng bất kỳ từ khóa nào trong số đó hay không.
Các hạng mục từ khóa bao gồm
1. Chủ đề
2. Phương tiện
3. Phong cách
4. Nghệ sĩ
5. Website
6.Độ phân giải
7. Chi tiết bổ sung
8. Màu sắc
9. Ánh sáng
Danh sách rộng lớn các từ khóa từ mỗi hạng mục có sẵn trong máy tạo prompt. Bạn cũng có thể tìm thấy một danh sách ngắn ở đây.
Bạn không cần phải bao gồm từ khóa từ tất cả các hạng mục. Xem chúng như một danh sách kiểm tra để nhắc bạn về những gì có thể được sử dụng.
Hãy xem lại từng hạng mục và tạo ra một số hình ảnh bằng cách thêm từ khóa từ mỗi hạng mục. Tôi sẽ sử dụng mô hình cơ sở v1.5. Để thấy hiệu ứng của prompt mà thôi, tôi sẽ không sử dụng các prompt tiêu cực trong thời gian hiện tại. Đừng lo, chúng ta sẽ nghiên cứu về các prompt tiêu cực trong phần sau của bài viết này. Tất cả các hình ảnh được tạo ra với 30 bước của DPM++ 2M Karas sampler và kích thước hình ảnh 512×704.
Chủ đề
Chủ đề là những gì bạn muốn thấy trong hình ảnh. Một lỗi phổ biến là không viết đủ về các chủ đề.
Giả sử chúng ta muốn tạo ra một phù thủy đang thực hiện phép thuật. Một người mới học có thể chỉ viết
Một phù thủy |
Điều này để lại quá nhiều không gian cho trí tưởng tượng. Bạn muốn phù thủy trông như thế nào? Có từ nào mô tả cô ấy có thể thu hẹp hình ảnh của cô ấy không? Cô ấy mặc gì? Cô ấy đang thực hiện loại phép thuật gì? Cô ấy đang đứng, chạy, hay nổi trong không khí? Cảnh nền là gì?
Stable Diffusion không thể đọc được suy nghĩ của chúng ta. Chúng ta phải nói chính xác những gì chúng ta muốn.
Một mánh phổ biến đối với các chủ đề con người là sử dụng tên người nổi tiếng. Chúng có hiệu lực mạnh mẽ và là một cách tuyệt vời để kiểm soát vẻ ngoại hình của chủ đề. Tuy nhiên, hãy biết rằng những tên này có thể thay đổi không chỉ khuôn mặt mà còn cả tư thế và một số thứ khác. Tôi sẽ trì hoãn chủ đề này cho một phần sau của bài viết này.
Như một demo, hãy để phù thủy trông giống Emma Watson, từ khóa được sử dụng nhiều nhất trong Stable Diffusion. Giả sử cô ấy mạnh mẽ và bí ẩn và sử dụng phép thuật sét. Chúng ta muốn trang phục của cô ấy rất chi tiết để cô ấy trông thú vị.
Emma Watson trong vai một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, quần áo chi tiết |
Chúng ta nhận được Emma Watson 11 lần trong 10 lần. Tên của cô ấy có hiệu lực mạnh mẽ đối với mô hình. Tôi nghĩ cô ấy phổ biến trong số người dùng Stable Diffusion bởi vì cô ấy trông đẹp, trẻ, và nhất quán trong một loạt các cảnh khác nhau. Tin tôi đi, chúng ta không thể nói điều tương tự về tất cả các nữ diễn viên, đặc biệt là những người đã hoạt động trong thập kỷ 90 hoặc sớm hơn…
Phương tiện
Phương tiện là vật liệu được sử dụng để tạo ra tác phẩm nghệ thuật. Một số ví dụ là minh họa, tranh sơn dầu, dựng hình 3D, và nhiếp ảnh. Phương tiện có hiệu lực mạnh mẽ bởi vì chỉ một từ khóa duy nhất có thể thay đổi phong cách một cách đ dramatic.
Hãy thêm từ khóa digital painting.
Emma Watson trong vai một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, quần áo chi tiết, digital painting |
Chúng ta thấy những gì chúng ta mong đợi! Các hình ảnh thay đổi từ nhiếp ảnh sang digital painting. Tới đây tốt lắm. Tôi nghĩ chúng ta có thể dừng lại ở đây. Chỉ đùa mà thôi.
Phong cách
Phong cách đề cập đến phong cách nghệ thuật của hình ảnh. Ví dụ bao gồm phong cách ấn tượng, siêu thực, pop art, v.v.
Hãy thêm hyperrealistic, fantasy, surrealist, full body vào prompt.
Emma Watson trong vai một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, quần áo chi tiết, digital painting, hyperrealistic, fantasy, Surrealist, full body |
Mmm… không chắc chắn nếu họ đã thêm nhiều. Có thể những từ khóa này đã được ám chỉ từ những từ khóa trước đó. Nhưng tôi đoán nó không gây hại nếu giữ nó.
Artist
Tên các artist là những từ chỉnh sửa mạnh mẽ. Chúng cho phép bạn điều chỉnh phong cách chính xác bằng cách sử dụng một artist cụ thể làm tham chiếu. Cũng phổ biến khi sử dụng nhiều tên artist để kết hợp các phong cách của họ. Giờ đây, hãy thêm vào Stanley Artgerm Lau, một artist truyện tranh siêu anh hùng, và Alphonse Mucha, một họa sĩ chân dung vào thế kỷ 19.
“Emma Watson hóa thân thành một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, trang phục chi tiết, tranh số hóa, siêu thực tế, giả tưởng, Siêu thực, toàn thân, của Stanley Artgerm Lau và Alphonse Mucha” |
Chúng ta có thể thấy các phong cách của cả hai nghệ sĩ đều hòa quyện và tạo ra hiệu ứng tốt.
Website
Các trang web đồ họa chuyên ngành như Artstation và Deviant Art tổng hợp nhiều hình ảnh thuộc các thể loại riêng biệt. Sử dụng chúng trong một prompt là cách chắc chắn để hướng hình ảnh về những phong cách này.
Hãy thêm Artstation vào prompt.
Emma Watson hóa thân thành một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, trang phục chi tiết, tranh số hóa, siêu thực tế, giả tưởng, Siêu thực, toàn thân, của Stanley Artgerm Lau và Alphonse Mucha, Artstation |
Không phải là một sự thay đổi lớn nhưng các hình ảnh đúng là giống như những gì bạn sẽ tìm thấy trên Artstation.
Độ phân giải
Độ phân giải thể hiện độ nét và chi tiết của hình ảnh. Hãy thêm các từ khóa rất chi tiết và tập trung nét.
Emma Watson hóa thân thành một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, trang phục chi tiết, tranh số hóa, siêu thực tế, giả tưởng, Siêu thực, toàn thân, của Stanley Artgerm Lau và Alphonse Mucha, Artstation, rất chi tiết, tập trung nét |
Ồ, có lẽ không có hiệu ứng lớn, có lẽ vì những hình ảnh trước đó đã khá nét và chi tiết. Nhưng không có hại khi thêm vào.
Chi tiết bổ sung
Chi tiết bổ sung là những điều tăng thêm để chỉnh sửa hình ảnh. Chúng tôi sẽ thêm sci-fi, đẹp đẽ đến ngỡ ngàng và distopian để thêm một số khí thế cho hình ảnh.
Emma Watson hóa thân thành một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, trang phục chi tiết, tranh số hóa, siêu thực tế, giả tưởng, Siêu thực, toàn thân, của Stanley Artgerm Lau và Alphonse Mucha, Artstation, rất chi tiết, tập trung nét, khoa học viễn tưởng, đẹp đẽ đến ngỡ ngàng, distopian |
Màu sắc
Bạn có thể kiểm soát màu sắc tổng thể của hình ảnh bằng cách thêm các từ khóa màu sắc. Màu sắc bạn chỉ định có thể xuất hiện như một tông màu hoặc trong các đối tượng.
Hãy thêm một số màu vàng vào hình ảnh với từ khóa vàng ánh kim.
Emma Watson hóa thân thành một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, trang phục chi tiết, tranh số hóa, siêu thực tế, giả tưởng, Siêu thực, toàn thân, của Stanley Artgerm Lau và Alphonse Mucha, Artstation, rất chi tiết, tập trung nét, khoa học viễn tưởng, đẹp đẽ đến ngỡ ngàng, distopian, vàng ánh kim |
Màu vàng rất tốt!
Ánh sáng
Bất kỳ nhiếp ảnh gia nào cũng sẽ nói với bạn rằng ánh sáng là yếu tố quan trọng trong việc tạo ra hình ảnh thành công. Các từ khóa về ánh sáng có thể có ảnh hưởng lớn đến cách hình ảnh trông như thế nào. Hãy thêm ánh sáng điện ảnh và tối vào prompt.
Emma Watson hóa thân thành một phù thủy bí ẩn mạnh mẽ, thực hiện phép thuật sét, trang phục chi tiết, tranh số hóa, siêu thực tế, giả tưởng, Siêu thực, toàn thân, của Stanley Artgerm Lau và Alphonse Mucha, Artstation, rất chi tiết, tập trung nét, khoa học viễn tưởng, đẹp đẽ đến ngỡ ngàng, distopian, vàng ánh kim, ánh sáng điện ảnh, tối |
Điều này hoàn thành ví dụ về prompt của chúng tôi.
Nhận xét
Như bạn có thể đã nhận thấy, các hình ảnh đã khá tốt với một số từ khóa được thêm vào chủ đề. Khi xây dựng một prompt cho Stable Diffusion, thường bạn không cần phải có nhiều từ khóa để có được hình ảnh tốt.
Negative prompt
Sử dụng các prompt phủ định là một cách tuyệt vời khác để điều chỉnh hình ảnh, nhưng thay vì đưa vào những gì bạn muốn, bạn đưa vào những gì bạn không muốn. Chúng không cần phải là các đối tượng. Chúng cũng có thể là các phong cách và thuộc tính không mong muốn. (ví dụ: xấu, biến dạng)
Việc sử dụng các prompt phủ định là bắt buộc đối với các mô hình v2. Nếu không có nó, hình ảnh sẽ trông kém hơn nhiều so với v1. Chúng là tùy chọn cho các mô hình v1, nhưng tôi thường xuyên sử dụng chúng vì chúng hoặc giúp ích hoặc không gây hại.
Tôi sẽ sử dụng một prompt phủ định chung. Bạn có thể đọc thêm về nó nếu bạn muốn hiểu cách nó hoạt động.
xấu, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy |
Với prompt phủ định chung
Prompt phủ định đã giúp hình ảnh nổi bật hơn, làm cho chúng ít phẳng hơn.
Quy trình xây dựng một prompt tốt
Xây dựng prompt theo cách lặp lại
Bạn nên tiếp cận xây dựng prompt như một quy trình lặp lại. Như bạn thấy từ phần trước, hình ảnh có thể khá tốt với chỉ vài từ khóa được thêm vào chủ đề.
Tôi luôn bắt đầu với một prompt đơn giản chỉ với chủ đề, phương tiện và phong cách. Tạo ra ít nhất 4 hình ảnh cùng một lúc để xem bạn nhận được gì. Hầu hết các prompt không hoạt động 100% thời gian. Bạn muốn có một số ý tưởng về những gì chúng có thể làm theo cách thống kê.
Thêm tối đa hai từ khóa cùng một lúc. Tương tự, tạo ra ít nhất 4 hình ảnh để đánh giá hiệu ứng của nó.
Sử dụng prompt phủ định
Bạn có thể sử dụng một prompt tiêu cực chung nếu bạn mới bắt đầu.
Thêm từ khóa vào prompt tiêu cực có thể là một phần của quá trình lặp lại. Các từ khóa có thể là các đối tượng hoặc các bộ phận cơ thể mà bạn muốn tránh (Vì các mô hình v1 không giỏi trong việc hiển thị bàn tay, nên việc sử dụng “bàn tay” trong prompt tiêu cực để ẩn chúng không phải là ý tưởng tồi.)
Xem thêm: Stable Diffusion WebUI AUTOMATIC1111: Tất cả những gì bạn cần biết
Kỹ thuật prompting
Bạn có thể điều chỉnh sự quan trọng của một từ khóa bằng cách chuyển đổi sang một từ khóa khác ở một bước lấy mẫu nhất định.
Cú pháp sau áp dụng cho AUTOMATIC1111 GUI. Bạn có thể chạy GUI này với một cú nhấp chuột bằng cách sử dụng sổ ghi chú Colab trong Hướng dẫn bắt đầu nhanh. Bạn cũng có thể cài đặt nó trên Windows và Mac.
Trọng số từ khóa
(Cú pháp này áp dụng cho AUTOMATIC1111 GUI.)
Bạn có thể điều chỉnh trọng lượng của một từ khóa bằng cú pháp (từ khóa: yếu tố). yếu tố là một giá trị nhỏ hơn 1 có nghĩa là ít quan trọng hơn và lớn hơn 1 có nghĩa là quan trọng hơn.
Ví dụ, chúng tôi có thể điều chỉnh trọng lượng của từ khóa dog trong prompt sau
dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell. |
(dog: 0.5)
dog
(dog: 1.5)
Tăng trọng lượng của dog có xu hướng tạo ra nhiều chó hơn. Giảm nó có xu hướng tạo ra ít chó hơn. Nó không phải lúc nào cũng đúng đối với mọi hình ảnh. Nhưng đúng theo cách thống kê.
Kỹ thuật này có thể được áp dụng cho các từ khóa chủ đề và tất cả các hạng mục, như phong cách và ánh sáng.
Cú pháp () và []
(Cú pháp này áp dụng cho AUTOMATIC1111 GUI.)
Một cách tương đương để điều chỉnh sức mạnh của từ khóa là sử dụng () và []. (từ khóa) tăng sức mạnh của từ khóa lên 1.1 lần và giống như (từ khóa:1.1). từ khóa giảm sức mạnh xuống 0.9 lần và giống như (từ khóa:0.9).
Bạn có thể sử dụng nhiều từ khóa, giống như trong Đại số… Hiệu ứng là lũy thừa.
(từ khóa): 1.1
((từ khóa)): 1.21 (((từ khóa))): 1.33 |
Tương tự, hiệu quả của việc sử dụng nhiều [] là
[từ khóa]: 0.9 [[từ khóa]]: 0.81 [[[từ khóa]]]: 0.73 |
Kỹ thuật kết hợp từ khóa
(Cú pháp này áp dụng cho GUI của AUTOMATIC1111.)
Bạn có thể kết hợp hai từ khóa. Thuật ngữ chính xác là lịch trình prompt. Cú pháp là
[từ khóa1 : từ khóa2: yếu tố] |
Yếu tố kiểm soát ở bước nào từ khóa1 được chuyển sang từ khóa2. Đó là một số trong khoảng từ 0 đến 1.
Ví dụ, nếu tôi sử dụng prompt
Oil painting portrait of [Joe Biden: Donald Trump: 0.5] |
trong 30 bước lấy mẫu.
Có nghĩa là prompt trong các bước từ 1 đến 15 là
Oil painting portrait of Joe Biden |
Và prompt trong các bước từ 16 đến 30 trở thành
Oil painting portrait of Donald Trump |
Yếu tố xác định khi nào từ khóa được thay đổi. nó là sau 30 bước x 0.5 = 15 bước.
Hiệu ứng của việc thay đổi yếu tố là kết hợp hai tổng thống ở các mức độ khác nhau.
Bạn có thể đã chú ý rằng Trump mặc một bộ đồ trắng, phong cách hơn của Joe. Đây là một ví dụ hoàn hảo về một quy tắc rất quan trọng đối với kỹ thuật kết hợp từ khóa: Từ khóa đầu tiên quy định cấu trúc toàn cầu. Các bước khuếch tán ban đầu xác định cấu trúc tổng thể. Các bước sau đó tinh chỉnh chi tiết.
Quiz: Bạn sẽ nhận được gì nếu hoán đổi Donald Trump và Joe Biden?
Kết hợp khuôn mặt
Một trường hợp sử dụng phổ biến là tạo ra một khuôn mặt mới với một vẻ ngoài cụ thể, mượn từ các diễn viên nam và nữ. Ví dụ, [Emma Watson: Amber Heard: 0.85], 40 bước là một vẻ ngoài giữa hai người:
Khi cẩn thận chọn hai tên và điều chỉnh yếu tố, chúng tôi có thể nhận được vẻ ngoài mà chúng tôi muốn một cách chính xác.
Poor man’s prompt-to-prompt
Sử dụng kỹ thuật kết hợp từ khóa, bạn có thể đạt được hiệu ứng tương tự như prompt-to-prompt, tạo ra các cặp hình ảnh giống nhau rất nhiều với các chỉnh sửa. Hai hình ảnh sau được tạo ra với cùng một prompt ngoại trừ một lịch trình prompt để thay thế táo bằng lửa. Hạt giống và số lượng bước được giữ nguyên.
holding an [apple: fire: 0.9]
holding an [apple: fire: 0.2]
Yếu tố cần được điều chỉnh cẩn thận. Nó hoạt động như thế nào? Lý thuyết đằng sau điều này là cấu trúc tổng thể của hình ảnh đã được xác định bởi quá trình khuếch tán ban đầu. Một khi quá trình khuếch tán bị mắc kẹt trong một không gian nhỏ, việc hoán đổi bất kỳ từ khóa nào sẽ không có tác động lớn đến hình ảnh tổng thể. Nó chỉ thay đổi một phần nhỏ.
Prompt có thể dài bao nhiêu?
Tùy thuộc vào dịch vụ Khuếch tán ổn định mà bạn đang sử dụng, có thể có một số lượng tối đa từ khóa mà bạn có thể sử dụng trong prompt. Trong mô hình Stable Diffusion v1 cơ bản, giới hạn đó là 75 token.
Lưu ý rằng token không giống như các từ. Mô hình CLIP mà Stable Diffusion sử dụng tự động chuyển đổi prompt thành token, một biểu diễn số học của các từ mà nó biết. Nếu bạn đưa vào một từ mà nó chưa từng thấy trước đó, nó sẽ được chia thành 2 hoặc nhiều từ con cho đến khi nó biết đó là gì. Các từ mà nó biết được gọi là token, được biểu diễn dưới dạng số. Ví dụ, dream là một token, beach là một token. Nhưng dreambeach là hai token vì mô hình không biết từ này, và vì vậy mô hình chia từ thành dream và beach mà nó biết.
Giới hạn prompt trong AUTOMATIC1111
AUTOMATIC1111 không có giới hạn token. Nếu một prompt chứa nhiều hơn 75 token, giới hạn của tokenizer CLIP, nó sẽ bắt đầu một phần mới của 75 token khác, vì vậy giới hạn mới trở thành 150. Quá trình có thể tiếp tục mãi mãi hoặc cho đến khi máy tính của bạn hết bộ nhớ…
Mỗi phần của 75 token được xử lý độc lập, và các biểu diễn kết quả được nối tiếp trước khi đưa vào U-Net của Stable Diffusion.
Trong AUTOMATIC1111, bạn có thể kiểm tra số lượng token bằng cách nhìn vào hộp nhỏ ở góc trên bên phải của hộp nhập prompt.
Bộ đếm token trong AUTOMATIC1111
Bộ đếm token trong AUTOMATIC1111
Kiểm tra từ khóa
Thực tế là bạn thấy mọi người sử dụng từ khóa không có nghĩa là nó hiệu quả. Giống như bài tập về nhà, chúng ta đều sao chép prompt của nhau, đôi khi không suy nghĩ nhiều.
Bạn có thể kiểm tra hiệu quả của từ khóa bằng cách chỉ sử dụng nó như một prompt. Ví dụ, liệu mô hình v1.5 có biết đến họa sĩ Mỹ Henry Asencio không? Hãy kiểm tra với prompt
henry asencio |
Kết quả tích cực!
Còn nghệ sĩ nổi tiếng Artstation wlop thì sao?
wlop |
Có vẻ như không. Đó là lý do bạn không nên sử dụng “by wlop”. Điều đó chỉ thêm nhiễu.
Josephine Wall
Bạn có thể sử dụng kỹ thuật này để xem xét hiệu ứng của việc kết hợp hai nghệ sĩ hoặc nhiều hơn.
Henry asencio, Josephine Wall |
Giới hạn biến thể
Để giỏi xây dựng prompt, bạn cần suy nghĩ như Stable Diffusion. Về cơ bản, nó là một bộ lấy mẫu hình ảnh, tạo ra các giá trị pixel mà chúng ta, con người, nói rằng nó hợp lệ và tốt. Bạn thậm chí có thể sử dụng nó mà không cần prompt, và nó sẽ tạo ra nhiều hình ảnh không liên quan. Về mặt kỹ thuật, điều này được gọi là quá trình khuếch tán không có điều kiện hoặc không được hướng dẫn.
Prompt là một cách để hướng dẫn quá trình khuếch tán đến không gian lấy mẫu nơi nó phù hợp. Tôi đã nói trước đó rằng một prompt cần phải chi tiết và cụ thể. Đó là bởi vì một prompt chi tiết sẽ thu hẹp không gian lấy mẫu. Hãy xem một ví dụ.
lâu đài |
lâu đài, nền bầu trời xanh |
góc rộng của lâu đài, nền bầu trời xanh |
Bằng cách thêm nhiều từ khóa mô tả trong prompt, chúng ta thu hẹp việc lấy mẫu các lâu đài. Trong ví dụ đầu tiên, chúng tôi yêu cầu bất kỳ hình ảnh nào của một lâu đài. Sau đó, chúng tôi yêu cầu chỉ những hình ảnh có nền bầu trời xanh. Cuối cùng, chúng tôi yêu cầu nó được chụp dưới dạng một bức ảnh góc rộng.
Càng chi tiết bạn chỉ định trong prompt, càng ít biến thể trong hình ảnh.
Hiệu ứng liên kết
Liên kết thuộc tính
Một số thuộc tính có mối tương quan mạnh. Khi bạn chỉ định một, bạn sẽ nhận được cái khác. Stable Diffusion tạo ra những hình ảnh có khả năng nhất có thể có hiệu ứng liên kết không mong muốn.
Giả sử chúng ta muốn tạo ra hình ảnh của phụ nữ có mắt xanh.
một cô gái trẻ với đôi mắt xanh, tóc nổi bật, ngồi ngoài nhà hàng, mặc trang phục trắc, ánh sáng từ bên |
Mắt xanh
Nếu chúng ta thay đổi thành mắt nâu thì sao?
một cô gái trẻ với đôi mắt nâu, tóc nổi bật, ngồi ngoài nhà hàng, mặc trang phục trắc, ánh sáng từ bên |
Mắt nâu
Ở đâu trong các prompt, tôi không chỉ định sắc tộc. Nhưng bởi vì người có mắt xanh chủ yếu là người châu Âu, người da trắng được tạo ra. Mắt nâu phổ biến hơn ở các sắc tộc khác nhau, vì vậy bạn sẽ thấy một mẫu đa dạng hơn về chủng tộc.
Phân loại và thiên vị là một chủ đề lớn trong các mô hình AI. Tôi sẽ giới hạn về khía cạnh kỹ thuật trong bài viết này.
Liên kết của tên người nổi tiếng
Mọi từ khóa đều có một số liên kết không mong muốn. Điều đó đặc biệt đúng với tên của người nổi tiếng. Một số diễn viên và diễn viên thích đứng hoặc mặc quần áo nhất định khi chụp hình, và do đó trong dữ liệu huấn luyện. Nếu bạn nghĩ về nó, huấn luyện mô hình không có gì khác ngoài việc học bằng cách liên kết. Nếu Taylor Swift (trong dữ liệu huấn luyện) luôn chéo chân, mô hình sẽ nghĩ rằng việc chéo chân cũng là Taylor Swift.
Prompt: toàn thân Taylor Swift trong thành phố hậu tận thế công nghệ cao tương lai, họa tiết kỹ thuật số
Khi bạn sử dụng Taylor Swift trong prompt, bạn có thể muốn sử dụng khuôn mặt của cô ấy. Nhưng có hiệu ứng của tư thế và trang phục của chủ đề. Hiệu ứng có thể được nghiên cứu bằng cách sử dụng tên của cô ấy một mình như prompt.
Tư thế và trang phục là cấu trúc toàn cầu. Nếu bạn muốn khuôn mặt của cô ấy nhưng không phải là tư thế của cô ấy, bạn có thể sử dụng kỹ thuật trộn từ khóa để thay thế cô ấy vào bước lấy mẫu sau.
Liên kết của tên nghệ sĩ
Có lẽ ví dụ nổi bật nhất về liên kết được thấy khi sử dụng tên nghệ sĩ.
Họa sĩ người Séc thế kỷ 19 Alphonse Mucha là một sự xuất hiện phổ biến trong các prompt chân dung bởi vì tên giúp tạo ra những hoa văn thú vị và phong cách của ông kết hợp rất tốt với minh họa kỹ thuật số. Nhưng nó cũng thường để lại một họa tiết hình tròn hoặc hình bán cầu đặc trưng ở phía sau. Chúng có thể trông không tự nhiên trong các cảnh quan ngoại thất.
Prompt: họa tiết kỹ thuật số của [Emma Watson:Taylor Swift: 0.6] theo phong cách Alphonse Mucha. (30 bước)
Embeddings là từ khóa
Embeddings, kết quả của phép nghịch đảo văn bản, không gì khác ngoài sự kết hợp của các từ khóa. Bạn có thể mong đợi chúng làm hơn một chút so với những gì chúng tuyên bố.
Hãy xem các hình ảnh cơ bản sau của Ironman đang nấu một bữa ăn mà không sử dụng embeddings.
Prompt: Iron Man nấu ăn trong bếp.
Style-Empire là một embedding mà tôi thích sử dụng vì nó tạo ra một tông màu đ dark cho hình ảnh chân dung và tạo ra một hiệu ứng ánh sáng thú vị. Vì nó đã được huấn luyện trên một hình ảnh với cảnh phố vào ban đêm, bạn có thể mong đợi nó thêm một số màu đen VÀ có thể cả nhà cao tầng và đường phố. Xem các hình ảnh dưới đây với embedding được thêm vào.
Prompt: Iron Man nấu ăn trong bếp Style-Empire.
Chú ý một số hiệu ứng thú vị
- Nền của hình ảnh đầu tiên đã thay đổi thành những toà nhà thành phố vào ban đêm.
- Iron Man có xu hướng hiện khuôn mặt. Có thể hình ảnh huấn luyện là một bức chân dung?
Vì vậy, ngay cả khi một embedding dự định để sửa đổi phong cách, nó chỉ là một nhóm từ khóa và có thể có những hiệu ứng không mong muốn.
Xem thêm: Tìm hiểu về Prompt và Negative Prompt trong Stable Diffusion
Hiệu ứng của các mô hình tùy chỉnh
Sử dụng một mô hình tùy chỉnh là cách dễ nhất để đạt được một phong cách, đảm bảo. Đây cũng là một sức hút độc đáo của Stable Diffusion. Bởi vì cộng đồng mã nguồn mở lớn, hàng trăm mô hình tùy chỉnh có sẵn miễn phí.
Khi sử dụng một mô hình, chúng ta cần nhận biết rằng ý nghĩa của một từ khóa có thể thay đổi. Điều này đặc biệt đúng với phong cách.
Hãy sử dụng Henry Asencio một lần nữa làm ví dụ. Trong v1.5, chỉ tên của ông đã tạo ra:
Sử dụng DreamShaper, một mô hình tinh chỉnh cho minh họa chân dung, với cùng một prompt tạo ra
Đó là một phong cách rất tốt nhưng rõ ràng khác biệt. Mô hình có một cơ sở mạnh để tạo ra khuôn mặt rõ ràng và xinh đẹp, đã được tiết lộ ở đây.
Vì vậy, hãy chắc chắn kiểm tra khi bạn sử dụng một phong cách trong các mô hình tùy chỉnh. van Gogh có thể không còn là van Gogh nữa!
Prompt cụ thể cho từng vùng
Bạn có biết bạn có thể chỉ định các prompt khác nhau cho các vùng khác nhau của hình ảnh không?
Ví dụ, bạn có thể đặt mặt trăng ở góc trên bên trái:
Hoặc ở góc trên bên phải:
Bạn có thể làm điều đó bằng cách sử dụng tiện ích mở rộng Regional Prompter. Đó là một cách tuyệt vời để kiểm soát cấu trúc hình ảnh!
Để biết thêm thông tin chi tiết về Stable Diffusion có thể tìm hiểu thêm tại khóa học Stable Diffusion – Midjourney tại Arcline Academy hoặc có thể tham khảo thêm thông tin các khóa học khác tại đây
Trụ sở chính: 32/19 Nghĩa Hòa, Phường 06, Q. Tân Bình, TPHCM (Nhà Thờ Nghĩa Hòa – Khu Bắc Hải)
Trụ sở miền Tây: L30-09, Đường số 43, Khu Dân cư Stella Megacity, P. Bình Thủy, Q. Bình Thủy, Tp. Cần Thơ
Hotline: 0988 363 967