Khám phá Stable Diffusion SDXL Beta - Đột phá mới trong trí tuệ nhân tạo

Stability AI đã phát hành phiên bản xem trước của một mô hình mới mang tên SDXL Beta (Stable Diffusion XL Beta). Họ chưa tiết lộ nhiều thông tin về mô hình này, nhưng nó đã sẵn sàng cho bất kỳ ai muốn thử nghiệm.

Có gì mới trong Stable Diffusion SDXL model này? Ưu điểm và hạn chế của nó là gì? Hãy cùng tìm hiểu trong bài vết phía dưới.

Mô hình SDXL là gì?

Mô hình SDXL là một mô hình mới hiện đang trong quá trình huấn luyện. Hiện tại nó chưa hoàn thiện. Thực tế, khi phát hành, nó có thể không được gọi là mô hình SDXL.

Tất cả những gì chúng ta biết là đó là một mô hình lớn hơn với nhiều tham số hơn và một số cải tiến chưa được tiết lộ. Đó là một mô hình phiên bản 2, không phải v3 model (dù có ý nghĩa gì thì tùy).

Cách sử dụng mô hình SDXL

Mô hình SDXL hiện đang có sẵn tại DreamStudio, bộ tạo hình ảnh chính thức của Stability AI. Để sử dụng mô hình SDXL, hãy chọn “SDXL Beta” trong menu mô hình.

Selecting the SDXL Beta model in DreamStudio.

Bạn sẽ cần đăng ký để sử dụng mô hình. Sau khi đăng ký, bạn sẽ nhận được một số tín dụng miễn phí.

Cải tiến

Tôi sẽ nhấn mạnh một số cải tiến trong mô hình SDXL mà tôi đã thấy cho đến thời điểm này.

Văn bản dễ đọc

Có thể nói rằng khả năng tạo ra văn bản dễ đọc là điểm nổi bật nhất. Điều này không thể thực hiện trong các mô hình v1 hoặc v2.1.

Văn bản được tạo ra bởi SDXL không luôn đúng (như bạn có thể thấy ở phần văn bản Stable Diffusion bên dưới). Nhưng nó tốt hơn rất nhiều so với v2.1, chưa kể đến các mô hình v1.

Ảnh chụp của một người phụ nữ ngồi trong nhà hàng cầm một thực đơn ghi “Menu”

Ảnh chụp của một người đàn ông cầm một tấm biển ghi “Stable Diffusion”

một phụ nữ trẻ cầm một tấm biển ghi “Stable Diffusion”, nổi bật trên tóc, ngồi ngoài nhà hàng, mắt nâu, mặc váy, ánh sáng chiếu bên

Cải thiện hình thái con người

Stable Diffusion luôn gặp vấn đề trong việc tạo hình thái con người chính xác. Thường thấy có các chi cơ thể thừa hoặc thiếu. Thông thường bạn phải sử dụng phương pháp inpainting để sửa chữa chúng. Hoặc gần đây hơn, bạn có thể sao chép một tư thế từ hình ảnh tham chiếu bằng cách sử dụng chức năng ControlNet’s Open Pose.

Tôi rất vui khi thấy mô hình SDXL Beta đã cải thiện trong lĩnh vực này. Hãy xem một ví dụ.

Gợi ý là:

Ảnh chụp của một phụ nữ mặc trang phục yoga, tư thế tam giác, bãi biển vào buổi tối, ánh sáng viền

Dưới đây là những hình ảnh từ SDXL Beta.

So sánh với những hình ảnh từ v1.5 dưới đây.

Nó không hoàn hảo, nhưng tư thế con người đã cải thiện rất nhiều trong SDXL!

Hình ảnh thẩm mỹ hơn

Các hình ảnh được tạo ra có thể khá khác nhau. Hãy xem những hình ảnh sau đây với cùng một yêu cầu.

v1.5

v2.2.2 SDXL Beta

Chân dung theo phong cách chụp ảnh rất tốt trong SDXL Beta. Tôi sẽ nói rằng nó tốt hơn cả v1.5.

ảnh chụp của một người phụ nữ

v1.5

v2.2.2 SDXL Beta

v1.5

v2.2.2 SDXL Beta

Hình ảnh chính xác hơn

Khả năng hiểu yêu cầu cải thiện so với các mô hình v1.

Trong mô hình v1.5, từ khóa “duotone” luôn tạo ra những hình ảnh đen trắng. SDXL Beta tạo ra những hình ảnh duotone với nhiều màu sắc khác nhau. Điều này là một cải tiến.

Chân dung duotone của một người phụ nữ

v1.5

v2.2.2 SDXL Beta

Vì SDXL Beta là một mô hình v2, nó trang bị một mô hình văn bản lớn hơn. Bạn có thể mong đợi nó hiểu yêu cầu của bạn tốt hơn so với các mô hình v1. Thực sự, đó là điều chúng ta thấy.

Hãy xem những hình ảnh được tạo ra từ yêu cầu sau với hai chủ thể.

một người bạn robot lớn ngồi cạnh một con người, phong cách Ghost in the Shell, hình nền anime

v1.5

v2.2.2 SDXL Beta

Mô hình v1.5 liên tục bỏ qua việc có hai chủ thể, robot và con người, trong yêu cầu. Nhưng mô hình SDXL Beta có khả năng hiểu yêu cầu và tạo ra một hình ảnh chính xác hơn. (Tôi hy vọng con robot có thể lớn hơn, nhưng đó là một bước tiến.)

Tương tự như vậy, các hình ảnh theo phong cách chụp ảnh cũng chính xác hơn. Xem yêu cầu và hình ảnh sau đây.

một người đàn ông trẻ, nổi bật trên tóc, mắt nâu, mặc áo sơ mi trắng và quần jean màu xanh trên bãi biển có núi lửa phía sau

v1.5

v2.2.2 SDXL Beta

Xem thêm: SDXL là gì? Hướng dẫn sử dụng mô hình SDXL

Phong cách nghệ thuật của Artistic

Tôi đã kiểm tra phong cách nghệ thuật của một số Artistic. Có một số thay đổi tinh tế, nhưng tôi không thể nói rằng chúng tốt hơn hay tệ hơn. Nó chỉ đơn giản là khác nhau.

Cả v1.5 và SDXL Beta đều tạo ra phong cách của Edward Hopper. Tuy chúng có sự khác biệt nhất quán.

New York City của Edward Hopper

v1.5

v2.2.2 SDXL Beta

v1.5 tạo ra phong cách của Leonid Afremov một cách chính xác. Nhưng những nét vẽ sáng sủa không thể nhầm lẫn của vẽ bằng cọ đã mất trong SDXL Beta. Nó tạo ra một phong cách minh họa và, thú vị thay, vẫn giữ được ánh phản chiếu đặc trưng trên mặt đất.

New York City của Leonid Afremov

v1.5

v2.2.2 SDXL Beta

Cả v1.5 và SDXL Beta tạo ra một cái gì đó gần giống phong cách của William-Adolphe Bouguereau. Các hình ảnh của SDXL Beta gần hơn với các bức tranh học thuật điển hình mà Bouguereau sản xuất. Nói chung, chân dung từ SDXL Beta thể hiện nhiều chi tiết hơn trên khuôn mặt.

Chân dung của một người phụ nữ xinh đẹp của William-Adolphe Bouguereau

v1.5

v2.2.2 SDXL Beta

Thay đổi phong cách

Có lẽ đó là một lỗi trong mô hình xem trước này. Đôi khi, phong cách có thể thay đổi đột ngột với việc thêm vào những từ khóa vô hại.

Ví dụ, ban đầu tôi bắt đầu với yêu cầu này để tạo ra phong cách chụp ảnh.

một người đàn ông trẻ, nổi bật trên tóc, mắt nâu, áo sơ mi trắng và quần jean màu xanh trên bãi biển với núi lửa phía sau.

Bây giờ tôi muốn thêm vào một chiếc khăn quàng màu vàng.

một người đàn ông trẻ, nổi bật trên tóc, mắt nâu, đang đội khăn quàng màu vàng, áo sơ mi trắng và quần jean màu xanh trên bãi biển với núi lửa phía sau.

Đột nhiên, hình ảnh thay đổi sang phong cách anime. Điều này xảy ra với một số từ khóa. Nó gần như như mô hình đã kết hợp với một số phong cách hoạt hình và sẵn lòng chuyển sang đó.

Hy vọng rằng vấn đề này sẽ được giải quyết trong phiên bản chính thức.

Ấn tượng

Dưới đây là những gì tôi nghĩ về mô hình SDXL Beta:

Stable Diffusion cuối cùng đã tạo ra văn bản chính xác!
Đẹp hơn mô hình v2.1 và (một phần nhỏ hơn) mô hình v1.5.
Các hình ảnh chính xác hơn so với những yêu cầu mô tả.
Hình thái con người đang cải thiện.
Không cần yêu cầu phủ định nhiều như v2.1.
Đặc biệt mạnh về chân dung.
Một số lỗi đặc biệt trong mô hình cần được khắc phục trước khi phát hành.

Cuối cùng, dưới đây là một số hình ảnh khác từ mô hình SDXL Beta.

Để biết thêm thông tin chi tiết về Stable Diffusion có thể tìm hiểu thêm tại khóa học Stable Diffusion – Midjourney tại Arcline Academy hoặc có thể tham khảo thêm thông tin các khóa học khác tại đây

Trụ sở chính: 32/19 Nghĩa Hòa, Phường 06, Q. Tân Bình, TPHCM (Nhà Thờ Nghĩa Hòa – Khu Bắc Hải)

Trụ sở miền Tây: L30-09, Đường số 43, Khu Dân cư Stella Megacity, P. Bình Thủy, Q. Bình Thủy, Tp. Cần Thơ

Hotline: 0988 363 967