DALL·E 3 và ChatGPT: "Phù phép" từ ngôn ngữ thành hình ảnh độc đáo
DALL·E có lẽ sẽ được coi là một trong những sản phẩm công nghệ quan trọng nhất của những năm 2020 và chắc chắn nó đã khởi đầu cho cơn sốt AI tạo sinh hiện nay. Nhưng kể từ khi ra mắt vào năm 2022, các trình tạo hình ảnh khác, như Stable Diffusion và Midjourney, đã và đang tạo ra những tác phẩm nghệ thuật AI ngày càng ấn tượng. Trong một khoảng thời gian, thực sự có cảm giác như DALL·E đang bị tụt hậu.
Nhưng điều đó đã thay đổi với việc phát hành DALL·E 3 và vòng cập nhật mới nhất.
DALL·E 3 là gì?
DALL·E 3 là phiên bản mới nhất của trình tạo nghệ thuật AI của OpenAI. Đây là một bản nâng cấp lớn so với DALL·E 2, cả về cách bạn sử dụng nó và chất lượng của những gì nó có thể tạo ra. Một lần nữa, nó có thể sánh ngang với tất cả các trình tạo hình ảnh AI khác hiện có.
Thay đổi lớn nhất là DALL·E 3 không còn là một ứng dụng độc lập, ít nhất là vào thời điểm hiện tại. Thay vào đó, nó được tích hợp với ChatGPT. Điều này giúp bạn dễ dàng sử dụng hơn, nhưng vẫn còn một số điều kỳ quặc—như chúng ta thường thấy với bất kỳ công cụ nào được hỗ trợ bởi AI.
Vì vậy, hãy cùng tìm hiểu sâu hơn.
Đầu tiên, hãy đăng ký ChatGPT Plus
Hiện tại, DALL·E 3 chỉ khả dụng cho những người đăng ký ChatGPT Plus. Để truy cập, hãy đăng ký tài khoản ChatGPT, sau đó nhấp vào Nâng cấp gói ở cuối thanh bên trái. Chọn gói đăng ký ChatGPT Plus 20 đô la/tháng, nhập thông tin thanh toán của bạn và bạn đã sẵn sàng để sử dụng.
Cho đến nay, DALL·E 3 dường như có giới hạn tương tự như GPT-4: bạn có thể gửi 40 yêu cầu sau mỗi ba giờ. Về lý thuyết, điều này có nghĩa là bạn có thể tạo ra vài trăm hình ảnh mỗi ngày. Con số đó nhiều hơn nhiều so với những gì bạn thường nhận được với trình tạo hình ảnh AI như Dream Studio (sử dụng Stable Diffusion) hoặc Midjourney, mặc dù giá cả trên bảng không nhất quán. Và tôi nghi ngờ nếu bạn thường xuyên bắt đầu xử lý nhiều lời nhắc như vậy, OpenAI có thể có điều gì đó để nói.
Nếu bạn muốn dùng thử DALL·E 3 mà không cần đăng ký ChatGPT Plus, bạn cũng có thể thử nghiệm trong Trình tạo hình ảnh từ Nhà thiết kế (một phần của Microsoft Copliot). Bạn không có cùng mức độ kiểm soát, nhưng nó sử dụng cùng một mô hình cơ bản. Về mặt kỹ thuật, nó miễn phí để sử dụng, mặc dù hình ảnh được đóng dấu mờ và nó sử dụng hệ thống tín dụng "tăng cường". Khi bạn đã sử dụng hết phần bổ sung của mình, Trình tạo hình ảnh có thể mất nhiều thời gian hơn để hiển thị lời nhắc của bạn.
Bắt đầu với DALL·E 3
Để truy cập DALL·E 3, hãy chuyển đến ChatGPT và đảm bảo rằng bạn đang sử dụng ChatGPT 4 hoặc ChatGPT 4o. (Bạn cũng có thể sử dụng DALL·E GPT.)
Sau đó, việc sử dụng DALL·E 3 cũng giống như sử dụng ChatGPT. Bạn có thể nhập lời nhắc văn bản bình thường hoặc tương tác với nó bằng ngôn ngữ tự nhiên. Nếu bạn sử dụng DALL·E trực tiếp thông qua ChatGPT 4 hoặc 4o, mỗi lời nhắc sẽ chỉ tạo ra một hình ảnh duy nhất. Nếu bạn sử dụng DALL·E 3 GPT, bạn sẽ nhận được hai hình ảnh khác nhau để lựa chọn.
Bạn có thể thử một số cách sau:
- "Một bức tranh lập thể về một con bò lớn trên một cánh đồng nhỏ"
- "Một bức tranh sơn dầu về một con khỉ trong bộ đồ du hành vũ trụ trên mặt trăng"
- "Một người đàn ông Canada cưỡi nai sừng tấm qua rừng cây thích theo phong cách tranh ấn tượng"
- "Một bức ảnh stock về một người đàn ông Ireland làm việc từ xa"
Nếu bạn đang sử dụng GPT chuyên dụng, bạn cũng sẽ thấy một số lời nhắc được đề xuất và tỷ lệ khung hình cho giao diện của nó.
Một điểm khác biệt của DALL·E 3 là tự động cải thiện và lặp lại lời nhắc của bạn. Nó cũng sử dụng một lời nhắc hơi khác nhau cho mỗi hình ảnh mà nó tạo ra.
Ví dụ: khi tôi nhập "một con bò tò mò, tỷ lệ khung hình rộng, chủ nghĩa biểu hiện," một trong những lời nhắc mà nó thực sự sử dụng là:
"Một con bò tò mò theo phong cách biểu hiện, sử dụng màu sắc rực rỡ, trừu tượng để nắm bắt cảm xúc và sự hấp dẫn của con vật. Con bò được mô tả với các đặc điểm phóng đại, như đôi mắt to, rộng và đầu hơi nghiêng, cho thấy sự tò mò. Nền là một vòng xoáy của những nét vẽ ấn tượng táo bạo, gợi lên một khung cảnh đồng quê, tăng thêm cảm giác kỳ quái và dữ dội của chủ nghĩa biểu hiện. Hình ảnh có tỷ lệ khung hình rộng."
Để xem DALL·E 3 đã sử dụng gì làm lời nhắc cho bất kỳ hình ảnh nào, hãy nhấp vào hình ảnh đó, sau đó nhấp vào nút i. Những gì nó cố gắng tạo ra sẽ xuất hiện trong hộp Prompt
Để tải xuống hình ảnh, hãy nhấp vào biểu tượng tải xuống ở trên cùng bên phải.
Cách chỉnh sửa hình ảnh bằng DALL·E 3 trong ChatGPT
Điều tuyệt vời nhất khi sử dụng DALL·E 3 là bạn có thể theo dõi các yêu cầu bằng ngôn ngữ tự nhiên thông qua ChatGPT. Nếu có điều gì bạn không thích hoặc bạn muốn nhấn mạnh với các kết quả khác nhau, bạn chỉ cần yêu cầu nó.
Một số điều tôi đã thử là:
- Yêu cầu thêm các biến thể của một hình ảnh cụ thể
- Thay đổi điểm nhìn của mỗi hình ảnh
- Thay đổi vị trí chủ thể xuất hiện trong mỗi hình ảnh
- Thay đổi tỷ lệ khung hình của mỗi hình ảnh
- Thay đổi số lượng đối tượng trong mỗi hình ảnh
- Thêm, xóa và sửa đổi chi tiết chủ thể, như màu sắc và kích thước
- Thêm và xóa chi tiết nền
- Treo các tác phẩm được tạo trên tường phòng trưng bày
Điều quan trọng cần lưu ý là nếu bạn hướng DALL·E 3 theo cách này, nó sẽ tạo ra một lời nhắc mới dựa trên yêu cầu của bạn và sau đó tạo ra một bộ hình ảnh mới, thay vì chỉnh sửa trực tiếp. Đôi khi những thay đổi giữa hai hình ảnh sẽ rất nhỏ và chính xác là những gì bạn muốn—khi điều đó xảy ra, nó giống như phép thuật. Nhưng những lúc khác, DALL·E 3 cũng sẽ loại bỏ những gì bạn thích về bất kỳ hình ảnh nào đã cho.
Nếu bạn muốn kiểm soát trực tiếp hơn, hãy nhấp vào hình ảnh và sau đó nhấp vào công cụ Chọn trong thanh menu trên cùng.
Sơn lên vùng hình ảnh bạn muốn chỉnh sửa. Bạn có thể thay đổi kích thước của cọ ở đầu màn hình để thao tác này dễ dàng hơn.
Sau đó, trong thanh bên, hãy nhắc DALL·E 3 bằng những gì bạn muốn thay đổi.
Và nó sẽ cố gắng hết sức để sửa đổi hình ảnh của bạn.
Mặc dù các điều khiển chỉnh sửa này vẫn không đi xa như trong DALL·E 2—và có thể gây khó chịu khi DALL·E 3 thay đổi hoàn toàn hình ảnh khi bạn chỉ muốn một vài điều chỉnh nhỏ—chúng rất dễ sử dụng và có thể khá hiệu quả. Bạn chỉ cần làm việc với DALL·E 3 để tinh chỉnh lời nhắc mang đến cho bạn chính xác những gì bạn muốn.
Cách đạt được kết quả tốt nhất với DALL·E 3
Mặc dù DALL·E 3 vẫn đang được tích cực phát triển, nhưng có thể đạt được một số kết quả tuyệt vời với nó như hiện tại. Đặc biệt, tôi thấy rằng DALL·E 3 rất xuất sắc trong việc tạo ra các bản vẽ, tranh vẽ và các loại tác phẩm nghệ thuật khác, thay vì hình ảnh chân thực như ảnh. Dưới đây là một số điều cần lưu ý để giúp bạn đạt được kết quả tốt nhất.
Cung cấp prompt càng chi tiết càng tốt
Mặc dù DALL·E 3 giúp bạn dễ dàng sử dụng các lời nhắc đơn giản hơn bằng cách tự ngoại suy rất nhiều thứ, nhưng nếu bạn muốn có một hình ảnh cụ thể, hãy thêm nhiều chi tiết vào lời nhắc của bạn. Ví dụ: ảnh chụp màn hình bên dưới bắt đầu bằng lời nhắc của tôi:
"Một bức tranh sơn dầu thực sự chi tiết về một chú chó chăn cừu Bỉ đội mũ cướp biển đang điều khiển con tàu của mình vượt qua trận chiến cướp biển ác liệt với một con tàu khác. Anh ta đội một chiếc mũ ba góc và cầm một khẩu súng lục khi anh ta sủa mệnh lệnh cho thủy thủ đoàn của mình. Biển động dữ dội. , trời mưa như trút nước, mọi thứ hơi hỗn loạn. Màu sắc u ám và ủ rũ. Chúng tôi tự hỏi liệu anh ta có sống sót không."
Khá tốt phải không?
DALL·E 3 hiểu các con số và vị trí
Mặc dù bạn vẫn có thể khiến DALL·E 3 bị quá tải với một số lượng lớn chi tiết vô lý trong lời nhắc của mình, nhưng việc đó khó hơn nhiều so với DALL·E 2. Và mặc dù vẫn chưa hoàn hảo, DALL·E 3 có khả năng hiểu rõ hơn đáng kể về những thứ như con số và vị trí của các phần tử khác nhau trong hình ảnh của bạn.
Ví dụ: bạn có thể yêu cầu nó tạo ra thứ gì đó ở tiền cảnh hoặc bên trái hình ảnh và rất có thể nó sẽ thực hiện. Tương tự, nếu bạn yêu cầu nó về một số lượng cụ thể của một cái gì đó, nó sẽ làm đúng thường xuyên hơn.
Yêu cầu các biến thể tinh tế
Nếu bạn yêu cầu DALL·E 3 tạo ra các biến thể dựa trên một trong những kết quả của nó, đôi khi nó có thể tạo ra những thay đổi khá lớn cho lời nhắc ban đầu. Nếu bạn muốn nó giữ mọi thứ tương tự hơn một chút, hãy yêu cầu nó thực hiện "các biến thể tinh tế". Mặc dù điều này không ngăn nó tạo ra những hình ảnh hoàn toàn mới, tôi thấy rằng nó sẽ thay đổi lời nhắc ban đầu ít hơn.
40 yêu cầu sau mỗi ba giờ là rất nhiều
Tôi đã thử nghiệm DALL·E 3 rất nhiều trong hai ngày để viết bài viết này và tôi chưa bao giờ đạt đến giới hạn. Hãy dành thời gian để cho nó biết phải làm gì và xử lý từng hình ảnh. Bạn khó có thể đạt đến giới hạn mà không thực sự cố gắng.
Hãy thỏa sức sáng tạo cùng Dall- e và ChatGPT
Nghiêm túc mà nói, cách duy nhất để thực sự nắm bắt được những gì DALL·E 3 có thể—và không thể—làm được là tự mình trải nghiệm nó. ChatGPT đã có thể thực hiện một số yêu cầu mà tôi thực sự nghĩ rằng nó sẽ gặp khó khăn, nhưng nó cũng đã phá hỏng hoàn toàn những gì tôi nghĩ là những thay đổi đơn giản.
Kết nối DALL·E với các Open AI
DALL·E 3 là một trong những trình tạo hình ảnh tốt nhất hiện có, nhưng việc sử dụng nó thông qua ChatGPT sẽ không phù hợp với mọi quy trình làm việc.
Nếu bạn kết nối DALL·E với Zapier, bạn có thể tự động hóa việc tạo hình ảnh AI của mình để tạo hình ảnh trực tiếp từ các ứng dụng khác mà bạn sử dụng nhiều nhất. Tìm hiểu thêm về cách tự động hóa việc tạo hình ảnh AI hoặc bắt đầu với một trong những quy trình làm việc này.