Công cụ trí tuệ nhân tạo mới nhất của Google có tên “Whisk” cho phép người dùng tải ảnh lên để tạo ra một hình ảnh tổng hợp do AI tạo ra, ngay cả khi không nhập bất kỳ dòng chữ nào để diễn giải điều họ muốn.

Toàn cảnh trụ sở Google DeepMind sau khi có thông báo rằng Nhà sáng lập kiêm Giám đốc điều hành Demis Hassabis cùng nhà nghiên cứu cấp cao John M. Jumper đã giành giải Nobel Hóa học năm 2024 vào ngày 09/10/2024 tại London, Anh. Hai nhân sự của Google DeepMind đã cùng nhận giải Nobel Hóa học 2024 với David Baker từ Đại học Washington nhờ những khám phá liên quan đến cấu trúc của protein - Ảnh: Dan Kitwood/Getty Images
Người dùng có thể đưa vào các hình ảnh thể hiện chủ thể, bối cảnh và phong cách trước khi Whisk kết hợp tất cả thành một ảnh duy nhất.
Google cho biết rằng Whisk là một “công cụ sáng tạo” dành cho việc tìm cảm hứng nhanh, chứ không phải là một “trình chỉnh sửa ảnh truyền thống”. Về bản chất, Whisk được tạo ra như một tính năng AI mang tính giải trí, chứ không nhằm mục đích tạo ra sản phẩm chuyên nghiệp tinh chỉnh.
Các công ty công nghệ lớn như Google và OpenAI đang chạy đua tung ra các sản phẩm dành cho người dùng nhằm thể hiện tiềm năng của công nghệ AI thế hệ mới, mặc dù nhiều ý kiến trái chiều cho rằng việc phát triển AI thiếu quy định rõ ràng có thể gây nguy hiểm cho nhân loại.
Kể từ khi OpenAI ra mắt công cụ tạo ảnh từ văn bản Dall-E vào năm 2021, khái niệm nghệ thuật tạo bởi AI đã lan rộng trên mạng xã hội và trở thành trọng tâm của các sản phẩm dành cho người tiêu dùng. Whisk của Google là một công cụ tạo ảnh từ ảnh, kế thừa từ trào lưu tạo ảnh từ văn bản phổ biến.
Người dùng Whisk có thể pha trộn lại hình ảnh cuối cùng bằng cách chỉnh sửa các đầu vào và kết hợp các danh mục khác nhau để tạo ra các hình ảnh mới như thú nhồi bông, huy hiệu men hoặc nhãn dán. Người dùng cũng có thể thêm văn bản để chỉ định chi tiết cụ thể, nhưng không bắt buộc phải có văn bản để tạo ra hình ảnh.
“Whisk được thiết kế để người dùng có thể pha trộn lại chủ thể, khung cảnh và phong cách theo cách mới lạ và sáng tạo, mang đến trải nghiệm khám phá hình ảnh nhanh chóng thay vì các chỉnh sửa chính xác đến từng điểm ảnh”, Thomas Iljic - Giám đốc quản lý sản phẩm tại Google Labs cho biết.
Whisk được xây dựng dựa trên công nghệ AI tạo sinh của DeepMind, phòng thí nghiệm trí tuệ nhân tạo mà Google mua lại vào năm 2014.
Whisk hoạt động bằng cách sử dụng Gemini, nền tảng AI chủ lực của Google ra mắt vào tháng 12/2023, kết hợp với Imagen 3, công cụ tạo ảnh từ văn bản mới nhất của DeepMind cũng ra mắt cùng tháng.
Khi người dùng tải ảnh lên, Gemini sẽ tạo phụ đề mô tả ảnh, sau đó chuyển phần mô tả này cho Imagen 3 xử lý. Quá trình này sẽ nắm bắt “bản chất” của chủ thể thay vì sao chép y nguyên, điều này cho phép tạo ra phiên bản pha trộn lại của hình ảnh đầu vào, nhưng cũng đồng nghĩa ảnh cuối có thể khác biệt đáng kể so với hình ảnh gốc.
Google cho biết hình ảnh được tạo ra có thể có chiều cao, kiểu tóc hoặc màu da khác so với ảnh gốc.
Khi Google lần đầu ra mắt tính năng tạo ảnh từ văn bản của Gemini vào tháng 2, công ty đã vấp phải phản ứng dữ dội vì công cụ này tạo ra những hình ảnh sai lệch về mặt lịch sử.
Whisk hiện đang ở giai đoạn phát triển ban đầu và được cung cấp dưới dạng website trên Google Labs cho người dùng tại Mỹ, công ty cho biết.
OpenAI cũng vừa mới ra mắt Sora, công cụ tạo video từ văn bản, cho thấy sự cạnh tranh ngày càng nóng giữa các sản phẩm AI dành cho người tiêu dùng.
Ông Dan Ives - Giám đốc điều hành và nhà phân tích cấp cao tại Wedbush Securities phát biểu với CNN rằng Whisk là một “màn phô diễn sức mạnh” tiếp theo của Google trong cuộc đua AI và công nghệ.
Ông cho biết: “DeepMind là một tài sản chiến lược quan trọng đối với Google”, đồng thời cho biết các sản phẩm AI là một phần trong ‘kho báu’ công nghệ mới của Google cho năm 2025 bao gồm cả hệ điều hành Android mới được phát triển cùng Samsung và Qualcomm.
Việt An
(Lược dịch)