Hi-Tech

Các nhà khoa học cho biết mô hình A.I. gần như không thể “quên” những gì đã “học” từ dữ liệu cá nhân người dùng

Câu chuyện bắt đầu từ email mà James Zou nhận được. Yêu cầu của email khá hợp lý, song Zou dần nhận ra đó là nhiệm vụ bất khả thi.



Ảnh: pixabay.com

Nội dung của email như sau: “Kính gửi. Như ông đã biết, những ai tham gia UK Biobank có quyền rút tên mình khỏi dự án bất cứ lúc nào, đồng thời yêu cầu dự án không được sử dụng dữ liệu của họ nữa. Trong đợt kiểm tra gần nhất, nhiều thành viên dùng Ứng dụng X đã yêu cầu dữ liệu của họ phải được gỡ.”

Email này đến từ Biobank, cơ sở dữ liệu quy mô lớn về sức khoẻ và gen thu thập từ 500.000 công dân Anh Quốc. Hệ thống công khai này được nhiều doanh nghiệp cả công lẫn tư sử dụng.

Zou, Giáo sư Đại học Stanford, đồng thời là nhà khoa học dữ liệu y sinh có uy tín, trước đây cung cấp dữ liệu Biobank cho một thuật toán và dùng nó để huấn luyện mô hình trí tuệ nhân tạo (AI). Trong một buổi hội thảo năm 2019, Zou chia sẻ email trên và nhận xét gỡ bỏ dữ liệu là công việc “khá rối rắm”.

Đó là do loại bỏ dữ liệu người dùng từ mô hình AI đã qua huấn luyện mà không cài đặt mới hoàn toàn mô hình là gần như bất khả. Nếu làm vậy, công sức và tiền bạc đổ vào huấn luyện AI xem như đổ sông đổ bể. Nói cách khác, một khi AI đã “hiểu” được thứ gì, khiến nó “quên” đi thứ đó là vô cùng khó khăn. Mà xóa toàn bộ mô hình cũng là vấn đề nan giải.

Đây chính là một trong những thách thức chông gai nhất của kỷ nguyên AI mà giới chuyên gia vẫn đau đầu tìm lời giải, sánh ngang với vấn đề phân biệt “thật”/“ảo” hay giải thích tại sao một số sản phẩm AI lại được tạo ra. Theo nhiều chuyên gia, vấn đề đào thải tri thức của AI sẽ càng trầm trọng khi chế tài về quyền riêng tư và phát tán thông tin sai lệch vẫn chưa hoàn thiện. Nếu các mô hình AI ngày càng mở rộng, “học” ngày một nhiều dữ liệu nhưng lại không có cách xoá dữ liệu khỏi mô hình, hay thậm chí là không thể xóa cả mô hình, bên chịu thiệt không chỉ là những ai đã cung cấp dữ liệu, mà sẽ là tất cả mọi người.

Vì sao mô hình AI lại “khó giết” đến thế?

Từ lúc Zou nhận được email đáng quan ngại trên đến nay, số lượng mô hình AI được tạo ra ngày càng bùng nổ do nhiều người dần chú ý đến các công cụ như ChatGPT. Những mô hình này lớn dần, ngốn nhiều dữ liệu hơn trong quá trình huấn luyện. Phần nhiều trong số chúng được vận dụng vào các lĩnh vực ngoài đời sống như tài chính hay chăm sóc y tế, những ngành cần cẩn trọng về quyền riêng tư trong sử dụng dữ liệu.

Song, càng dày công tìm kiếm cách gỡ bỏ dữ liệu, Zou càng nhận thấy rõ công cuộc này như mò kim đáy bể. Mô hình AI thực chất không đơn giản là các dòng code mà là hàng nghìn mối liên hệ giữa nhiều điểm trong một bộ dữ liệu, bao gộp trong đó cả những quan hệ vô cùng phức tạp mà con người không tài nào nắm bắt được.

Anasse Bari, chuyên gia AI và là giáo sư khoa học máy tính tại Đại học New York, cho biết: “Một khi hệ thống học máy đã được huấn luyện bằng bộ dữ liệu cụ thể nào đó, cách duy nhất để gỡ một phần bộ dữ liệu đó ra là luyện nó lại từ đầu.”

Thách thức không chỉ nằm ở dữ liệu cá nhân người dùng. Đặt trường hợp mô hình AI học được bộ dữ liệu xấu như tập hợp các bài đăng phân biệt chủng tộc trên mạng xã hội, gỡ bỏ các điểm dữ liệu này sẽ là chuyện vô cùng nhọc nhằn.

Cả công tác huấn luyện lẫn huấn luyện lại các mô hình AI đều rất tốn kém, đặc biệt là đối với các “mô hình nền tảng” đóng vai trò xương sống cho nhiều công cụ AI tạo sinh hiện nay. Sam Altman, CEO của OpenAI, từng tiết lộ GPT-4, mô hình ngôn ngữ nền tảng cho phiên bản ChatGPT cao cấp, tốn đến 100 triệu USD để huấn luyện.

Nhiều doanh nghiệp phát triển mô hình AI rất ái ngại chế tài của Ủy ban Thương mại Liên bang Hoa Kỳ (FTC) nhằm trừng phạt những công ty được cho là đã vi phạm luật thương mại Mỹ. Chế tài này có tên “gỡ bỏ thuật toán”, bắt buộc các công ty phải xóa tận gốc mô hình AI vi phạm. FTC chỉ mới áp dụng nó vài lần, chủ yếu đánh vào các công ty dùng dữ liệu sai mục đích. Một trong những vụ nổi nhất là Everalbum - công ty sử dụng dữ liệu sinh trắc của người dùng để huấn luyện cho hệ thống AI nhận diện khuôn mặt mà không được người dùng cho phép.

Bari nhận xét vấn đề của chế tài gỡ bỏ thuật toán nằm ở chỗ ngầm định rằng bên chế tạo AI có thể phát hiện được phần nào trong bộ dữ liệu bị thu thập trái phép; thực tế không phải lúc nào cũng vậy. Dữ liệu dễ dàng di chuyển giữa các điểm dừng khác nhau trên không gian Internet, và thường được “bắt đi” khỏi nguồn lưu trữ gốc mà chưa hề có sự đồng thuận, khiến cho việc xác định chủ sở hữu dữ liệu càng thêm nan giải.

Bên cạnh đó, chế tài trên cũng ngầm định bên chế tạo có thể xóa sạch mô hình AI, một điều nói dễ hơn là làm bởi những mô hình này “khó giết” chẳng khác gì thây ma, xác sống trong các tác phẩm kinh dị. Lance Elliot, chuyên gia AI, giải thích: “Nhiều người lầm tưởng rằng xóa một mô hình AI dễ như bấm nút “delete”; nhưng thực tế không phải vậy.” Mô hình dễ dàng phát triển lại thành trạng thái trước khi xóa bởi rất có thể một bản sao số của nó đã được lưu ở đâu đó trên không gian mạng, và thế là nó “hồi sinh”, theo Elliot.

Với tình hình hiện tại, theo Zou, hoặc công nghệ cần phát triển nhanh hơn nữa để các công ty có thể tuân thủ quy định, hoặc giới làm luật cần tìm cách điều chỉnh quy định thì phía doanh nghiệp mới có khả năng giải quyết các vi phạm.

Mô hình càng nhỏ càng có lợi cho quyền riêng tư

Qua nghiên cứu, Zou cùng cộng sự có tìm ra giải pháp xóa dữ liệu từ các mô hình máy học đơn giản mà không ảnh hưởng đến toàn bộ hệ thống, nhờ vào kỹ thuật có tên “nhóm cụm” (clustering).

Song, kỹ thuật này không thể áp dụng cho các mô hình phức tạp - nền tảng cho đa số hệ thống AI tạo sinh hiện nay. Đối với những mô hình này, cần sử dụng cơ chế huấn luyện khác ngay từ đầu mới có cơ may xóa một số đường liên kết mà không làm ảnh hưởng đến hoạt động của hệ thống hay buộc hệ thống phải huấn luyện lại từ đầu. Đó là ý kiến của Zou và cộng sự trong bài báo khoa học năm 2019.

Còn với những doanh nghiệp lo lắng về quy định phải xóa dữ liệu người dùng khi có yêu cầu - vốn là một trong những điều khoản an toàn dữ liệu cá nhân tại các nước Châu Âu - đã có Xayn. Đây là công ty Đức chuyên về trình duyệt tìm kiếm, khuyến cáo tích hợp AI đảm bảo tính riêng tư, cá nhân hóa. Trình duyệt này được xây dựng trên một mô hình cơ sở, rồi ứng với mỗi người dùng sẽ có mô hình nhỏ hơn được phái sinh và huấn luyện bằng dữ liệu của người dùng đó. Nếu người này muốn xóa hết dữ liệu của mình, thì chỉ cần xóa mô hình nhỏ hơn mà thôi.

Leif-Nissen Lundbæk, CEO kiêm đồng sáng lập Xayn, tự tin: “Chúng tôi chưa bao giờ gặp phải vấn đề dữ liệu cá nhân “lọt qua” mô hình nền tảng cả.”

Lundbæk cho rằng mô hình tinh gọn, cá nhân hóa của Xayn sẽ dễ tuân thủ quy định bảo mật dữ liệu riêng tư hơn là các mô hình ngôn ngữ vĩ mô đang được phát triển bởi OpenAI, Google, Anthropic, Inflection,… Theo ông, những mô hình này ngốn một lượng lớn dữ liệu từ Internet, trong đó có cả thông tin cá nhân, khiến bên cung cấp lúng túng không biết trong bộ dữ liệu huấn luyện thực tế có những gì. Chưa kể là công tác huấn luyện, bảo trì những mô hình khổng lồ này là vô cùng tốn kém.

Một “tay chơi” khác cũng đang nhắm đến các giải pháp dung hòa quyền riêng tư và AI là SpotLab - chuyên về xây dựng các mô hình hỗ trợ nghiên cứu lâm sàng. Miguel Luengo-Oroz, CEO kiêm nhà sáng lập SpotLab, từng là nhà nghiên cứu và giám đốc khoa học dữ liệu cho Liên Hợp Quốc. Với 20 năm kinh nghiệm nghiên cứu AI, lúc nào ông cũng trăn trở với khoảng trống chưa thể khỏa lấp: khả năng đào thải tri thức của các hệ thống AI.

Ông cho rằng một trong những lý do khiến mọi chuyện như dậm chân tại chỗ là các quy định dữ liệu cá nhân gần đây mới được ban hành, mới thúc đẩy giới doanh nghiệp và nghiên cứu bắt tay vào tìm hiểu về vấn đề này một cách nghiêm túc. Mà đó là chỉ nói đến luật pháp các quốc gia Châu Âu; Mỹ vẫn thiếu vắng các quy định bắt buộc công ty xóa dữ liệu người dùng.

Ngày càng có nhiều dấu hiệu cho thấy các ông trùm công nghệ bắt đầu quan tâm hơn về chuyện đào thải tri thức. Vào tháng 6/2023, Google đăng cai cuộc thi dành cho các nhà nghiên cứu trình bày giải pháp giúp AI “quên” những gì đã “học”.

Phải còn rất lâu ta mới có thể thu được những kết quả khả quan. Còn lúc này, dữ liệu người dùng vẫn trôi dạt vô định giữa hàng trăm mô hình AI khác nhau, dễ dàng bị lợi dụng cho những mục tiêu không chính đáng, phạm pháp, hay thậm chí nguy hiểm tính mạng.

Lundbæk nêu quan ngại tương tự: “Tình trạng này khá nguy hiểm. Nếu có ai đó tiếp cận được những dữ liệu cá nhân này, như các cơ quan tình báo tại quốc gia khác chẳng hạn, dữ liệu bị sử dụng cho mục đích xấu là điều không thể tránh khỏi.”

Huỳnh Trọng Nhân
(Lược dịch)

SIU Review - số 140

Thông tin tuyển dụng

Thông tin cần biết

icon Giá vàng
icon Tỷ giá ngoại tệ
icon Chứng khoán