MIT phát triển khung kiểm thử AI giúp phát hiện quyết định thiếu công bằng
Trí tuệ nhân tạo ngày càng được ứng dụng rộng rãi để tối ưu hóa các quyết định trong những bối cảnh quan trọng và nhạy cảm. Chẳng hạn, một hệ thống tự hành có thể đề xuất phương án phân phối điện tối ưu chi phí đồng thời duy trì sự ổn định điện áp. Tuy nhiên, một phương án “tối ưu về kỹ thuật” liệu có thực sự công bằng và đạo đức? Điều gì sẽ xảy ra nếu chiến lược chi phí thấp lại khiến các khu vực thu nhập thấp dễ bị mất điện hơn so với các khu vực giàu có?
Phương pháp đánh giá tự động cân bằng giữa kỹ thuật và đạo đức
Để giúp các bên liên quan phát hiện sớm các rủi ro đạo đức trước khi triển khai hệ thống AI, nhóm nghiên cứu tại Viện Công nghệ Massachusetts (MIT) đã xây dựng một phương pháp đánh giá tự động tiên tiến. Phương pháp này cân bằng giữa các chỉ số định lượng như chi phí, độ tin cậy và các giá trị định tính như công bằng, minh bạch.
Hệ thống tách biệt đánh giá khách quan và giá trị con người do người dùng xác định, đồng thời sử dụng mô hình ngôn ngữ lớn (LLM) như một “đại diện” cho con người để ghi nhận và tích hợp các ưu tiên của các bên liên quan. Khung đánh giá thích ứng sẽ lựa chọn những kịch bản quan trọng nhất để phân tích sâu hơn, giúp đơn giản hóa một quy trình vốn tốn kém và mất nhiều thời gian nếu thực hiện thủ công.
Theo Chuchu Fan, thành viên nhóm nghiên cứu tại MIT, việc chỉ đặt ra các quy tắc hay “hàng rào an toàn” cho AI là chưa đủ, vì chúng chỉ ngăn được những rủi ro mà con người có thể hình dung trước. Do đó, cần một cách tiếp cận có hệ thống để phát hiện các “rủi ro chưa biết” trước khi chúng gây ra hậu quả nghiêm trọng.
SEED-SET: Khung thiết kế thử nghiệm đột phá
Trong các hệ thống lớn và phức tạp như lưới điện quốc gia, việc đánh giá mức độ phù hợp về đạo đức của các đề xuất từ AI là rất khó khăn, đặc biệt khi phải cân nhắc nhiều mục tiêu cùng lúc. Các phương pháp hiện nay thường dựa vào dữ liệu có sẵn, nhưng dữ liệu được gán nhãn theo tiêu chí đạo đức lại rất hiếm và khó thu thập.
Nhóm nghiên cứu đã phát triển một khung thiết kế thử nghiệm có tên SEED-SET, bao gồm hai phần chính:
- Mô hình khách quan: Đánh giá hiệu suất theo các chỉ số đo lường được như chi phí vận hành, độ ổn định kỹ thuật.
- Mô hình chủ quan: Phản ánh đánh giá của con người về các yếu tố như cảm nhận công bằng, tính minh bạch và đạo đức.
Cách tiếp cận này cho phép xác định những kịch bản vừa đáp ứng tiêu chí kỹ thuật, vừa phù hợp với giá trị con người hoặc ngược lại. Đặc biệt, SEED-SET không cần dữ liệu đánh giá có sẵn và có thể thích ứng linh hoạt với nhiều mục tiêu khác nhau trong các ngữ cảnh ứng dụng.
Mô hình hóa yếu tố chủ quan bằng LLM
Để đánh giá các yếu tố mang tính chủ quan và định tính, hệ thống sử dụng mô hình ngôn ngữ lớn như một đại diện cho người đánh giá. Các ưu tiên của từng nhóm người dùng được mã hóa thành các câu lệnh ngôn ngữ tự nhiên. LLM sẽ so sánh các kịch bản và lựa chọn phương án phù hợp hơn dựa trên tiêu chí đạo đức đã được thiết lập.
Cách làm này giúp tránh tình trạng con người bị mệt mỏi và thiếu nhất quán khi phải đánh giá hàng trăm hoặc hàng nghìn kịch bản phức tạp. Sau đó, SEED-SET sử dụng các kịch bản đã chọn để mô phỏng hệ thống và tiếp tục tìm kiếm các kịch bản mới có giá trị đánh giá cao hơn.
Kết quả cuối cùng là một tập hợp các kịch bản tiêu biểu, cho phép người dùng phân tích hiệu suất của hệ thống AI và điều chỉnh chiến lược khi cần thiết. Ví dụ, hệ thống có thể phát hiện những trường hợp phân phối điện ưu tiên khu vực thu nhập cao trong giờ cao điểm, khiến các khu vực khó khăn dễ bị mất điện hơn.
Hiệu quả vượt trội và hướng phát triển tương lai
Khi thử nghiệm trên các hệ thống thực tế như lưới điện thông minh hay hệ thống điều phối giao thông đô thị, SEED-SET tạo ra số lượng kịch bản tối ưu nhiều gấp đôi so với các phương pháp truyền thống. Đồng thời, khung đánh giá này phát hiện nhiều tình huống rủi ro mà các phương pháp khác thường bỏ sót hoặc không nhận diện được.
Đáng chú ý, khi thay đổi ưu tiên của người dùng, các kịch bản mà hệ thống tạo ra cũng thay đổi đáng kể, cho thấy khả năng thích ứng cao với giá trị con người và bối cảnh ứng dụng cụ thể.
Trong tương lai, nhóm nghiên cứu dự kiến tiến hành các nghiên cứu với người dùng thực để đánh giá mức độ hữu ích của hệ thống trong quá trình ra quyết định thực tế. Đồng thời, họ cũng hướng tới việc mở rộng phương pháp cho các bài toán phức tạp hơn, như đánh giá quyết định của chính các mô hình ngôn ngữ lớn trong các ứng dụng đa dạng.
Nghiên cứu đột phá này được tài trợ một phần bởi Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến Hoa Kỳ (DARPA), cho thấy tầm quan trọng chiến lược của việc đảm bảo đạo đức trong phát triển và triển khai trí tuệ nhân tạo.



