Cơn Sốt Vàng Dữ Liệu: Người Dân Toàn Cầu Bán Thông Tin Cá Nhân Để Huấn Luyện AI
Cơn Sốt Vàng Dữ Liệu: Dân Toàn Cầu Bán Thông Tin Cho AI

Cơn Sốt Vàng Dữ Liệu: Người Dân Toàn Cầu Bán Thông Tin Cá Nhân Để Huấn Luyện AI

Một buổi sáng năm ngoái, anh Jacobus Louw, 27 tuổi sống tại thủ đô Cape Town của Nam Phi, bắt đầu chuyến đi bộ thường lệ quanh khu phố để cho những con mòng biển ăn. Nhưng lần này, anh đã quay lại chân mình và khung cảnh khi đi bộ trên vỉa hè. Video đó mang về cho anh 14 USD (khoảng 369.000 VND), gấp gần 10 lần mức lương tối thiểu ở Nam Phi. Đối với anh Louw, số tiền này đủ để mua thực phẩm cho nửa tuần, một khoản thu nhập đáng kể trong bối cảnh kinh tế khó khăn.

Ứng Dụng Trả Tiền Cho Dữ Liệu Cá Nhân

Video của anh Louw là một phần của nhiệm vụ "Điều hướng đô thị" mà anh tìm thấy trên Kled AI - một ứng dụng trả tiền cho người dùng tải lên dữ liệu cá nhân để huấn luyện các mô hình trí tuệ nhân tạo. Chỉ trong vài tuần, anh đã kiếm được 50 USD (khoảng 1,3 triệu VND) bằng cách tải lên hình ảnh và video về cuộc sống hằng ngày. Cách đó hàng nghìn dặm, tại thành phố Ranchi của Ấn Độ, anh Sahil Tigga, sinh viên 22 tuổi, thường xuyên kiếm tiền bằng cách cho phép Silencio - một nền tảng thu thập dữ liệu âm thanh - truy cập vào micrô điện thoại để thu âm tiếng động xung quanh như trong nhà hàng hoặc tại ngã tư đông đúc.

Anh Tigga cũng tải lên các bản ghi âm giọng nói của mình và kiếm được hơn 100 USD (khoảng 2,6 triệu VND) mỗi tháng, đủ để trang trải toàn bộ chi phí ăn uống. Tại Chicago, Mỹ, anh Ramelio Hill, thợ hàn 18 tuổi, kiếm được vài trăm đô la bằng cách bán các cuộc trò chuyện điện thoại riêng tư với bạn bè và gia đình cho Neon Mobile - một nền tảng huấn luyện AI. Anh Hill tin rằng, vì các công ty công nghệ đã thu thập quá nhiều dữ liệu cá nhân, việc họ chia sẻ lợi nhuận là hợp lý.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Nhu Cầu Dữ Liệu Vượt Xa Khả Năng Thu Thập

Những người huấn luyện AI tự do này - những người tải lên mọi thứ từ cảnh xung quanh đến ảnh, video và giọng nói của chính họ - đang ở tiền tuyến của một "cơn sốt vàng" toàn cầu mới. Khi nhu cầu dữ liệu vượt xa những gì có thể thu thập từ Internet mở, một thị trường dữ liệu đã nổi lên để thu hẹp khoảng cách. Từ Cape Town đến Chicago, hàng nghìn người đang cho đi danh tính sinh trắc học và dữ liệu riêng tư để huấn luyện thế hệ AI tiếp theo.

Tuy nhiên, nền kinh tế mới này cũng có một mặt tối đáng lo ngại. Đổi lấy vài đô la, những người huấn luyện AI đang tiếp tay cho một ngành công nghiệp mà cuối cùng có thể khiến kỹ năng của họ trở nên lỗi thời, đồng thời khiến họ dễ bị tổn thương trước công nghệ deepfake và đánh cắp danh tính. Các mô hình AI như ChatGPT và Gemini đang phải đối mặt với tình trạng khan hiếm dữ liệu nghiêm trọng.

Rủi Ro Và Cảnh Báo Từ Chuyên Gia

Các nguồn huấn luyện được sử dụng nhiều nhất, chiếm một phần tư các tập dữ liệu chất lượng cao nhất trên web, hiện đang hạn chế các công ty AI sử dụng dữ liệu của họ. Các nhà nghiên cứu ước tính, các công ty AI sẽ cạn kiệt nguồn văn bản chất lượng cao để huấn luyện sớm nhất là năm 2026. Mặc dù một số phòng thí nghiệm đã chuyển sang sử dụng dữ liệu tổng hợp do AI tạo ra, nhưng quy trình luẩn quẩn này có thể dẫn đến việc các mô hình tạo ra dữ liệu lỗi, gây ra sự sụp đổ.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Ông Mark Graham, giáo sư về địa lý Internet tại Đại học Oxford, Anh, nhận định rằng đối với người dân ở các nước đang phát triển, số tiền bán dữ liệu có thể có ý nghĩa ngắn hạn, nhưng ông cảnh báo: "Công việc này rất bấp bênh, không có tiềm năng phát triển và thực chất là một ngõ cụt". Bà Jennifer King, nhà nghiên cứu về quyền riêng tư dữ liệu tại Viện Trí tuệ Nhân tạo của Đại học Stanford, Mỹ, lo ngại rằng các thị trường AI không rõ ràng về cách thức và nơi dữ liệu người dùng sẽ được sử dụng.

Bà nói thêm: "Nếu không đàm phán hoặc không biết quyền lợi của mình, dữ liệu của người dùng có nguy cơ bị tái sử dụng theo những cách mà họ không thích, không hiểu hoặc không lường trước được, và họ sẽ khó phản kháng nếu điều đó xảy ra". Ông Graham nhấn mạnh rằng các nền tảng AI dựa trên "nhu cầu tạm thời về dữ liệu con người", và một khi nhu cầu thay đổi, người lao động sẽ không còn được bảo vệ.

Mâu Thuẫn Và Lo Ngại Từ Người Trong Cuộc

Anh Hill, người cung cấp dữ liệu ở Chicago, cảm thấy mâu thuẫn về việc bán các cuộc gọi điện thoại riêng tư cho Neon Mobile. Với khoảng 11 giờ gọi điện, anh kiếm được 200 USD (khoảng 5,3 triệu VND), nhưng ứng dụng thường xuyên trả tiền muộn. Anh chia sẻ: "Neon luôn có vẻ mờ ám với tôi, nhưng tôi vẫn tiếp tục sử dụng nó để kiếm thêm tiền trả hóa đơn". Giờ đây, anh đang cân nhắc lại công việc này.

Vào tháng 9 năm ngoái, chỉ vài tuần sau khi ra mắt, Neon Mobile đã ngừng hoạt động sau khi TechCrunch phát hiện một lỗ hổng bảo mật cho phép bất kỳ ai cũng có thể truy cập vào số điện thoại và bản ghi âm cuộc gọi của người dùng. Anh Hill cho biết Neon Mobile chưa bao giờ thông báo cho anh về điều này, và giờ anh lo lắng giọng nói của mình có thể bị lạm dụng trên Internet.

Những người huấn luyện AI, đặc biệt ở các nước đang phát triển, thường có ít lựa chọn khác để kiếm sống. Anh Louw nhận thức rõ về những đánh đổi liên quan đến quyền riêng tư, và mặc dù thu nhập không ổn định, anh vẫn sẵn lòng chấp nhận điều kiện này để kiếm tiền. Tuy nhiên, các chuyên gia cảnh báo rằng người chiến thắng duy nhất trong cơn sốt vàng dữ liệu này có thể là các nền tảng nắm bắt được giá trị bền vững, trong khi người lao động phải đối mặt với rủi ro lâu dài.