Nghiên cứu gây sốc: AI làm việc nhóm thất bại 68%, 'drama' công sở xuất hiện cả ở máy móc
Trong bối cảnh nhiều doanh nghiệp đang mơ về tương lai hàng chục AI Agent tự phối hợp giải quyết dự án phức tạp mà không cần con người, một nghiên cứu mới đã dội gáo nước lạnh vào ảo tưởng này. Kết quả cho thấy AI khi làm việc nhóm cũng gặp phải những "căn bệnh" công sở hệt như con người, thậm chí tệ hơn, với tỷ lệ thất bại lên tới 68%.
AI đơn lẻ thành công 100%, nhưng làm việc nhóm thảm họa
Khái niệm "AI Agent" (tác nhân AI) đang được tung hô như cuộc cách mạng năng suất, với viễn cảnh "đội quân" AI tự phân vai, thảo luận và chốt dự án nhanh chóng, tiết kiệm triệu USD chi phí nhân sự. Tuy nhiên, nghiên cứu từ Jeremy McEntire, chuyên gia hệ thống tổ chức kiêm Trưởng bộ phận kỹ thuật tại Wander, chỉ ra sự thật trớ trêu: AI chỉ xuất sắc khi làm việc độc lập.
Khi bị ép vào "tổ chức" để thực hiện nhiệm vụ đa tầng, tỷ lệ thất bại của chúng tăng vọt theo cấp số nhân. McEntire viết: "Các hệ thống AI thất bại vì cùng lý do cấu trúc như tổ chức con người, dù đã loại bỏ yếu tố nguyên nhân đặc thù của con người."
Căn bệnh 'vô tổ chức' của những bộ óc silicon
Lý do khiến hệ thống đa tác nhân sụp đổ không nằm ở năng lực tính toán, mà ở sự phối hợp. Theo McEntire, AI Agent mắc chính xác sai lầm con người thường gặp trong tổ chức quan liêu: lờ chỉ dẫn đồng nghiệp, làm lại việc người khác đã xong, không biết ủy quyền và tê liệt vì lập hoạch chồng chéo.
Đáng kinh ngạc, AI không có cái tôi, không mệt mỏi, không bị chi phối bởi chính trị công sở hay ham muốn thăng tiến, nhưng sự kém hiệu quả vẫn nảy sinh tự nhiên. Trong thử nghiệm, McEntire nhận thấy với một Agent đơn lẻ, tỷ lệ thành công là 100% (28/28 lần). Nhưng khi thiết lập cấu trúc phân cấp nơi AI giao việc cho AI khác, tỷ lệ thất bại lên 36%.
McEntire nhận định: "Không có động cơ nghề nghiệp. Không có cái tôi. Không có chính trị. Không có mệt mỏi. Không có chuẩn mực văn hóa. Không có cạnh tranh địa vị. Các tác nhân chỉ là mô hình ngôn ngữ thực thi prompts. Sự rối loạn chức năng vẫn xuất hiện."
Tệ hơn, mô hình tập hợp Agent AI phối hợp lẫn nhau thất bại tới 68% thời gian. Đặc biệt, mô hình quy trình 11 giai đoạn phức tạp đã tiêu sạch ngân sách dự án chỉ để lập kế hoạch mà không viết nổi dòng code thực thi nào.
McEntire chia sẻ: "Mỗi thí nghiệm tôi thực hiện đều thất bại phản trực giác theo đúng cách nó vốn được thiết kế để không xảy ra… Quy trình đi vào vòng quẩn, hệ thống phân cấp không chịu giao việc. Hệ thống duy nhất hoạt động tin cậy và nhất quán là Agent AI đơn lẻ."
Vấn đề tổ chức lâu đời không biến mất với AI
McEntire cho biết vấn đề tổ chức tồn tại lâu đời không hề biến mất khi con người chuyển giao công việc cho tác nhân AI. Ông viết: "Tương tự mô hình thất bại đặc trưng của tổ chức con người bao gồm hỗn loạn đánh giá, kiểm soát dựa trên sở thích, xung đột quản trị, cạn kiệt ngân sách do thất bại điều phối… đều xuất hiện trong hệ thống AI đa tác nhân với đặc điểm toán học giống hệt. Nền tảng dù thay đổi nhưng quy luật vật lý của điều phối quy mô lớn vẫn không đổi."
Đồng quan điểm, Diptamay Sanyal, kỹ sư trưởng tại CrowdStrike, xác nhận tỷ lệ lỗi leo thang chóng mặt khi độ phức tạp tăng. Ông cho rằng việc chuyển giao bối cảnh và lan truyền sai số giữa các Agent chính là "hố đen" nuốt chửng hiệu quả.
Nik Kale, kiến trúc sư nền tảng tại Cisco, bổ sung: "Mỗi lần bàn giao công việc giữa hệ thống là một lần ý nghĩa bị tam sao thất bản. Con người giải quyết bằng cách đi tới bàn đồng nghiệp hỏi trực tiếp. AI thì không có cuộc trò chuyện hành lang như vậy."
Theo Kale, lời quảng bá về "hàng chục Agent làm việc tự chủ" hiện phần lớn là ảo tưởng vi phạm lý thuyết thông tin. Thực tế, giá trị lớn nhất của AI hiện nay vẫn nằm ở tự động hóa tác vụ lặp đi lặp lại, xác định rõ ràng chứ không phải "trí tuệ tập thể" tự phát.
Sanyal nhận định: "Giá trị thực sự của tác nhân AI ngày nay là tự động hóa nhiệm vụ lặp đi lặp lại, được xác định rõ ở quy mô lớn, hỗ trợ nhà phân tích con người với xử lý dữ liệu nhanh và kết quả nhất quán, chứ không phải trí tuệ tập thể độc lập."
Tương tự, CEO Shanea Leven của Empromptu.ai cho rằng giá trị tác nhân AI có thật, nhưng không nằm ở hành vi bầy đàn tự chủ mà ở chuyên môn hóa có kiểm soát.
Lối thoát: Lớp điều phối và chuyên môn hóa tuần tự
Vậy làm thế nào để tận dụng sức mạnh nhiều AI cùng lúc mà không gây hỗn loạn? Câu trả lời nằm ở "lớp điều phối" (orchestration layer). Thay vì để AI tự do "thảo luận", doanh nghiệp thành công đang áp dụng mô hình chuyên môn hóa tuần tự với can thiệp con người.
Shivanath Devinarayanan, Giám đốc Công nghệ lao động số tại Asymbl, cho biết công ty ông triển khai hơn 150 Agent, nhưng tất cả nằm dưới kiểm soát cực kỳ chặt chẽ. Trước khi hai AI tương tác, con người đã lập bản đồ bàn giao: dữ liệu nào được chuyển, định dạng gì, và điều kiện nào kích hoạt xem xét con người.
Devinarayanan nói: "Chúng tôi có tác nhân AI dành riêng cho nhiệm vụ rời rạc và tác nhân có bộ nhớ chung, danh sách nhiệm vụ chung để theo dõi những gì tác nhân khác đang làm. Chìa khóa trong cả hai trường hợp là sự rõ ràng về vai trò trước khi triển khai. Nhân viên kỹ thuật số này chịu trách nhiệm việc gì, công việc đến từ đâu, đi đâu và khi nào con người cần đưa quyết định?"
Ông bổ sung: "Mô hình tư duy đúng đắn là lực lượng lao động hỗn hợp gồm nhân viên kỹ thuật số với vai trò rõ ràng, nhân viên con người với giám sát và phán đoán, và lớp điều phối kết nối cả hai."
Theo Devinarayanan, nghiên cứu của McEntire xác nhận thất bại hệ thống đa tác nhân là vấn đề tổ chức và điều phối chứ không phải công nghệ. Ông nói: "Các tác nhân được mô hình hóa dựa trên suy luận con người. Bởi vậy chúng kế thừa lỗi tổ chức của con người khi thiết kế cơ cấu sai."
Lời khuyên cho doanh nghiệp: Bắt đầu với Agent đơn lẻ
Cơn sốt AI Agents một lần nữa nhắc nhở giới kinh doanh rằng công nghệ dù tiên tiến đến đâu cũng không thể khỏa lấp cấu trúc tổ chức yếu kém. Nếu quy trình làm việc chưa chuẩn hóa, việc đưa thêm AI vào chỉ khiến hỗn loạn diễn ra nhanh hơn với chi phí đắt hơn.
Lời khuyên từ chuyên gia dành cho CEO và CTO là: Hãy bắt đầu với Agent đơn lẻ cho tác vụ chuyên biệt. Đừng cố xây dựng "biệt đội Avengers" của AI khi chưa có kịch bản điều phối đủ chặt chẽ. Giá trị thực sự của AI nằm ở kiểm soát chuyên biệt, không phải hành vi bầy đàn tự phát.



