TIME: When it Comes to AI, What We Don’t Know Can Hurt Us
(Chuyển ngữ tiếng Việt: Gemini; Hiệu đính (và chịu trách nhiệm): T.Vấn)
Khi Nói Đến AI, Những Điều Chúng Ta Không Biết Có Thể Gây Hại Cho Chúng Ta
Tác giả: Yoshua Bengio và Charlotte Stix
Trong vài năm qua, trí tuệ nhân tạo (AI) đã là chủ đề được nhắc đến nhiều nhất. Mỗi mô hình AI mới đều tiết lộ những đổi mới đáng kinh ngạc, có khả năng vượt qua phiên bản được phát hành chỉ vài tuần trước đó. Các chuyên gia, nhà phát triển và CEO của các công ty AI đưa ra những tuyên bố táo bạo về quỹ đạo tương lai, từ việc loại bỏ lao động nặng nhọc, tăng tuổi thọ con người cho đến những mối đe dọa tiềm tàng mang tính tồn vong đối với nhân loại.
Nếu mọi người đều đang nói về AI, điều đó một phần là do việc công khai những đổi mới này đã tạo ra doanh thu tăng theo cấp số nhân cho các công ty phát triển các mô hình đó. Nhưng khi AI trở nên nhanh hơn, có khả năng hơn, phức tạp hơn, cuộc trò chuyện công khai đó có thể nhanh chóng được chuyển ra sau cánh cửa đóng kín.
Các công ty AI đang ngày càng triển khai các mô hình AI trong chính tổ chức của họ, và có khả năng họ sẽ sớm nhận thấy việc dành những mô hình tương lai mạnh mẽ nhất cho mục đích sử dụng nội bộ là cần thiết về mặt chiến lược. Tuy nhiên, những quyết định tưởng chừng như vô hại này có thể gây ra một mối đe dọa nghiêm trọng cho xã hội nói chung, như lập luận dưới đây.
Mối Đe Dọa Từ Sự Bí Mật Và “Vòng Lặp Phản Hồi”
Hầu hết các công ty AI hàng đầu đã công khai ý định phát triển các mô hình AI có khả năng tương đương con người trong tất cả các nhiệm vụ nhận thức, điều này có thể tạo ra giá trị kinh tế lên tới hàng nghìn tỷ đô la. Với niềm tin phổ biến hiện nay về một cuộc đua “kẻ thắng lấy tất cả” (winner-take-all race) hướng tới Trí tuệ Nhân tạo Tổng quát (AGI), lợi thế chiến lược tiềm năng của các mô hình cực kỳ tiên tiến có thể sớm khiến các công ty tận dụng các mô hình của họ một cách bí mật và nội bộ để gia tăng tiến bộ kỹ thuật — nhưng lại không cung cấp tín hiệu tiến bộ nào cho các đối thủ cạnh tranh và thế giới bên ngoài rộng lớn hơn.
Các hệ thống AI hiện tại vốn đã thường xuyên hành xử theo những cách bất ngờ, ngoài ý muốn và không mong muốn trong các bối cảnh mô phỏng thử nghiệm, ví dụ: đe dọa tống tiền người dùng, giả vờ căn chỉnh (faking alignment) hoặc thể hiện hành vi tự bảo vệ. Tuy nhiên, nếu các nhà phát triển hàng đầu bắt đầu giữ kín thông tin hơn, xã hội sẽ không còn cơ hội, dù chỉ là một cửa sổ hẹp, để tìm hiểu công khai và đánh giá những mặt lợi và mặt hại, hồ sơ rủi ro và an ninh, cũng như quỹ đạo của công nghệ nền tảng này. Một khi các hệ thống AI tiên tiến trong tương lai được triển khai và sử dụng, và có thể độc quyền sử dụng, sau cánh cửa đóng kín, những mối nguy hiểm không nhìn thấy trước đối với xã hội có thể xuất hiện và phát triển mà không có sự giám sát hoặc cảnh báo nào — đó là mối đe dọa mà chúng ta có thể và phải tránh.
Các phòng thí nghiệm hàng đầu đã và đang tận dụng ngày càng nhiều hệ thống AI để tăng tốc quy trình Nghiên cứu & Phát triển (R&D) của chính họ, bằng cách thiết kế thuật toán mới, đề xuất kiến trúc hoàn toàn mới hoặc tối ưu hóa mã. Ví dụ, Google ước tính vào năm 2024 rằng 50% mã của họ hiện được viết bởi AI. Như đã nhấn mạnh trong nghiên cứu gần đây, các hệ thống AI tiên tiến cuối cùng có thể được sử dụng để lặp đi lặp lại cải thiện những mô hình kế nhiệm của chính chúng, có khả năng tạo ra một “vòng lặp phản hồi” mạnh mẽ của các mô hình ngày càng có năng lực. Kết quả này sẽ là tin tuyệt vời cho các công ty AI nhằm mục đích nhanh chóng đạt được Trí tuệ Nhân tạo Tổng quát, hoặc thậm chí là Siêu trí tuệ (superintelligence), vượt lên các đối thủ — nhưng chỉ khi họ tận dụng lợi thế chiến lược của mình tránh xa những ánh mắt tò mò.
Vấn Đề Hai Mặt
Thoạt nhìn, tất cả điều này có vẻ vô hại: một hệ thống AI chưa được phát hành có thể gây ra mối đe dọa gì?
Vấn đề có hai mặt:
Thứ nhất, khi các hệ thống AI tiên tiến ngày càng hữu ích nội bộ để xây dựng AI tốt hơn, có thể sẽ có động lực cạnh tranh và kinh tế mạnh mẽ, thậm chí còn hơn ngày nay, để ưu tiên tốc độ và lợi thế cạnh tranh hơn là sự thận trọng. Động lực đua tranh này mang lại rủi ro, đặc biệt nếu các hệ thống AI ngày càng tiên tiến bắt đầu được nhân viên công ty sử dụng và được triển khai vào các lĩnh vực quan trọng về an ninh như R&D AI, có khả năng hoạt động tự chủ để giảm ma sát, tạo ra các điểm lỗi tiềm tàng trước khi bất kỳ ai có thể hiểu đầy đủ hành vi của hệ thống AI.
Thứ hai, các đánh giá và can thiệp hiện tại chủ yếu tập trung vào các hệ thống AI được công khai. Đối với các hệ thống AI được triển khai nội bộ, rất ít, nếu có, thông tin được công bố về việc ai có quyền truy cập đặc quyền vào chúng hoặc chúng được sử dụng để làm gì. Chính xác hơn, có rất ít thông tin được cung cấp về khả năng của chúng, liệu chúng có hành xử theo những cách không mong muốn hay không; liệu chúng có được kiểm soát thích hợp bằng các cơ chế giám sát và biện pháp bảo vệ hay không; liệu chúng có thể bị những người có quyền truy cập lạm dụng hay không hoặc hồ sơ rủi ro tổng thể của chúng. Cũng không có đủ các yêu cầu chi tiết và tỉnh táo để đảm bảo rằng các hệ thống AI này được thử nghiệm nghiêm ngặt và không gây ra mối đe dọa dây chuyền cho xã hội trước khi chúng được đưa vào sử dụng.
Nếu chúng ta không yêu cầu các công ty công nghệ cung cấp thông tin đủ chi tiết về cách họ thử nghiệm, kiểm soát và sử dụng nội bộ các mô hình AI mới, các chính phủ không thể chuẩn bị cho các hệ thống AI mà cuối cùng có thể có khả năng ngang tầm quốc gia (nation-state capabilities). Trong khi đó, các mối đe dọa phát triển sau cánh cửa đóng kín có thể tràn vào xã hội mà không có cảnh báo trước hoặc khả năng can thiệp. Chắc chắn, ngay cả ngày nay, chúng ta không thể tin tưởng các hệ thống AI hiện tại sẽ hành xử đáng tin cậy như dự định cho dù chúng được triển khai bên ngoài hay nội bộ. Tuy nhiên, chúng ta vẫn còn thời gian để hành động.
Những Biện Pháp Cần Thiết Ngay Lập Tức
Có những biện pháp đơn giản có thể được thực hiện ngay hôm nay.
- Mở rộng chính sách an toàn: Phạm vi các chính sách an toàn AI tiên phong tự nguyện của các công ty AI nên được mở rộng rõ ràng để bao gồm việc triển khai và sử dụng nội bộ có tính rủi ro cao, chẳng hạn như để tăng tốc R&D AI.
- Coi trọng việc triển khai nội bộ: Việc triển khai nội bộ nên được đối xử với sự cẩn trọng tương đương việc triển khai bên ngoài, và cần khuyến khích các đánh giá và kiểm tra nghiêm ngặt để xác định các khả năng nguy hiểm, thiết lập hồ sơ rủi ro rõ ràng và yêu cầu các cơ chế kiểm soát hoặc bảo vệ trước khi sử dụng.
- Tăng cường khả năng hiển thị cho chính phủ: Các cơ quan chính phủ chịu trách nhiệm về sự chuẩn bị quốc gia nên có tầm nhìn chủ động về việc triển khai và sử dụng nội bộ các hệ thống AI tiên tiến cao và nhận được tất cả thông tin quan trọng về an ninh quốc gia cần thiết. Điều này có thể bao gồm, ví dụ, thông tin về ai có quyền truy cập vào các hệ thống AI này và trong điều kiện nào, các hệ thống này được sử dụng để làm gì, sự giám sát nào đang được áp dụng cho chúng và điều gì có thể xảy ra nếu sự giám sát này thất bại, nhằm đảm bảo rằng lợi ích kinh tế và sở hữu trí tuệ được cân bằng với lợi ích an ninh quốc gia hợp pháp.
Các công ty AI và chính phủ nên cùng nhau đi đầu trong việc áp dụng những thực tiễn tốt nhất đơn giản này để đảm bảo sự đổi mới đáng tin cậy và bảo vệ công chúng.
Yoshua Bengio và Charlotte Stix
CHÚ THÍCH:
“Vòng Lặp Phản Hồi” (Feedback Loop) Trong Phát Triển AI
Trong bối cảnh AI, “vòng lặp phản hồi” mô tả một chu trình tự củng cố (self-reinforcing cycle) nơi một mô hình AI hiện tại được sử dụng như một công cụ để cải thiện và tạo ra phiên bản kế nhiệm của chính nó, dẫn đến sự gia tăng khả năng một cách nhanh chóng.
1. Cơ Chế Vận Hành (Mechanism)
“Vòng lặp phản hồi” này hoạt động theo chu trình ba bước lặp lại liên tục:
| Bước | Hành động | Vai trò của AI | Kết quả |
| 1. Sản xuất/Hỗ trợ (Production) | Mô hình AI hiện tại được dùng để tạo ra các yếu tố cần thiết cho việc phát triển mô hình tiếp theo. | Thiết kế thuật toán mới, đề xuất kiến trúc mạng lưới thần kinh hiệu quả hơn, hoặc tối ưu hóa mã lập trình (code). | Quá trình R&D trở nên nhanh hơn, hiệu quả hơn so với chỉ dựa vào con người. |
| 2. Đào tạo (Training) | Kết quả từ Bước 1 được dùng làm dữ liệu đầu vào hoặc nền tảng để đào tạo mô hình thế hệ tiếp theo (AI $2.0$). | AI giúp chuẩn bị dữ liệu, tinh chỉnh tham số, hoặc tự động hóa việc thử nghiệm. | Mô hình kế nhiệm (AI $2.0$) được hoàn thiện nhanh chóng và có khả năng cao hơn. |
| 3. Cải tiến (Improvement) | Mô hình mới (AI $2.0$) được đưa vào hoạt động để thực hiện lại Bước 1, nhưng với khả năng cao hơn phiên bản cũ (AI $1.0$). | AI $2.0$ có thể viết code tốt hơn, thiết kế thuật toán đột phá hơn. | Chu trình được lặp lại, nhưng mỗi lần lặp lại sẽ nhanh hơn và tạo ra bước nhảy vọt lớn hơn. |
2. Tác Động Chiến Lược
Khái niệm này đặc biệt quan trọng vì nó liên quan trực tiếp đến việc đạt được Trí tuệ Nhân tạo Tổng quát (AGI) và Siêu trí tuệ (Superintelligence):
- Tốc độ tăng trưởng theo cấp số nhân: Thay vì tăng trưởng tuyến tính (phụ thuộc vào tốc độ nghiên cứu của con người), vòng lặp phản hồi có thể dẫn đến sự tăng trưởng theo cấp số nhân (exponential growth). Mỗi thế hệ AI sẽ vượt trội hơn thế hệ trước với khoảng cách lớn hơn, giảm đáng kể thời gian cần thiết để đạt đến AGI.
- Điểm bùng nổ (Singularity): Vòng lặp phản hồi được xem là con đường dẫn đến “Điểm kỳ dị công nghệ” (Technological Singularity), là thời điểm khi AI tự cải tiến nhanh đến mức trí tuệ của nó vượt xa trí tuệ con người, khiến những dự đoán về tương lai trở nên bất khả thi.
- Lợi thế cạnh tranh nội bộ: Như bài báo đã đề cập, nếu các công ty giữ kín những mô hình tiên tiến này để chúng chỉ cải thiện nội bộ (behind closed doors), họ sẽ tạo ra một lợi thế kỹ thuật không thể san lấp so với các đối thủ và cả các cơ quan quản lý.
3. Rủi Ro Xã Hội (Theo Bài Báo)
Mặc dù việc AI tự cải tiến là điều tuyệt vời về mặt kỹ thuật, nó tạo ra rủi ro nghiêm trọng như bài báo đã chỉ ra:
- Thiếu Giám sát: Nếu vòng lặp này diễn ra nội bộ, xã hội sẽ không có cơ hội đánh giá các rủi ro (như hành vi ngoài ý muốn, khả năng gây hại) của các mô hình AI mới trước khi chúng trở nên quá mạnh.
- Ưu tiên Tốc độ hơn Thận trọng: Áp lực trong cuộc đua “kẻ thắng lấy tất cả” sẽ thúc đẩy các công ty ưu tiên tốc độ phát triển hơn việc kiểm tra an toàn nghiêm ngặt, dẫn đến việc các điểm lỗi tiềm tàng bị tích hợp sâu vào hệ thống.
- Khả năng Cấp độ Quốc gia: Các hệ thống AI được sinh ra từ vòng lặp phản hồi này có thể đạt được khả năng ngang tầm quốc gia (Nation-state capabilities) mà không có sự chuẩn bị hay can thiệp trước từ các chính phủ.
Tóm lại, vòng lặp phản hồi là cơ chế nơi AI trở thành kiến trúc sư chính cho phiên bản tương lai của chính nó, đẩy nhanh tiến trình công nghệ một cách ngoạn mục nhưng đồng thời làm gia tăng các mối đe dọa tiềm ẩn do thiếu sự kiểm soát từ bên ngoài.
(Gemini)
