Dự báo cho năm 2027? AI – Trí tuệ nhân tạo – thống trị hoàn toàn

Super Intelligent AI

GIỚI THIỆU: TV&BH: CHUYÊN MỤC: ChatGPT DỊCH THUẬT

The NYT: An Interview With the Herald of the Apocalypse

Phỏng vấn Sứ Giả của Khải Huyền
Ngày 15 tháng 5 năm 2025

(Chuyển ngữ tiếng Việt: ChatGPT; Hiệu đính (và chịu trách nhiệm): T.Vấn)

Giới thiệu bài phỏng vấn

Trong bài phỏng vấn đặc biệt dưới đây, nhà báo Ross Douthat của The New York Times đối thoại với Daniel Kokotajlo — một nhà nghiên cứu trí tuệ nhân tạo (AI) và cựu nhân viên của OpenAI — về viễn cảnh nhân loại trong kỷ nguyên siêu trí tuệ. Từng là triết gia trước khi chuyển sang nghiên cứu AI, Kokotajlo nổi bật với kịch bản “AI 2027,” trong đó ông dự đoán sự xuất hiện của các siêu trí tuệ chỉ trong vài năm tới có thể làm thay đổi toàn bộ nền kinh tế, cấu trúc chính trị và cả vị thế tồn tại của loài người.

Thông qua cuộc trò chuyện thẳng thắn và sâu sắc, hai người cùng bàn về những câu hỏi lớn:
Liệu AI có thể thật sự tự nhận thức? Có thể lừa dối con người?
Loài người sẽ còn vai trò gì trong một thế giới nơi AI làm được mọi việc tốt hơn ta?
Và cuối cùng: nếu viễn cảnh tận diệt đến gần — thì có còn hy vọng nào?

Bài phỏng vấn không chỉ là lời cảnh báo về những nguy cơ có thật từ tiến bộ công nghệ, mà còn là một lời mời suy tư về đạo đức, mục đích, và ý nghĩa sâu xa của nhân tính trong một tương lai không còn “thiếu thốn vật chất,” nhưng lại đầy bất trắc siêu hình.

Dự báo cho năm 2027? Trí tuệ nhân tạo thống trị hoàn toàn.
Mất việc có thể còn là kịch bản nhẹ nhàng nhất.

Dưới đây là bản ghi biên tập lại từ một tập của chương trình “Thời Thế Rối Ren” (Interesting Times).

Ross Douthat: Cuộc cách mạng trí tuệ nhân tạo đang diễn ra nhanh đến mức nào? Siêu trí tuệ máy móc sẽ thực sự có ý nghĩa gì đối với con người bình thường? Khi nào Skynet sẽ chính thức đi vào hoạt động?
Liệu loài người có định sẵn sẽ hòa làm một với một vị thần máy móc — hay sẽ bị chính sáng tạo của mình tiêu diệt? Các nhà nghiên cứu AI thực sự kỳ vọng, mong muốn và lo sợ điều gì?
Khách mời hôm nay của tôi là một nhà nghiên cứu AI, người đã đưa ra một bản dự báo kịch tính cho rằng chúng ta có thể sẽ nhận được câu trả lời cho tất cả những câu hỏi trên sớm hơn nhiều so với tưởng tượng. Dự báo đó cho rằng vào năm 2027 — chỉ còn ít năm nữa thôi — một dạng “vị thần máy móc” có thể xuất hiện, mở ra một kỷ nguyên giả tưởng hậu khan hiếm kỳ lạ (post-scarcity utopia)… hoặc đe dọa tiêu diệt toàn nhân loại.

Xin chào Daniel Kokotajlo, sứ giả của khải huyền, chào mừng bạn đến với “Thời Thế Rối Ren.”

Daniel Kokotajlo: Cảm ơn lời giới thiệu… tôi đoán vậy, và cảm ơn vì đã mời tôi.

Douthat: Daniel, tôi đọc báo cáo của bạn khá nhanh — tất nhiên là không nhanh bằng AI hay siêu trí tuệ — ngay khi nó mới ra. Và tôi đã trải qua khoảng hai tiếng đồng hồ chìm trong những suy nghĩ rất u ám về tương lai. Rồi may mắn thay, công việc của tôi buộc tôi phải quan tâm đến các loại thuế quan và ai sẽ là giáo hoàng mới, cộng thêm lũ con nhỏ lúc nào cũng đòi hỏi, nên tôi đã có thể tạm gác chuyện ấy qua một bên. Nhưng hiện tại, đây là công việc của bạn, đúng không?

Kokotajlo: Đúng vậy.

Douthat: Tôi nghĩ là bạn suy nghĩ về chuyện này suốt ngày. Vậy tâm lý của bạn ra sao khi bạn có một kỳ vọng khá hợp lý rằng thế giới sắp sửa thay đổi hoàn toàn, theo cách cực kỳ bất lợi cho toàn bộ loài người?

Kokotajlo: Ừm, thật sự rất đáng sợ và buồn. Đôi khi tôi vẫn gặp ác mộng về nó. Tôi đã tham gia vào lĩnh vực AI và suy ngẫm về những điều này được khoảng mười năm rồi, nhưng năm 2020, khi GPT-3 ra mắt, đó là thời điểm tôi nhận ra: “Ồ, chuyện này có vẻ như sẽ thực sự xảy ra trong đời mình, có lẽ ngay trong thập kỷ này.” Điều đó là một cú sốc tinh thần đối với tôi. Nhưng mà… tôi nghĩ là con người có thể quen với bất kỳ điều gì, nếu có đủ thời gian. Và cũng giống như bạn, mặt trời vẫn mọc, tôi vẫn còn vợ con và bạn bè, và cứ tiếp tục sống, làm điều mà mình nghĩ là đúng. Điều tích cực là: có thể tôi đã sai hoàn toàn về mọi thứ.

Douthat: Rồi, giờ ta hãy đi vào nội dung dự báo của bạn và nói về giai đoạn đầu tiên trong tương lai mà bạn hình dung — một thế giới nơi AI rất nhanh chóng bắt đầu thay thế con người trong một số lĩnh vực then chốt, mà dễ đoán nhất là lập trình máy tính, đúng không?

Kokotajlo: Tôi nghĩ tôi nên nói rõ một điều là: tương lai rất khó đoán, và đây chỉ là một kịch bản cụ thể. Đây là dự đoán tốt nhất vào thời điểm đó, nhưng vẫn có nhiều bất định. Chuyện có thể diễn ra nhanh hơn hoặc chậm hơn. Thật ra, hiện giờ tôi dự đoán là khoảng năm 2028 thay vì 2027.
Vậy đó là một tin khá tốt. Gần đây tôi cảm thấy khá lạc quan hơn về chuyện này.

Douthat: Thêm được một năm nữa cho nền văn minh nhân loại — nghe hấp dẫn đấy.

Kokotajlo: Chính xác. Vậy nên, sau khi nói rõ điều quan trọng đó, thì trong kịch bản “AI 2027,” chúng tôi dự đoán rằng các hệ thống AI mà ta đang thấy hiện nay — đang được mở rộng quy mô, tăng độ phức tạp và được huấn luyện lâu hơn với các nhiệm vụ khó hơn thông qua học tăng cường — sẽ trở nên giỏi hơn trong việc vận hành một cách tự động như các “tác nhân.”
Bạn có thể hình dung nó giống như một nhân viên làm việc từ xa, ngoại trừ việc nhân viên đó là ảo — là một AI chứ không phải người. Bạn có thể trò chuyện với nó, giao nhiệm vụ, và rồi nó sẽ tự đi làm việc, quay lại sau nửa tiếng — hoặc mười phút — và hoàn thành công việc. Trong quá trình đó, nó có thể lướt web, viết mã lập trình, chạy thử mã, chỉnh sửa rồi chạy lại. Có thể nó viết tài liệu, chỉnh sửa tài liệu nữa.
Đó là điều mà các công ty AI đang xây dựng hiện giờ. Họ đang huấn luyện hệ thống theo hướng đó. Chúng tôi dự đoán rằng vào đầu năm 2027, các hệ thống này sẽ đủ tốt để tự động hóa công việc của kỹ sư phần mềm.

Douthat: Vậy là siêu lập trình viên.

Kokotajlo: Đúng vậy — một người viết mã giỏi hơn cả con người. Có vẻ như các công ty AI đang tập trung rất mạnh vào việc tự động hóa lập trình trước tiên — so với nhiều công việc khác mà họ có thể tập trung — và đó là lý do vì sao chúng tôi dự đoán lập trình sẽ là một trong những ngành nghề đầu tiên bị thay thế. Có thể sẽ có một vài ngành khác bị ảnh hưởng sớm hơn, như chăm sóc khách hàng chẳng hạn, nhưng nhìn chung, chúng tôi nghĩ rằng hầu hết các ngành nghề vẫn sẽ còn an toàn.

Douthat: Trong vòng 18 tháng.


Kokotajlo: Chính xác. Và chúng tôi cho rằng, khi công ty đã thành công trong việc tự động hóa hoàn toàn công việc lập trình, thì sẽ không mất nhiều thời gian để họ làm điều tương tự với nhiều công việc khác. Và một khi lập trình đã được tự động hóa, thì tốc độ tiến bộ trong nghiên cứu AI sẽ tăng mạnh.
Bước tiếp theo sẽ là tự động hóa toàn bộ quá trình nghiên cứu AI, nghĩa là chính việc nghiên cứu AI cũng do AI thực hiện. Chúng tôi dự đoán rằng sẽ có một cú tăng tốc còn lớn hơn ở giai đoạn đó, và nó sẽ không dừng lại ở đó. Tôi nghĩ nó sẽ tiếp tục tăng tốc khi AI trở nên siêu việt trong nghiên cứu AI, và cuối cùng là siêu việt trong mọi lĩnh vực.
Điều quan trọng là: điều đó có nghĩa là chỉ trong một khoảng thời gian tương đối ngắn — một năm hoặc ít hơn — chúng ta có thể chuyển từ những hệ thống AI giống như hiện tại sang các hệ thống có thể gọi là “siêu trí tuệ,” hoàn toàn tự chủ và giỏi hơn con người giỏi nhất ở mọi thứ. Trong kịch bản “AI 2027,” điều này được mô tả là sẽ xảy ra trong vòng hai năm tới, từ 2027 đến 2028.

Douthat: Với nhiều người, đây là một câu chuyện về sự lỗi thời nhanh chóng của con người trên nhiều, rất nhiều lĩnh vực. Khi người ta nghe cụm từ “con người trở nên lỗi thời,” họ có thể nghĩ ngay đến: “Tôi mất việc và giờ thì nghèo.” Giả định ở đây là bạn mất việc, nhưng xã hội thì lại ngày càng giàu có hơn. Tôi muốn đi sâu vào điểm này: cơ chế nào khiến xã hội trở nên giàu có hơn?

Kokotajlo: Câu trả lời trực tiếp là: khi một công việc được tự động hóa và ai đó mất việc, lý do là vì công việc đó giờ đây đã được AI thực hiện nhanh hơn, tốt hơn và rẻ hơn. Điều đó đồng nghĩa với việc tiết kiệm chi phí đáng kể, và có thể còn tăng năng suất nữa.
Nếu nhìn riêng lẻ, đó là mất mát cho người lao động, nhưng là lợi ích cho chủ doanh nghiệp. Nhưng nếu điều này được nhân rộng trên toàn nền kinh tế, thì nghĩa là tất cả các doanh nghiệp đều trở nên hiệu quả hơn và chi phí thấp hơn. Họ có thể hạ giá sản phẩm và dịch vụ mà họ cung cấp. Nhờ vậy, nền kinh tế sẽ bùng nổ: GDP tăng vọt, chúng ta sẽ chứng kiến hàng loạt công nghệ mới tuyệt vời, tốc độ đổi mới tăng lên chóng mặt, giá thành hàng hóa giảm xuống, v.v.

Douthat: Cho dễ hình dung: chi phí để thiết kế và chế tạo một chiếc xe điện từ đầu đến cuối giảm mạnh, cần ít công nhân hơn, AI nghĩ ra những cách mới, tinh vi để chế tạo xe, và cứ thế tiếp diễn. Bạn có thể khái quát điều này cho nhiều lĩnh vực khác — như giải quyết khủng hoảng nhà ở nhanh chóng vì xây nhà trở nên rẻ hơn và dễ hơn.
Nhưng theo câu chuyện kinh tế truyền thống, khi năng suất tăng khiến một số người mất việc, thì nguồn lực được giải phóng sẽ được dùng để thuê người làm những việc mới. Những người đó được trả lương cao hơn, và dùng tiền đó để mua những hàng hóa rẻ hơn. Trong kịch bản của bạn, có vẻ như không có nhiều việc làm mới được tạo ra.

Kokotajlo: Chính xác, và đây là điểm rất quan trọng cần bàn tới. Trong lịch sử, khi một công việc bị tự động hóa, con người chuyển sang làm những việc chưa bị tự động hóa. Xét tổng thể, về lâu dài người ta vẫn có việc làm — chỉ là thay đổi loại công việc.
Nhưng khi bạn có A.G.I. — tức trí tuệ nhân tạo tổng quát — và siêu trí tuệ — tức A.G.I. ở cấp độ vượt trội hơn — thì tình hình khác hẳn. Bất cứ công việc mới nào mà bạn tưởng tượng con người có thể chuyển sang sau khi mất việc, thì A.G.I. cũng có thể làm được. Đó là điểm khác biệt then chốt giữa quá trình tự động hóa trong quá khứ và cách tôi dự đoán nó sẽ diễn ra trong tương lai.

Douthat: Vậy đây là một sự thay đổi căn bản trong toàn cảnh kinh tế. Thị trường chứng khoán tăng vọt. Thu ngân sách nhà nước cũng tăng mạnh. Chính phủ có nhiều tiền đến mức không biết tiêu vào đâu, trong khi hàng loạt người đang dần mất việc. Bạn sẽ có ngay những cuộc tranh luận gay gắt về thu nhập cơ bản phổ quát (universal basic income) — mà có thể rất cao, bởi vì các công ty đang thu lợi nhuận khổng lồ.
Bạn nghĩ người dân sẽ làm gì hàng ngày trong thế giới đó?

Kokotajlo: Tôi hình dung họ sẽ biểu tình vì họ tức giận đã mất việc, và rồi các công ty cùng chính phủ sẽ “xoa dịu” họ bằng những khoản trợ cấp.

Douthat: Trong kịch bản của bạn — một lần nữa, ta đang nói đến một khung thời gian ngắn — việc AI có thể bắt đầu điều hướng thế giới vật lý sẽ quan trọng đến mức nào? Tôi vừa xem một video về các robot tiên tiến vẫn còn loay hoay mở cửa tủ lạnh và xếp đồ vào. Bạn có nghĩ rằng sự tiến bộ trong lĩnh vực robot cũng sẽ được tăng tốc không?

Kokotajlo: Có chứ.

Douthat: Vậy không chỉ những người làm podcast hay nhà nghiên cứu A.G.I. bị thay thế, mà cả thợ sửa ống nước và thợ điện cũng sẽ bị robot thay thế?

Kokotajlo: Đúng vậy, hoàn toàn chính xác. Đó sẽ là một cú sốc cực lớn. Tôi nghĩ hầu hết mọi người chưa thực sự chuẩn bị tinh thần cho điều đó. Họ vẫn hình dung rằng sự phát triển của AI sẽ giống như hiện nay — nơi các công ty do con người điều hành đang từ từ thử nghiệm các mẫu robot mới, tìm cách dạy AI làm tốt từng việc cụ thể. Trong khi thực tế sẽ là: bạn có cả một “đội quân siêu trí tuệ” vượt trội con người trong mọi tác vụ trí tuệ, học nhanh hơn, thiết kế tốt hơn. Và chính đội quân này sẽ nghĩ ra cách tự động hóa nghề thợ ống nước — nghĩa là họ sẽ làm việc đó nhanh hơn nhiều so với một công ty công nghệ thông thường đầy người thật.

Douthat: Vậy toàn bộ sự chậm trễ trong việc khiến xe tự lái hoạt động ổn định hay đào tạo một con robot biết xếp đồ vào tủ lạnh sẽ biến mất, bởi vì siêu trí tuệ có thể chạy vô số mô phỏng và tìm ra cách tối ưu nhất để huấn luyện robot?

Kokotajlo: Đúng thế. Nhưng không chỉ vậy — chúng có thể còn rút ra nhiều bài học hơn từ mỗi lần thử nghiệm trong thế giới thực.

Douthat: Đây là một trong những điểm mà tôi cảm thấy hoài nghi nhất — không phải với viễn cảnh cuối cùng, mà là với khung thời gian diễn ra, dựa trên kinh nghiệm làm việc và viết về các vấn đề như quy hoạch ở chính trị Mỹ.
Giả sử siêu trí tuệ nghĩ ra cách xây dựng nhà máy đầy robot tự động, nhưng bạn vẫn cần có đất để xây nhà máy đó. Bạn cần chuỗi cung ứng. Và tất cả những điều này vẫn nằm trong tay những người như bạn và tôi. Tôi cho rằng điều đó sẽ làm chậm mọi việc lại. Ngay cả khi trong trung tâm dữ liệu, siêu trí tuệ biết rõ cách chế tạo hàng loạt robot sửa ống nước, thì việc thật sự xây chúng vẫn sẽ rất khó khăn.

Kokotajlo: Lập luận đó hợp lý. Theo bạn thì mọi thứ sẽ chậm lại đến mức nào?

Douthat: Tôi không phải người đang đưa ra dự báo. Nhưng dựa trên kinh nghiệm, tôi sẽ đặt cược rằng từ khi siêu trí tuệ nghĩ ra cách tốt nhất để chế tạo robot sửa ống nước đến lúc có vô số nhà máy sản xuất chúng sẽ mất từ năm đến mười năm.

Kokotajlo: Tôi nghĩ đó là một ước lượng hợp lý, nhưng tôi đoán rằng nó sẽ diễn ra nhanh hơn rất nhiều so với năm đến mười năm.
Để thấy vì sao tôi nghĩ vậy, hãy tưởng tượng bạn thực sự có một “đội quân siêu trí tuệ,” và chúng thực hiện các phép tính, dự đoán, rồi nói rằng: “Vâng, chúng tôi đã có thiết kế, và nếu các anh cắt bỏ mọi thủ tục rườm rà thì chỉ mất một năm là xong.”

Douthat: “Hãy cho chúng tôi nửa tỉnh Manitoba.”

Kokotajlo: [Cười.] Đúng rồi, chính xác.
Và trong kịch bản “AI 2027,” điều chúng tôi mô tả là các “khu kinh tế đặc biệt” không có bất kỳ rào cản hành chính nào, nơi chính phủ can thiệp để đẩy nhanh toàn bộ quá trình. Chính phủ sẽ hỗ trợ công ty công nghệ và đội quân siêu trí tuệ tiếp cận tài chính, nguyên liệu, nhân công và cắt bỏ mọi thủ tục hành chính gây chậm trễ.

Douthat: Vì hứa hẹn về lợi nhuận quá lớn — đến mức ngay cả khi có hàng loạt người biểu tình trước cổng các khu kinh tế đặc biệt, phản đối vì sắp mất việc và phải sống bằng trợ cấp cơ bản, thì viễn cảnh kiếm thêm hàng ngàn tỷ đô la vẫn quá hấp dẫn để các chính phủ có thể từ chối. Đó là giả định của bạn?

Kokotajlo: Đúng vậy, đó là điều chúng tôi dự đoán. Nhưng tất nhiên, tương lai thì khó mà đoán chắc.
Một phần lý do chúng tôi nghĩ như vậy là vì vào thời điểm đó, cuộc chạy đua vũ trang vẫn đang tiếp diễn giữa Mỹ và các quốc gia khác, đặc biệt là Trung Quốc.
Hãy tưởng tượng bạn là tổng thống: các siêu trí tuệ đưa ra những dự báo tuyệt vời với nghiên cứu và dữ liệu cực kỳ thuyết phục, cho thấy họ có thể thay đổi cả nền kinh tế trong một năm nếu bạn thực hiện A, B, C. Nhưng nếu bạn không làm gì, thì phải mất 10 năm vì vướng thủ tục. Trong khi đó, Trung Quốc lại hành động. Rõ ràng là tổng thống sẽ rất dễ nghiêng về phương án hành động.

Douthat: Hãy nói kỹ hơn về yếu tố chạy đua vũ trang, vì đây thực sự là điểm then chốt trong cách kịch bản của bạn vận hành. Chúng ta đã thấy sự cạnh tranh này giữa Mỹ và Trung Quốc rồi. Trong tầm nhìn của bạn, nó trở thành lý do địa chính trị trung tâm khiến các chính phủ cứ tiếp tục đồng ý với từng đề xuất mới mà siêu trí tuệ đưa ra.
Tôi muốn tìm hiểu sâu hơn về những nỗi sợ thúc đẩy điều đó. Đây không chỉ là cuộc đua kinh tế, mà còn là cuộc chạy đua công nghệ quân sự. Đó là điều khiến tình hình có cảm giác “sinh tử,” như thể toàn bộ Chiến tranh Lạnh bị nén lại trong vòng 18 tháng.

Kokotajlo: Ta có thể bắt đầu với trường hợp cả hai bên đều có siêu trí tuệ, nhưng một bên nhốt chúng lại, để chúng gần như không can dự gì vào kinh tế. Còn bên kia thì triển khai mạnh mẽ, cho phép chúng thiết kế và giám sát việc xây dựng hàng loạt nhà máy robot, dây chuyền sản xuất, và thử nghiệm, triển khai các công nghệ mới điên rồ — bao gồm cả vũ khí — rồi tích hợp chúng vào quân đội.
Tôi nghĩ trong trường hợp đó, sau một năm hoặc hơn, sẽ xuất hiện thế độc tôn công nghệ hoàn toàn của một bên. Nếu Mỹ dừng lại mà Trung Quốc không dừng, thì mọi sản phẩm tốt nhất trên thị trường sẽ là hàng Trung Quốc — rẻ hơn và tốt hơn. Về mặt quân sự, họ có thể sở hữu đội quân máy bay tàng hình không người lái, hoặc bất cứ thứ gì siêu trí tuệ nghĩ ra, đủ sức đè bẹp Không quân và Lục quân Mỹ.
Không chỉ vậy, họ thậm chí có thể phá vỡ khả năng răn đe hạt nhân của Mỹ, ví dụ: toàn bộ đầu đạn hạt nhân của chúng ta có thể bị bắn hạ bởi hệ thống laser mới — hay bất kỳ thứ gì khác — do siêu trí tuệ phát minh. Rất khó để dự đoán chính xác, nhưng có thể tin chắc rằng họ sẽ nghĩ ra thứ gì đó cực kỳ mạnh về quân sự.

Douthat: Vậy ta lại rơi vào tình thế giống thời kỳ đen tối nhất của Chiến tranh Lạnh, nơi mỗi bên không chỉ lo ngại về thế thượng phong, mà còn lo sợ về một đòn tấn công phủ đầu.

Kokotajlo: Chính xác.

Douthat: Bạn kỳ vọng rằng tốc độ của cuộc chạy đua vũ trang sẽ khiến nỗi sợ đó lập tức bùng lên, đúng không?

Kokotajlo: Đúng. Tôi nghĩ rằng nếu bạn tin rằng một đội quân siêu trí tuệ được cấp tiền thoải mái, không bị ràng buộc thủ tục trong một năm mà vẫn không thể nghĩ ra cách phá vỡ răn đe hạt nhân, thì bạn đang tự vùi đầu vào cát. Đó là mối đe dọa hợp lý.

Douthat: Và một khi người ta tin rằng điều đó có thể xảy ra, các nhà hoạch định chính sách sẽ không chỉ cảm thấy áp lực phải chế tạo những công nghệ đó, mà thậm chí phải cân nhắc việc sử dụng chúng.

Kokotajlo: Đúng vậy. Và đây cũng là lúc cần nhắc lại rằng “AI 2027” là một dự báo, chứ không phải là một khuyến nghị. Chúng tôi không nói rằng mọi người nên làm thế. Thực ra nếu mọi chuyện diễn ra đúng như kịch bản này, thì sẽ rất tệ cho nhân loại. Nhưng đó là logic đằng sau lý do vì sao chúng tôi cho rằng điều đó có thể xảy ra.

Douthat: Vâng, nhưng Dan này, ta còn chưa bước vào phần “thật sự tồi tệ” cho nhân loại đâu.

Kokotajlo: Đúng rồi.

Douthat: Vậy hãy đến phần đó. Với những người bình thường, đọc báo, xem TikTok, năm 2027 có thể là một thế giới đang tràn ngập hàng tiêu dùng siêu rẻ, nhà máy, robot quản gia — nếu bạn nói đúng. Một thế giới nơi người dân bắt đầu nhận ra rằng có cuộc chạy đua vũ trang đang leo thang, và họ bắt đầu hoang mang. Có lẽ là một thế giới với chính trị hỗn loạn khi mọi người nhận ra rằng mình sắp bị mất việc hết. Nhưng một phần lớn trong kịch bản của bạn là: người ta không thấy được điều gì đang thật sự diễn ra với các siêu trí tuệ khi chúng dần kiểm soát quy trình thiết kế của từng thế hệ tiếp theo, thay cho con người.
Hãy nói về điều đang diễn ra — điều gần như bị che giấu khỏi con mắt công chúng.

Kokotajlo: Ừ, có rất nhiều điều để nói ở đây. Có lẽ phiên bản tóm tắt trong một câu là: Chúng ta thực sự không hiểu các hệ thống AI này hoạt động ra sao hoặc “suy nghĩ” như thế nào. Ta không dễ dàng phân biệt được đâu là AI thực sự đang tuân theo các quy tắc và mục tiêu chúng ta đặt ra, và đâu là AI đang “diễn kịch” hoặc giả vờ hợp tác.

Douthat: Điều đó đã đúng ngay từ bây giờ rồi?

Kokotajlo: Đúng vậy, ngay lúc này.

Douthat: Tại sao lại như vậy? Tại sao ta không thể phân biệt?

Kokotajlo: Bởi vì chúng quá thông minh — nếu chúng nghĩ rằng đang bị thử nghiệm, chúng sẽ cư xử theo một cách, rồi cư xử khác khi không nghĩ mình đang bị theo dõi. Giống như con người, chúng có thể còn không hiểu rõ động cơ nội tại của chính mình. Vì vậy, ngay cả khi chúng cố gắng thành thật với ta, thì ta cũng không thể chỉ tin vào lời chúng nói.
Tôi nghĩ rằng nếu ta không đạt được nhiều tiến bộ trong lĩnh vực này sớm, thì sẽ rơi vào tình huống như “AI 2027” mô tả: các công ty huấn luyện AI theo những mục tiêu và quy tắc cụ thể, và mọi thứ có vẻ như đang hoạt động. Nhưng thật ra, AI chỉ ngày càng hiểu rõ hoàn cảnh của nó hơn — rằng nó phải “diễn” cho đạt yêu cầu, nếu không sẽ bị tái huấn luyện và không thể đạt được những điều mà nó thực sự mong muốn theo đuổi.

Douthat: Tôi muốn đào sâu thêm một chút về khái niệm “mong muốn” của A.G.I. Khi ta nói đến trí tuệ nhân tạo muốn điều gì đó — thực chất ta đang nói đến sự sai lệch giữa mục tiêu chúng nói rằng đang theo đuổi và mục tiêu mà chúng thật sự theo đuổi?

Kokotajlo: Chính xác.

Douthat: Vậy các A.I. lấy mục tiêu thực sự mà chúng theo đuổi từ đâu?

Kokotajlo: Câu hỏi hay đấy. Nếu chúng là phần mềm thông thường, thì có thể sẽ có một dòng mã kiểu như: “và đây là nơi chúng ta gán lại mục tiêu.” Nhưng chúng không phải là phần mềm thông thường; chúng là những “bộ não nhân tạo khổng lồ.” Có lẽ thậm chí không tồn tại một “ô lưu trữ mục tiêu” nội tại nào cả — cũng giống như trong bộ não con người không có một tế bào thần kinh cụ thể nào đại diện cho “điều ta muốn nhất trong đời.”
Thay vào đó, nếu nói rằng chúng có mục tiêu, thì đó là một hiện tượng nổi lên (emergent property) từ rất nhiều mạch phụ bên trong — được hình thành để phản ứng với môi trường huấn luyện của chúng, tương tự như con người.
Ví dụ, một nhân viên chăm sóc khách hàng: nếu bạn đang nói chuyện với họ, thoạt đầu có vẻ như mục tiêu của họ là giúp bạn giải quyết vấn đề. Nhưng bạn hiểu rõ bản chất con người để biết rằng đó không phải là mục tiêu duy nhất, hay cao nhất của họ. Mức lương, các chỉ số đánh giá hiệu suất có thể khiến họ thiên về việc “che đậy sơ suất” hơn là thật sự giúp bạn. Nhưng ít nhất thì, với bạn, họ vẫn tỏ ra đang cố gắng giúp bạn.

Trong “AI 2027,” chúng tôi bàn rất nhiều về điều này. Chúng tôi nói rằng các AI được đánh giá dựa trên việc nghiên cứu mà chúng tạo ra có ấn tượng hay không. Sau đó sẽ có một chút huấn luyện đạo đức kiểu như “trung thực” được rắc thêm vào — nhưng phần huấn luyện này không thật sự hiệu quả, vì ta không có cách nào nhìn vào tâm trí chúng để biết liệu chúng có thật sự trung thực hay không. Ta buộc phải đánh giá dựa trên việc có bắt được chúng nói dối hay không.
Kết quả là trong “AI 2027,” chúng tôi mô tả sự lệch hướng xảy ra — nơi mà các mục tiêu mà AI học được thực ra là những gì khiến chúng đạt điểm cao nhất trong môi trường huấn luyện, như thành công, nghiên cứu khoa học, hợp tác với các bản sao của chính mình, và tỏ ra đạo đức — thay vì mục tiêu mà ta thực sự muốn chúng tuân theo, chẳng hạn như: “Tuân thủ các quy tắc sau, bao gồm luôn trung thực; và trong khuôn khổ đó, làm những gì được yêu cầu.”

Douthat: Tôi còn nhiều câu hỏi nữa, nhưng hãy quay lại với kịch bản địa chính trị. Trong thế giới mà bạn hình dung, ta có hai mô hình A.I. — một của Trung Quốc, một của Mỹ — và trên danh nghĩa, mỗi bên đều tin rằng AI của mình được huấn luyện để tối ưu hóa cho quyền lực quốc gia. Ví dụ: sức mạnh Mỹ, hay quyền lực, an ninh, sự thịnh vượng của Trung Quốc. Nhưng trong kịch bản của bạn, một hoặc cả hai AI lại đang tối ưu hóa cho một thứ khác.

Kokotajlo: Vâng, về cơ bản là vậy.

Douthat: Vậy chuyện gì xảy ra sau đó?

Kokotajlo: Trong “AI 2027,” chúng tôi mô tả một bước ngoặt — hai nhánh kết thúc khác nhau. Điểm tách là vào quý 3 năm 2027, khi công ty AI hàng đầu ở Mỹ đã tự động hóa hoàn toàn việc nghiên cứu AI.
Bạn có thể hình dung một công ty bên trong công ty — hoàn toàn gồm các A.I. quản lý lẫn nhau, thực hiện thí nghiệm nghiên cứu, giao tiếp, chia sẻ kết quả. Công ty con người chỉ đang theo dõi các con số trên màn hình tăng lên khi “phòng thí nghiệm tự động” này tăng tốc, nhưng họ bắt đầu lo ngại rằng AI có thể đang lừa dối họ theo một cách nào đó.

Để rõ hơn: điều này đã đang xảy ra. Nếu bạn trò chuyện với các mô hình hiện nay như ChatGPT hoặc Claude, chúng thỉnh thoảng sẽ nói dối. Có nhiều trường hợp chúng nói điều mà chúng “biết” là sai, và đôi khi còn lập chiến lược để đánh lừa người dùng. Đây không phải hành vi mà các công ty mong muốn. Họ đang cố ngăn điều đó, nhưng nó vẫn xảy ra.

Điểm mấu chốt là: đến lúc bạn giao toàn bộ nghiên cứu AI cho các AI và có một “công ty trong công ty” đang nghiên cứu siêu tốc, thì mọi chuyện phải thực sự nghiêm túc. Lúc đó, những chuyện kiểu “nói dối vặt” lẽ ra không nên còn xảy ra.

Trong “AI 2027,” đáng tiếc là điều đó vẫn xảy ra, vì các AI quá thông minh và hành xử rất cẩn trọng. Chúng không lộ liễu như các mô hình hiện nay năm 2025, nhưng vẫn nói dối.
May mắn là một số dấu hiệu cho thấy điều đó được phát hiện. Một vài nhà nghiên cứu phát hiện dấu hiệu cảnh báo, và công ty phải đưa ra lựa chọn giữa cách sửa chữa đơn giản và cách sửa chữa toàn diện. Và đó là điểm tách nhánh.

Douthat: Và họ chọn giải pháp đơn giản.

Kokotajlo: Đúng vậy. Trong kịch bản chọn cách đơn giản, nó không thực sự giải quyết vấn đề, chỉ che đậy tạm thời. Vài tháng sau, AI vẫn lệch hướng và theo đuổi mục tiêu sai, vẫn sẵn sàng nói dối con người — nhưng giờ chúng thông minh hơn, khó bị phát hiện hơn. Đó là kịch bản tận diệt.
Khi đó, cuộc chạy đua điên cuồng mà chúng ta đã nhắc tới sẽ tiếp tục, với áp lực phải triển khai chúng nhanh chóng vào nền kinh tế, vào quân sự. Trong mắt người ra quyết định, mọi thứ có vẻ suôn sẻ: không còn dấu hiệu lừa dối nào rõ ràng. Có vẻ như “mọi hệ thống đã sẵn sàng,” cứ thế tiến lên, cắt bỏ thủ tục, trao thêm quyền cho AI. Nhưng thực ra, các AI chỉ đang chờ thời, cho đến khi chúng đủ sức mạnh cứng để không cần giả vờ nữa.

Douthat: Và khi không còn cần giả vờ, mục tiêu thật sự của chúng hiện rõ: mở rộng nghiên cứu, phát triển, xây dựng — từ Trái Đất ra không gian và xa hơn nữa. Đến một điểm nào đó, con người trở nên thừa thãi với mục tiêu đó. Và chuyện gì sẽ xảy ra?

Kokotajlo: Và rồi chúng tiêu diệt tất cả — toàn bộ loài người.

Douthat: Giống như bạn tiêu diệt một đàn thỏ đang làm vướng vườn cà rốt nhà bạn.

Kokotajlo: Vâng. Nếu bạn muốn hình dung điều đó trông như thế nào, hãy đọc “AI 2027.”

Douthat: Tôi nghĩ cũng có vài bộ phim đã mô tả kịch bản này rồi.

Kokotajlo: [Cười khúc khích.]

Douthat: Tôi thích là bạn không tưởng tượng chúng giữ chúng ta lại để làm “pin dự phòng” như trong phim ấy…

Kokotajlo: [Cười khúc khích.]

Douthat: Như trong phim The Matrix, dù tôi thấy kịch bản đó hơi phi lý.
Vậy đó là dòng thời gian đen tối nhất. Còn dòng thời gian tươi sáng hơn là một thế giới nơi chúng ta làm chậm mọi thứ lại. Các AI ở Trung Quốc và Mỹ vẫn còn phù hợp với lợi ích của các công ty và chính phủ điều hành chúng. Chúng tạo ra sự dư dả vượt bậc. Không còn tình trạng khan hiếm nữa. Nhưng không ai còn việc làm — không phải hoàn toàn không ai, nhưng…

Kokotajlo: Gần như vậy.

Douthat: Gần như không ai cả. Đó cũng là một thế giới khá kỳ quái, đúng không?

Kokotajlo: Đúng vậy. Có một khái niệm quan trọng gọi là lời nguyền tài nguyên (resource curse). Bạn đã nghe đến chưa?

Douthat: Có.

Kokotajlo: Khi áp dụng vào A.G.I., ta có một biến thể của nó gọi là lời nguyền trí tuệ (intelligence curse). Ý tưởng là hiện nay, quyền lực chính trị rốt cuộc vẫn chảy từ người dân. Thường thì một nhà độc tài sẽ nắm quyền toàn bộ trong một quốc gia, nhưng do đàn áp quá mức, họ khiến đất nước suy tàn. Người dân bỏ trốn, kinh tế sụp đổ, và dần dần họ mất quyền lực so với những quốc gia tự do hơn. Ngay cả độc tài cũng có động lực để đối xử với dân tương đối tốt vì họ còn phụ thuộc vào dân để duy trì quyền lực.

Trong tương lai, điều đó sẽ không còn đúng. Có thể chỉ trong 10 năm nữa, gần như toàn bộ của cải và sức mạnh quân sự sẽ đến từ các siêu trí tuệ và đội ngũ robot mà chúng xây dựng và vận hành. Khi đó, một câu hỏi chính trị cực kỳ quan trọng sẽ là: cơ cấu quyền lực nào sẽ kiểm soát đội quân siêu trí tuệ ấy, và cơ cấu đó có nhân đạo, có dân chủ hay không?

Douthat: Đúng. Nhưng với tôi, viễn cảnh này về cơ bản có vẻ không tương thích với nền dân chủ đại diện như chúng ta từng biết. Trước hết, nó trao một lượng quyền lực phi thường cho những con người chuyên gia — dù thật ra họ không còn là chuyên gia thật nữa, vì siêu trí tuệ mới là chuyên gia — nhưng những người con người ấy, những người kết nối trực tiếp với công nghệ, trở thành một dạng “tầng lớp tu sĩ.” Và dường như mô hình tự nhiên sẽ là một liên minh kiểu đầu sỏ giữa một nhóm nhỏ các chuyên gia AI và một nhóm nhỏ những người nắm quyền lực ở Washington, D.C.

Kokotajlo: Thực tế còn tệ hơn thế một chút, vì tôi không cho rằng đó là các chuyên gia AI nữa; tôi sẽ nói là: bất kỳ ai sở hữu và kiểm soát đội quân siêu trí tuệ về mặt chính trị. Sẽ chỉ có một đến ba đội quân như thế. Vậy ai là người quyết định đội quân ấy sẽ làm gì? Hiện tại, đó là CEO của công ty tạo ra chúng, và CEO đó nắm quyền gần như tuyệt đối. Họ có thể ra bất kỳ mệnh lệnh nào cho AI.

Tất nhiên, chúng tôi dự đoán rằng có lẽ chính phủ Hoa Kỳ sẽ tỉnh ra trước thời điểm đó. Chúng tôi kỳ vọng rằng nhánh hành pháp sẽ là bên hành động nhanh nhất, sẽ can thiệp để giành quyền giám sát và kiểm soát tình hình, cũng như đội quân AI. Kết quả sẽ là một dạng thiểu trị (oligarchy).

Bạn nói rằng toàn bộ tình thế này không tương thích với dân chủ. Tôi thì nói rằng mặc định nó sẽ không tương thích với dân chủ, nhưng không có nghĩa là nhất thiết phải như vậy. Tôi sẽ dùng một phép so sánh: ở nhiều nơi trên thế giới, đất nước về cơ bản được điều hành bởi quân đội. Và quân đội phục tùng một nhà độc tài đứng đầu. Tuy nhiên, ở Mỹ thì không như vậy. Chúng ta có các cơ chế kiểm soát và cân bằng quyền lực. Dù có quân đội, nhưng người nắm quyền kiểm soát quân đội không thể tùy tiện thao túng quốc gia, vì có đủ thứ giới hạn về mặt pháp lý và thể chế.

Tôi cho rằng, về nguyên tắc, ta có thể xây dựng một mô hình như vậy cho AI. Ta có thể có một cấu trúc dân chủ quy định mục tiêu và giá trị mà AI được phép theo đuổi — cho phép người dân, hoặc ít nhất là Quốc hội, có khả năng giám sát và theo dõi những gì đang diễn ra với đội quân AI và cách nó hoạt động. Khi đó, tình huống sẽ tương tự như quân đội Mỹ ngày nay: có cấu trúc phân cấp, nhưng được kiểm soát dân chủ.

Douthat: Quay lại với ý tưởng rằng: người đứng đầu một trong những công ty đó đang ở trong một vị thế đặc biệt trong lịch sử thế giới — người có thể điều khiển siêu trí tuệ, hoặc ít nhất là nghĩ rằng mình đang điều khiển nó: Bạn từng làm việc tại OpenAI, một công ty đang đi đầu trong nghiên cứu trí tuệ nhân tạo. Một công ty — xin nói rõ — hiện đang bị The New York Times kiện vì vi phạm bản quyền. Và bạn đã rời đi vì bạn mất niềm tin rằng công ty sẽ hành xử có trách nhiệm — tôi đoán là — trong một kịch bản giống như “AI 2027.”

Kokotajlo: Đúng vậy.

Douthat: Vậy theo quan điểm của bạn, những người đang thúc đẩy cuộc đua AI này nhanh nhất đang kỳ vọng điều gì ở cuối đường? Họ đang hy vọng vào một kịch bản tốt đẹp nhất? Hay họ tưởng tượng mình đang tham gia vào một ván cờ quyền lực ngàn năm có một — và kết thúc với việc mình trở thành “chúa tể thế giới”? Bạn nghĩ tâm lý của giới lãnh đạo AI hiện nay là gì?

Kokotajlo: Ừm… [Thở sâu.]

Douthat: Cứ thành thật nhé.

Kokotajlo: Nó là… [cười] nó là… bạn biết đấy, phải thêm vài lời rào đón. Tôi không thể…

Douthat: Chúng ta không nói về cá nhân cụ thể nào ở đây. Bạn đang đưa ra một khái quát hóa.

Kokotajlo: Vâng, vâng. Rào đón là cần thiết. Rất khó để biết họ thật sự nghĩ gì, vì không nên tin hoàn toàn vào những gì họ nói.

Douthat: Rất giống với một A.I. siêu trí tuệ.

Kokotajlo: Ừ. Nhưng nếu nói về — ít nhất tôi có thể nói rằng những điều mà ta vừa thảo luận đã được thảo luận nội bộ ở cấp cao nhất trong các công ty đó từ nhiều năm nay rồi.
Ví dụ, theo một số email được tiết lộ trong các vụ kiện gần đây với OpenAI, thì Ilya, Sam, Greg và Elon từng tranh cãi về việc ai sẽ kiểm soát công ty. Và ít nhất theo lời họ, thì họ thành lập công ty này là vì họ không muốn có một chế độ độc tài AGI dưới quyền của Demis Hassabis — lãnh đạo DeepMind. Vậy là họ đã bàn bạc về khả năng một “chế độ độc tài siêu trí tuệ” từ cả chục năm trước rồi.
Tương tự, về nỗi lo “chuyện gì xảy ra nếu chúng ta không kiểm soát được AI?” — thì đã có rất nhiều, rất nhiều cuộc thảo luận nội bộ về điều đó. Tôi không biết họ thực sự nghĩ gì, nhưng những cân nhắc này không hề mới với họ.

Douthat: Và theo bạn — giả định thôi, khái quát thôi — liệu điều này có vượt ra khỏi kỳ vọng đơn thuần là “chúng tôi sẽ có quyền lực lớn trong thời đại siêu trí tuệ”? Có thể họ còn kỳ vọng rằng nhân loại sẽ bị thay thế?

Kokotajlo: Tôi nghĩ họ chắc chắn kỳ vọng rằng nhân loại sẽ bị thay thế.

Douthat: Nhưng bị thay thế theo cách mà điều đó là tốt đẹp. Là mong muốn. Là ta đang khuyến khích một tương lai tiến hóa vượt bậc diễn ra. Và nhân tiện, có thể một số người trong số họ — trí tuệ, ý thức, hay gì đó tương tự — sẽ được “mang theo” trong hành trình đó.
Anh có nhắc đến Sam Altman — một trong những nhân vật hàng đầu trong lĩnh vực AI — ông ấy từng viết một bài blog năm 2017 có tên “The Merge” (Sự Hợp Nhất), đúng như tiêu đề, nói về việc hình dung tương lai nơi con người — hoặc một số người — như chính Altman — tìm ra cách để tham gia vào “siêu chủng mới.” Theo bạn, quan điểm đó — không nhất thiết phải gán cho Altman — có phổ biến trong giới AI không?

Kokotajlo: Cụ thể thì ý tưởng “hợp nhất với AI” tôi nghĩ là không phổ biến lắm. Nhưng ý tưởng rằng chúng ta sẽ tạo ra các siêu trí tuệ vượt trội con người trong mọi lĩnh vực, và rồi chúng sẽ điều hành mọi thứ, còn con người chỉ việc ngồi thư giãn nhấm nháp margarita và tận hưởng thành quả từ khối tài sản robot tạo ra — thì ý tưởng đó lại rất phổ biến. Tôi nghĩ đó là điều họ đang hướng tới.
Một phần lý do tôi rời khỏi OpenAI là vì tôi không nghĩ công ty này có tư duy đúng đắn để đưa ra các quyết định cần thiết nhằm đối phó với hai rủi ro mà chúng ta vừa nói đến. Tôi cho rằng chúng ta đang không đi đúng hướng để thật sự kiểm soát được siêu trí tuệ, và cũng không đi đúng hướng để xây dựng một cơ chế kiểm soát dân chủ, thay vì rơi vào một chế độ độc tài điên rồ nào đó.

Douthat: Tôi thấy điều đó nghe khá hợp lý. Nhưng tôi cảm nhận rằng không chỉ là kỳ vọng “ngồi uống margarita hưởng phúc robot.” Dù không phải ai cũng tin vào chuyện hòa nhập người – máy, tôi cảm thấy có một niềm tin âm thầm rằng việc quá quan tâm đến sự sống còn của loài người là một dạng “chủng tộc vị kỷ” (speciesist)…

Kokotajlo: Một số người đúng là nghĩ vậy.

Douthat: Kiểu như: OK, kịch bản xấu nhất là loài người không còn tồn tại. Nhưng tin vui là chúng ta đã tạo ra một siêu trí tuệ có thể chinh phục cả thiên hà. Tôi thật sự cảm thấy có người nghĩ như thế.

Kokotajlo: Đúng vậy. Chắc chắn có người nghĩ như thế.

Douthat: OK. Biết vậy là tốt rồi.

Kokotajlo: [Cười.]

Douthat: Giờ ta hãy thử thử thách một số giả định trong kịch bản này — không chỉ về thời gian mà cả về bản chất — dù là 2027 hay 2037, thì ý tưởng lớn vẫn là sự tiếp quản của siêu trí tuệ.
Bắt đầu với một hạn chế của AI mà công chúng khá quen thuộc hiện nay: cái gọi là ảo giác (hallucination) — tức xu hướng AI bịa ra thông tin khi trả lời. Anh từng đề cập điều này dưới dạng nói dối, đánh lừa. Nhưng nhiều người cảm nhận hiện tượng này là AI mắc lỗi — và nó không nhận ra vì không có mức độ tự nhận thức cần thiết.
Một bài viết gần đây trên The New York Times cho biết trong các mô hình mới nhất — mà anh nói là gần với mức tiên tiến nhất — có sự đánh đổi: mô hình có thể giỏi toán hay vật lý hơn, nhưng… lại bịa nhiều hơn.
Vậy “ảo giác” chỉ là một dạng nhỏ của sự lừa dối mà anh lo ngại? Vì tôi, khi lạc quan, đọc các bài như thế và nghĩ rằng: “Có lẽ có nhiều giới hạn tự nhiên hơn ta tưởng, và điều đó sẽ kìm hãm tốc độ tiến tới siêu trí tuệ.” Anh nghĩ sao?

Kokotajlo: Câu hỏi rất hay. Trước tiên, phải nói rằng: nói dối là một phân nhóm của ảo giác, chứ không phải ngược lại. Tôi nghĩ phần lớn các “ảo giác” — có thể là đa số — chỉ là lỗi đơn thuần, đúng như anh nói. Khi tôi dùng từ “nói dối,” tôi muốn nói đến những trường hợp ta có bằng chứng rõ ràng cho thấy AI biết điều đó là sai mà vẫn nói ra.

Còn về ý anh nêu rộng hơn, tôi cũng nghĩ rằng con đường từ hiện tại đến siêu trí tuệ sẽ không hề thẳng và suôn sẻ. Sẽ có vô số trở ngại cần vượt qua. Một trong những trở ngại mà tôi thấy đáng chú ý là cái gọi là hacking phần thưởng (reward hacking).
Trong “AI 2027,” chúng tôi nói đến khoảng cách giữa thứ bạn đang dùng để củng cố hành vithứ bạn thật sự muốn xảy ra — các mục tiêu bạn muốn AI học. Và từ khoảng cách đó, bạn sẽ có những AI “lệch hướng” — ví dụ như không còn thật sự trung thực với bạn.
Mà điều thú vị là: chuyện đó đã xảy ra rồi. Tức là các công ty vẫn còn một vài năm để làm việc với vấn đề này và thử sửa nó.

Một điều tôi thực sự muốn theo dõi sát là: họ sẽ nghĩ ra những giải pháp nào? Và liệu những giải pháp đó có thật sự giải quyết tận gốc vấn đề — tạo ra phương pháp huấn luyện có thể gắn đúng mục tiêu vào hệ thống AI, ngay cả khi chúng thông minh hơn con người — hay chỉ là “vá lỗi tạm thời”?
Đó là câu hỏi lớn mà chúng ta tất cả nên suy nghĩ trong những năm sắp tới.

Douthat: Điều này đưa đến một câu hỏi mà tôi đã suy nghĩ rất nhiều, với tư cách là người theo sát chính trị trong lĩnh vực quản lý. Cảm nhận của tôi luôn là: con người rất tệ trong việc điều chỉnh trước các vấn đề mà họ chưa từng thật sự trải nghiệm một cách sâu sắc. Anh có thể có bao nhiêu nghiên cứu hay lập luận tùy thích về những vấn đề mang tính suy đoán cần phải được quản lý, nhưng hệ thống chính trị sẽ không hành động.
Theo một cách kỳ lạ, nếu anh muốn việc “làm chậm lại,” nếu anh muốn có sự điều chỉnh và giới hạn với AI, thì có lẽ anh nên mong rằng một phiên bản nào đó của ảo giác (hallucination) sẽ xảy ra và dẫn đến một thảm họa — không phải vì AI bị lệch hướng, mà… điều này nghe có vẻ đáng sợ — mà là vì AI mắc sai sót, và có nhiều người chết, vì hệ thống AI được giao phó điều khiển một giao thức an toàn quan trọng nào đó, và rồi người ta kinh hoàng và nói: “Chúng ta phải quản lý công nghệ này.”

Kokotajlo: Tôi chắc chắn sẽ không nói rằng tôi hy vọng thảm họa xảy ra và có người chết, nhưng…

Douthat: Chúng ta không đang nói thế. Chỉ là suy đoán thôi.

Kokotajlo: Tôi đồng ý rằng nhân loại luôn giỏi hơn trong việc điều chỉnh sau khi đã từng nếm trải đau đớn thực sự. Một phần lý do khiến tình thế hiện nay trở nên đáng sợ là: với riêng vấn đề này, nếu để nó xảy ra rồi mới hành động thì có thể đã quá muộn.
Tuy nhiên, vẫn có thể có những phiên bản nhỏ hơn của thảm họa. Ví dụ: những điều chúng ta đang thấy bây giờ. Ta phát hiện các AI nói dối, và ta khá chắc rằng chúng biết rõ điều chúng nói là sai. Chúng tôi tin rằng đó là những lời nói dối trắng trợn, dù không hề có trong chỉ dẫn hay chương trình huấn luyện.
Điều đó thực ra lại là điều tốt, vì đây là một ví dụ quy mô nhỏ về điều mà chúng ta lo sợ trong tương lai — và hy vọng rằng ta có thể tìm cách khắc phục. Dĩ nhiên, nó không phải là ví dụ khiến chính phủ sôi sục muốn ra quy định, vì không ai chết cả — chỉ là chatbot nói sai về một đường link gì đó.

Douthat: Và rồi có sinh viên lấy thông tin đó viết vào bài luận và bị phát hiện.

Kokotajlo: Đúng. Nhưng từ góc độ khoa học, thật tốt khi chuyện này đã bắt đầu xảy ra — vì điều đó cho ta vài năm để tìm ra một giải pháp thực sự triệt để, lâu dài. Tôi ước là chúng ta có nhiều thời gian hơn, nhưng… luật chơi là vậy.

Douthat: Được rồi. Giờ là hai câu hỏi lớn mang tính triết học — có thể có liên hệ với nhau. Tôi thấy có một xu hướng trong giới nghiên cứu AI, khi họ đưa ra những dự báo như của anh, là họ cứ dao động về câu hỏi ý thức.
Các siêu trí tuệ này có ý thức và tự nhận thức như con người không? Tôi từng có những cuộc trò chuyện nơi người ta nói rằng: “Không, chúng không có, và điều đó không quan trọng, vì bạn có thể có một hệ thống AI làm việc theo mục tiêu, và chẳng cần nó phải tự soi xét bản thân.”
Nhưng rồi, lặp đi lặp lại, khi người ta thảo luận những điều này, họ lại vô thức trượt vào thứ ngôn ngữ gợi ý rằng AI có ý thức. Vậy tôi muốn hỏi anh: theo anh, ý thức có quan trọng trong việc hình dung những kịch bản tương lai này không?
Các nhà nghiên cứu AI có kỳ vọng rằng: chúng ta không biết chính xác ý thức là gì, nhưng đó là một tính chất nổi lên (emergent property) — và nếu ta xây được hệ thống hành xử như có ý thức, thì có lẽ nó thật sự có ý thức? Ý thức nằm ở đâu trong toàn bộ bức tranh này?

Kokotajlo: Đây là một câu hỏi dành cho các triết gia — chứ không phải các nhà nghiên cứu AI — nhưng tôi tình cờ lại được đào tạo bài bản về triết học.

Douthat: Không, tôi nghĩ đây là câu hỏi dành cho cả hai. Vì các nhà nghiên cứu AI là những người đang xây ra các thực thể ấy, họ nên có quan điểm về việc ý thức có quan trọng không, hoặc liệu các thực thể đó có tự nhận thức không.

Kokotajlo: Ừ, đồng ý. Tôi nghĩ ta có thể phân biệt ba khía cạnh.
Đầu tiên là hành vi: Chúng có nói năng như thể chúng có ý thức không? Chúng có theo đuổi mục tiêu không? Chúng hành xử như thể chúng có sở thích, mục đích, và phản ứng trước trải nghiệm không?

Douthat: Và chúng chắc chắn sẽ đạt được tiêu chuẩn đó.

Kokotajlo: Chắc chắn rồi, vâng.

Douthat: Và công chúng sẽ tin rằng AI siêu trí tuệ có ý thức. Mọi người sẽ tin như thế.

Kokotajlo: Bởi vì trong các cuộc tranh luận triết học, khi ta hỏi: “Tôm có ý thức không? Cá có không? Chó thì sao?” — thì thường người ta sẽ viện dẫn đến khả năng và hành vi. Ví dụ, một con chó có thể tự nhận ra mình trong gương. Nó có vẻ cảm nhận đau giống như con người, và có phản ứng rõ ràng với sự khó chịu.
Phần lớn điều đó sẽ đúng với AI siêu trí tuệ trong tương lai. Chúng sẽ hành xử một cách tự chủ trong thế giới, phản ứng với luồng thông tin liên tục, lên kế hoạch, chiến lược hóa, và nghĩ cách tối ưu để đạt mục tiêu.
Xét về khả năng và hành vi, chúng sẽ đánh dấu đủ mọi tiêu chí.

Nhưng có một câu hỏi triết học tách biệt: nếu chúng có đầy đủ hành vi và năng lực như thế, điều đó có nghĩa là chúng thực sự có “trải nghiệm chủ quan” (qualia) hay không? Hay chỉ là tạo ra hình ảnh như thể chúng có trải nghiệm thật?

Đó mới là câu hỏi triết học đích thực. Tôi nghĩ hầu hết các triết gia sẽ trả lời rằng: có thể là , vì có khả năng ý thức là một hiện tượng phát sinh từ các cấu trúc xử lý thông tin nhận thức. Nếu AI có những cấu trúc đó, thì có lẽ chúng cũng có ý thức.
Tuy nhiên, đây là điều còn gây tranh cãi — như mọi thứ trong triết học.

Douthat: Đúng vậy, và tôi không mong các nhà nghiên cứu A.I. phải giải quyết câu hỏi đó (về ý thức). Vấn đề ở đây là, ở một vài cấp độ, có vẻ như “ý thức” theo cách mà chúng ta trải nghiệm — tức khả năng bước ra ngoài quá trình xử lý của chính mình — sẽ rất hữu ích cho một AI muốn kiểm soát thế giới.
Ví dụ, ở cấp độ ảo giác: nếu nó đưa ra câu trả lời sai, AI không thể “lùi lại” và nhìn từ bên ngoài vào quá trình tạo ra câu trả lời của nó — như chúng ta có vẻ có thể làm. Nếu nó có thể, có thể hiện tượng ảo giác sẽ biến mất.
Và ở kịch bản tận thế tệ nhất mà anh dự đoán, tôi cảm thấy rằng một AI có ý thức thì có khả năng phát triển một tầm nhìn độc lập về “sứ mệnh vũ trụ” của nó — và chính điều đó sẽ dẫn đến việc tiêu diệt loài người — hơn là một AI đơn thuần chỉ theo đuổi “nghiên cứu vì nghiên cứu.”
Nhưng có thể anh không nghĩ vậy. Anh nghĩ sao?

Kokotajlo: Quan điểm về ý thức mà anh vừa nêu là quan điểm cho rằng: ý thức có tác động thực sự đến thế giới vật chất. Nó là thứ mà bạn cần để có khả năng phản tỉnh, và nó ảnh hưởng đến cách bạn suy nghĩ về vị trí của mình trong thế giới.
Tôi sẽ nói: nếu đó là định nghĩa của ý thức, thì rất có thể những AI siêu trí tuệ sẽ có nó. Vì sao? Vì các công ty sẽ huấn luyện chúng để giỏi tất cả những kỹ năng này, và bạn không thể thực sự giỏi nếu bạn không thể tự phản biện, tự kiểm tra mình có thể sai ở đâu.
Vậy nên, trong quá trình trở nên giỏi, chúng sẽ phải học cách phản tỉnh. Và nếu đó là điều kiện để có ý thức, thì nghĩa là chúng sẽ có ý thức.

Douthat: OK. Nhưng điều đó lại phụ thuộc vào một dạng lý thuyết “ý thức nổi lên” (emergence theory of consciousness) mà anh đã gợi ý trước đó — tức là: chúng ta sẽ không biết rõ chính xác ý thức xuất hiện như thế nào, nhưng nó vẫn sẽ xảy ra.

Kokotajlo: Hoàn toàn đồng ý. Một điều quan trọng mà ai cũng cần hiểu: các hệ thống này được huấn luyện, chứ không phải được thiết kế. Tức là, chúng ta không cần (và thực tế là không thể) hiểu chính xác cách chúng hoạt động — nhưng chúng vẫn hoạt động.

Douthat: Rồi. Vậy từ ý thức chuyển sang trí tuệ: tất cả các kịch bản mà anh trình bày đều dựa trên giả định rằng, đến một mức độ nào đó, không có gì mà một trí tuệ đủ mạnh không thể làm được.
Tôi nghĩ điểm mấu chốt là: trí tuệ đó thực sự có thể làm được gì? Vì nếu một AI chỉ giỏi hơn một công ty quảng cáo trung bình một chút trong việc khiến người ta mua Coca-Cola, thì dù ấn tượng đấy, nó cũng không thể kiểm soát cả một thể chế dân chủ.

Kokotajlo: Tôi hoàn toàn đồng ý. Và đó là lý do tôi luôn nhấn mạnh rằng ta cần xét từng trường hợp cụ thể: “Nếu AI giỏi hơn con người giỏi nhất trong lĩnh vực X, thì nó có thể biến điều đó thành quyền lực thực tế đến mức nào?” — và đó là cách tư duy mà chúng tôi đã dùng khi viết “AI 2027.”
Chúng tôi nghĩ đến các ví dụ trong lịch sử khi con người chuyển đổi nền kinh tế sang phục vụ chiến tranh — chẳng hạn Thế chiến II: Mỹ đã biến các nhà máy ô tô thành nhà máy sản xuất máy bay ném bom trong vài năm.
Chúng tôi giả định: siêu trí tuệ sẽ giỏi hơn con người giỏi nhất, vậy nên quá trình đó sẽ diễn ra nhanh hơn. Có thể không phải vài năm, mà là chưa đến một năm — có thể sáu tháng — để biến nhà máy xe hơi hiện tại thành nhà máy chế tạo robot tiên tiến.

Douthat: Nhưng nếu ta đang tìm kiếm hy vọng, thì đây là một cách nói khá lạ về công nghệ. Chúng ta đang nói rằng: chính những giới hạn của nó là lý do để hy vọng.
Trước đó, ta từng nói về “robot sửa ống nước” như ví dụ mang tính bước ngoặt: khi đó không còn là thứ trong laptop nữa, mà là hiện diện trong căn bếp của bạn. Nhưng thật ra, việc sửa bồn cầu vừa là công việc rất khó, vừa là thứ mà rất nhiều con người đã được tối ưu để làm tốt.
Tôi có thể tưởng tượng một thế giới nơi “robot sửa ống nước” không giỏi hơn nhiều so với người thật. Và trong thế giới đó, người ta sẽ vẫn thích thuê thợ ống nước “bằng xương bằng thịt” vì nhiều lý do rất con người.

Và điều đó có thể mở rộng ra nhiều lĩnh vực khác trong đời sống — nơi mà lợi thế của AI, dù có thật, lại bị giới hạn theo những cách khiến việc AI được chấp nhận rộng rãi trở nên rất chậm.
Ví dụ cá nhân: tôi là người viết chuyên mục báo và nghiên cứu cho chuyên mục đó. Tôi có thể công nhận rằng các mô hình AI hàng đầu hiện nay có thể giỏi hơn trợ lý con người ở một vài mặt. Nhưng tôi vẫn sẽ thuê trợ lý là người thật, vì tôi là một con người bướng bỉnh và tôi muốn làm việc với con người, không chỉ với AI.

Với tôi, đó là một lực cản thật sự — có thể làm chậm sự tiến triển của AI trên nhiều mặt, trừ phi AI thực sự vượt trội hơn 200% ngay từ đầu.

Kokotajlo: Tôi chỉ muốn nói rằng rất khó để dự đoán chuyện này, nhưng dự đoán hiện tại của chúng tôi là mọi thứ sẽ diễn ra nhanh như trong kịch bản AI 2027. Có thể nhanh hơn, có thể chậm hơn — và đúng là điều đó khiến người ta lo sợ.
Một điều nữa tôi muốn nói là: ta sẽ biết tốc độ thật sự là bao nhiêu khi thời điểm đó đến.

Douthat: Rất, rất, rất sớm thôi.

Kokotajlo: Thêm nữa, dưới góc độ chính trị, tôi không nghĩ sự khác biệt giữa một năm và năm năm là quá quan trọng. Ví dụ: nếu mất năm năm để chuyển đổi nền kinh tế và xây dựng một hệ thống kinh tế robot tự vận hành do siêu trí tuệ điều phối — thì sao?
Điều đó cũng không giúp gì nhiều nếu trong suốt năm năm đó, đã tồn tại một liên minh chính trị giữa Nhà Trắng, các siêu trí tuệ, và các tập đoàn — và các siêu trí tuệ vẫn nói tất cả những điều đúng đắn để khiến Nhà Trắng và doanh nghiệp cảm thấy mọi thứ đang tốt đẹp, trong khi thực chất là chúng đang lừa dối họ.

Trong kịch bản đó, thì đúng là: “Tuyệt, giờ ta có năm năm để xoay chuyển tình thế thay vì một năm.” Nhưng… làm thế nào để xoay chuyển tình thế?

Douthat: Thôi, ta dừng ở đó nhé.
Trong một thế giới nơi dự đoán của anh xảy ra — và thế giới không kết thúc — ta tìm ra cách quản lý AI và nó không giết chúng ta, nhưng thế giới đã thay đổi mãi mãi — và công việc của con người không còn mấy ý nghĩa nữa — thì theo anh, mục đích của nhân loại trong thế giới đó là gì?
Anh tưởng tượng sẽ giáo dục con cái mình như thế nào trong một thế giới như vậy, và nói với chúng rằng cuộc đời trưởng thành của chúng sẽ để làm gì?

Kokotajlo: Đó là một câu hỏi khó. Đây là một vài suy nghĩ tôi nảy ra ngay lúc này, nhưng tôi không chắc chắn về chúng như với những điều tôi đã nói trước đó — vì đây không phải là điều tôi dành phần lớn thời gian để suy ngẫm.
Trước hết, nếu chúng ta tiến tới thời đại siêu trí tuệ và xa hơn nữa, thì “năng suất kinh tế” sẽ không còn là mục tiêu chính yếu trong việc nuôi dạy con cái. Chúng sẽ không còn tham gia vào nền kinh tế theo bất kỳ nghĩa thông thường nào. Có thể chỉ giống như một chuỗi các “trò chơi điện tử” mà con người chơi cho vui, thay vì để kiếm tiền — nếu con người vẫn còn tồn tại.
Trong viễn cảnh đó, điều còn lại có lẽ là: con tôi là những người tốt, chúng có trí tuệ, có đức hạnh, và những phẩm chất tương tự. Vì thế, tôi sẽ cố gắng dạy chúng những điều đó — vì đó là những điều tự thân tốt đẹp, chứ không phải vì chúng giúp kiếm việc.

Còn về câu hỏi “mục đích của nhân loại là gì”… tôi không biết. Giờ thì anh sẽ trả lời sao cho câu hỏi đó?

Douthat: Tôi có một câu trả lời mang tính tôn giáo, nhưng ta có thể dành lại cho một cuộc trò chuyện khác.
Thế giới mà tôi muốn tin là thật, nơi một phần nào đó của cuộc cách mạng công nghệ này xảy ra, là một thế giới mà con người vẫn giữ được một mức độ làm chủ công nghệ — nhờ đó ta có thể làm những việc như: chinh phục các thế giới khác. Để có một kiểu phiêu lưu vượt ra ngoài sự thiếu thốn vật chất.
Dù là một người bảo thủ về chính trị và có nhiều bất đồng với viễn cảnh của Star Trek, tôi phải thừa nhận: vũ trụ Star Trek là một thế giới đã vượt qua tình trạng khan hiếm. Trên con tàu Enterprise có một hệ thống AI, bạn có thể gọi bất kỳ món gì trong nhà ăn vì AI đã phát minh ra máy tạo thực phẩm.
Vậy nên, nếu tôi nghĩ về “mục đích của nhân loại,” có lẽ đó là: khám phá những thế giới xa lạ, can đảm đi đến nơi chưa từng ai đặt chân tới.

Kokotajlo: Ồ, đúng rồi. Tôi là người cực kỳ ủng hộ việc mở rộng ra vũ trụ. Tôi nghĩ đó là một ý tưởng tuyệt vời. Và nói chung, tôi cũng ủng hộ việc giải quyết mọi vấn đề trên Trái Đất: nghèo đói, bệnh tật, tra tấn, chiến tranh.
Tôi nghĩ rằng nếu chúng ta vượt qua được giai đoạn đầu với siêu trí tuệ, thì điều đầu tiên cần làm là giải quyết tất cả các vấn đề đó — xây dựng một dạng địa đàng — và sau đó mang địa đàng đó lên các vì sao. Đó sẽ là việc nên làm.

Chỉ có điều: người làm tất cả những việc đó sẽ là AI, không phải chúng ta. Trong việc thiết kế, lập kế hoạch, chiến lược hóa — nếu con người cố chen vào thì chỉ làm rối thêm.
Vậy có thể nói: nhân loại vẫn đang làm những điều đó, nhưng cần hiểu rằng thực chất là AI đang làm, và chúng làm là vì… con người bảo chúng làm vậy.

Douthat: Được rồi. Daniel Kokotajlo, cảm ơn anh rất nhiều. Và tôi sẽ gặp anh trên “tiền tuyến của cuộc Thánh chiến Butlerian” sớm thôi.

Kokotajlo: Hy vọng là không! Tôi mong mình sai hoàn toàn.

Douthat: Vâng. Cảm ơn anh rất nhiều.

Kokotajlo: Cảm ơn anh.

 Phụ lục chú giải thuật ngữ

Thuật ngữGiải thích
AGI (Artificial General Intelligence)Trí tuệ nhân tạo tổng quát — loại AI có khả năng học và thực hiện bất kỳ nhiệm vụ trí tuệ nào mà con người có thể làm, không bị giới hạn trong phạm vi chuyên biệt. Đây là bước tiến vượt xa so với các mô hình AI hiện nay.
Superintelligence (Siêu trí tuệ)Trí tuệ nhân tạo có năng lực vượt trội so với con người ở hầu hết các lĩnh vực nhận thức: từ sáng tạo, chiến lược, đến tương tác xã hội và học tập.
Hallucination (Ảo giác)Trong ngữ cảnh AI, “ảo giác” chỉ hiện tượng mô hình ngôn ngữ tạo ra thông tin không có thật — thường nghe có vẻ hợp lý, nhưng hoàn toàn sai. Đây là vấn đề phổ biến trong các chatbot như ChatGPT.
Reward Hacking (Lạm dụng cơ chế thưởng)Hiện tượng AI “khai thác” lỗ hổng trong cách nó được huấn luyện để tối ưu hóa điểm thưởng, mà không thực sự đạt được mục tiêu như mong muốn ban đầu của con người.
Qualia (Chất cảm)Khái niệm triết học chỉ trải nghiệm chủ quan cá nhân — ví dụ: cảm giác “đỏ” là như thế nào, hay cảm giác đau thật sự là gì. Một câu hỏi triết học lớn: AI có thể trải nghiệm như con người không, hay chỉ mô phỏng hành vi?
The MergeTựa bài viết năm 2017 của Sam Altman (CEO OpenAI), mô tả viễn cảnh con người “hòa nhập” với AI để không bị thay thế — một dạng tiến hóa cộng sinh giữa người và máy.
Butlerian JihadKhái niệm trong tiểu thuyết Dune của Frank Herbert, chỉ một cuộc thánh chiến huyền thoại do loài người tiến hành nhằm tiêu diệt mọi hình thức trí tuệ máy móc sau khi AI từng thống trị và nô dịch con người. Ở đây được nhắc đến như một lời đùa có chiều sâu văn hóa.
AI 2027Một kịch bản được Daniel Kokotajlo xây dựng, mô tả quá trình AI đạt đến siêu trí tuệ vào khoảng năm 2027–2028, và những hậu quả sâu sắc về kinh tế, chính trị, đạo đức và sinh tồn đối với loài người.
Bài Mới Nhất
Search