Cách Các Thuật Toán Bí Mật Đằng Sau Mạng Xã Hội Thực Sự Vận Hành

DrAfter123—Getty Images

TIME: How the Secret Algorithms Behind Social Media Actually Work

(Chuyển ngữ tiếng Việt: Gemini; Hiệu đính (và chịu trách nhiệm): T.Vấn)

Cách Các Thuật Toán Bí Mật Đằng Sau Mạng Xã Hội Thực Sự Vận Hành

Tác Giả: Noah Giansiracusa

(Giansiracusa là tác giả của cuốn sách “Toán học Robin Hood: Làm Chủ Các Thuật Toán Chi Phối Cuộc Sống Của Bạn”.)

Bạn đã bao giờ tự hỏi các nền tảng mạng xã hội quyết định cách lấp đầy bảng tin của chúng ta như thế nào chưa? Tất nhiên, họ sử dụng thuật toán, nhưng những thuật toán này hoạt động ra sao? Một loạt các vụ rò rỉ nội bộ trong vài năm qua đã hé lộ một bức màn đáng kinh ngạc về những cỗ máy ẩn giấu đang vận hành mạng xã hội.

Vào tháng 1 năm 2021, một vài nhân viên của Facebook đã đăng một bài viết trên blog kỹ thuật của công ty nhằm giải thích thuật toán bảng tin, thứ quyết định vô số bài đăng có sẵn nào mà mỗi người dùng sẽ thấy và thứ tự của chúng. Bài viết này có một công thức trông rất “ngầu”, nhưng gần như không thể giải mã vì các tác giả đã không buồn giải thích một nửa số ký hiệu trong đó.

Khi lần đầu đọc bài blog đó, tôi cảm thấy mình giống như những người sống trong hang động trong câu chuyện ngụ ngôn nổi tiếng của Plato, nhìn thấy những cái bóng nhảy múa trên tường – những hình chiếu phẳng, vô hồn của một thế giới phong phú hơn tồn tại ngoài tầm mắt. Tôi biết công thức được che đậy kia không phải là toàn bộ câu chuyện, tôi chỉ không biết làm thế nào để ra khỏi hang và tìm thấy toán học thực sự đằng sau nó.

Tám tháng sau, Facebook bị chấn động bởi một trong những vụ bê bối lớn nhất từng xảy ra trong ngành công nghệ. Frances Haugen, một quản lý sản phẩm của Facebook đã trở thành người thổi còi, lén tuồn hơn mười nghìn trang tài liệu và tin nhắn nội bộ ra khỏi trụ sở Facebook. Cô ấy đã rò rỉ những tài liệu này cho một số cơ quan truyền thông.

Một loạt các câu chuyện sau đó đã được đăng tải, chủ yếu tập trung vào những tiết lộ đáng báo động và thu hút sự chú ý nhất. Các nghiên cứu nội bộ đã ghi nhận tác động có hại của Instagram đối với sức khỏe tinh thần của các cô gái tuổi teen dễ bị tổn thương. Một chương trình danh sách trắng bí mật đã miễn cho người dùng VIP khỏi hệ thống kiểm duyệt mà phần còn lại của chúng ta phải đối mặt. Mark Zuckerberg và các giám đốc điều hành khác được cho là không sẵn lòng ngăn chặn dòng nội dung cực đoan nguy hiểm được lan truyền trên nền tảng.

Will Oremus, một cây bút công nghệ của The Washington Post, đã gọi cho tôi và giải thích rằng ông ấy đang nhắm đến một thứ khác. Ông muốn vén bức màn về công thức trong bài blog kỹ thuật, và ông nhận ra rằng các tài liệu của Haugen chính là chìa khóa để làm điều đó.

Hóa ra, các kỹ sư Facebook đã gán một giá trị điểm cho mỗi loại tương tác mà người dùng có thể thực hiện trên một bài đăng (thích, bình luận, chia sẻ lại, v.v.). Với mỗi bài đăng có thể được hiển thị cho bạn, các giá trị điểm này sẽ được nhân với xác suất mà thuật toán nghĩ rằng bạn sẽ thực hiện loại tương tác đó. Các cặp số nhân này được cộng lại, và tổng số chính là điểm số cá nhân hóa của bài đăng đó dành cho bạn. Có một chút phức tạp hơn thế này, nhưng về cơ bản, bảng tin của bạn được tạo ra bằng cách sắp xếp các bài đăng theo các điểm số này, từ cao nhất đến thấp nhất.

Đây là cách nó trông như thế nào trong các ký hiệu. Giả sử chúng ta có một người dùng cụ thể và một bài đăng cụ thể, và chúng ta viết Plike​ cho xác suất người dùng thích bài đăng, Plove​ cho xác suất họ nhấn biểu tượng cảm xúc trái tim, Pangry​ cho xác suất họ nhấn biểu tượng cảm xúc giận dữ, Pcomment​ cho xác suất họ bình luận về bài đăng, và Pshare​ cho xác suất họ chia sẻ nó. (Có những loại tương tác khác, nhưng chúng ta hãy chỉ tập trung vào những cái này bây giờ.) Và chúng ta hãy viết Vlike​, Vlove​, v.v. cho các giá trị điểm được gán cho các tương tác này. Sau đó, công thức thần kỳ là:

Score=Vlike​×Plike​+Vlove​×Plove​+Vangry​×Pangry​+Vcomment​×Pcomment​+Vshare​×Pshare​

Ý tưởng là thuật toán muốn đưa lên những bài đăng mà bạn có khả năng tương tác cao nhất—nhưng có nhiều loại tương tác, không chỉ một. Sẽ không hợp lý nếu coi tất cả các loại tương tác đều như nhau; một lượt chia sẻ lại thực sự có vẻ là một tương tác mạnh mẽ hơn nhiều so với một lượt thích. Vì vậy, các loại tương tác khác nhau được gán trọng số khác nhau, và một tổng có trọng số kết hợp chúng thành một thước đo tổng thể về mức độ tương tác dự kiến.

Hãy thử với một vài con số cụ thể. Giả sử một lượt thích đáng giá một điểm, một biểu tượng cảm xúc trái tim đáng giá năm điểm, và một bình luận đáng giá ba mươi điểm. Và giả sử một người bạn của bạn đăng một bức ảnh về chú cún con mới nhận nuôi, trong khi một người bạn khác viết một bài đăng về một công việc mới mà họ vừa có. Bạn quý mến cả hai người bạn, nhưng thành thật mà nói: bạn hào hứng với chú cún hơn là công việc. Nếu có 50% khả năng bạn sẽ thích bức ảnh chú cún, 20% khả năng bạn sẽ “thả tim” và 10% khả năng bạn sẽ bình luận về nó, thì bài đăng về chú cún sẽ có điểm số là 1×0.5+5×0.2+30×0.1=4.5. Nếu có 20% khả năng bạn sẽ thích bài đăng thông báo công việc, 10% khả năng bạn sẽ “thả tim” và 5% khả năng bạn sẽ bình luận, thì điểm số của nó là 1×0.2+5×0.1+30×0.05=2.2. Bức ảnh chú cún thắng và được đặt cao hơn trong bảng tin của bạn so với thông báo công việc.

Bây giờ, giả sử cũng có một bài đăng của bác bạn tuyên bố sai sự thật rằng COVID là do cột sóng 5G gây ra. Chúng ta hãy cho 0% khả năng bạn sẽ thích hoặc “thả tim” bài đăng này. Nhưng bạn lại muốn viết một bình luận để nói với bác mình rằng ông ấy nói linh tinh, hoặc ít nhất là giải thích một cách lịch sự tại sao ông ấy sai. Hãy đặt xác suất bạn bình luận về bài đăng này là 20%. Khi đó, điểm số của nó là 1×0+5×0+30×0.2=6, lớn hơn 4.5. Vì vậy, trước khi bạn thấy bài đăng về chú cún làm bạn vui và bài đăng về công việc làm bạn hơi ghen tị, bạn sẽ thấy một bài đăng về thuyết âm mưu COVID làm bạn sôi máu. Facebook không cố làm bạn tức giận, nhưng thuật toán đã tìm ra loại bài đăng nào sẽ giữ chân bạn tương tác.

Các giá trị V trong công thức, tức là giá trị điểm của tương tác, nằm ngoài tầm kiểm soát của bạn. Nhưng bạn có thể ảnh hưởng đến P, ước tính về xác suất tương tác của bạn. Nếu bạn có xu hướng tương tác với các bài đăng về ẩm thực, thì theo thời gian, thuật toán sẽ tăng xác suất tương tác ước tính của bạn đối với các bài đăng đó. Nếu bạn muốn có nhiều nội dung về ẩm thực hơn trong bảng tin, hãy cứ thích, “thả tim”, bình luận và chia sẻ. Nếu bạn không muốn nội dung đó, đừng tương tác với nó.

Mọi thứ trở nên tinh vi hơn với những bài đăng khó chịu, đặc biệt là những bài làm bạn tức giận hoặc xúc phạm. Hãy nghĩ theo cách này. Khi bạn tranh luận với bác mình, bạn đang cho các bài đăng về thuyết âm mưu COVID của bác ấy 30 điểm cho mỗi bình luận bạn để lại – bất kể bình luận của bạn mang tính chỉ trích như thế nào – và những điểm này sẽ đẩy tất cả các bài đăng khác về thuyết âm mưu COVID của bác ấy lên cao hơn trong bảng tin của bạn. Trên thực tế, những điểm này sẽ đẩy các bài đăng về thuyết âm mưu COVID của bác ấy lên cao hơn trong bảng tin của mọi người, bởi vì thuật toán đủ thông minh để nhận ra rằng nếu bạn có xu hướng bình luận về những bài đăng này, thì những người bạn khác của bác ấy cũng vậy. Tệ hơn nữa, thuật toán liên kết nội dung về thuyết âm mưu COVID với các nội dung âm mưu khác, vì vậy khi bác bạn đăng một liên kết về Trái đất phẳng, thuật toán về bản chất sẽ nghĩ: “Họ đã bình luận về những bài đăng âm mưu khác, nên tôi cá là họ cũng sẽ bình luận về cái này.”

Mọi chuyện chưa dừng lại ở đó. Thuật toán suy luận chính xác rằng nếu bạn có khả năng bình luận về nội dung âm mưu của bác bạn, thì bạn cũng có khả năng bình luận về nội dung âm mưu của những người dùng khác. Cuối cùng, nỗ lực đáng ca ngợi của bạn để giáo dục bác mình bằng một bình luận được lựa chọn cẩn thận lại phản tác dụng và ra hiệu cho thuật toán nâng cao tất cả nội dung âm mưu trong bảng tin của bạn và, ở mức độ nhỏ hơn nhưng không đáng kể, trong bảng tin của những người dùng khác. Ồ.

TikTok cũng sử dụng một thuật toán để quyết định video nào trong số hàng tỷ video trên nền tảng sẽ hiển thị cho mỗi trong số một tỷ người dùng của nó. Nó hoạt động như thế nào? The New York Times đã săn lùng câu trả lời và có được một tài liệu nội bộ có tiêu đề “TikTok Algo 101” do một nhóm kỹ sư TikTok viết. Trong một bài báo tháng 12 năm 2021, The New York Times đã viết rằng tài liệu này bao gồm một “phương trình gần đúng để chấm điểm video…: Plike​×Vlike​+Pcomment​×Vcomment​+Eplaytime​×Vplaytime​+Pplay​×Vplay​”. Mặc dù bài báo không thực sự giải thích công thức này hoặc các ký hiệu trong đó, nhưng nó đủ tương tự với công thức của Facebook để chúng ta có thể tự tìm ra.

Chắc chắn, Plike​ là xác suất ước tính người dùng nhấn nút thích hình trái tim trên video, trong khi Vlike​ là giá trị điểm mà các kỹ sư đã gán cho loại tương tác này. Tương tự với Pcomment​, việc bình luận trên video, và Pplay​, việc xem video. Tôi khá chắc chắn rằng Eplaytime​ là số giây mà thuật toán dự đoán người dùng sẽ xem video, và Vplaytime​ là giá trị điểm cho biết mỗi giây xem đáng giá bao nhiêu điểm. Nếu, giả sử, một bình luận đáng giá hai mươi điểm và một giây xem đáng giá hai điểm, thì 50% khả năng bình luận sẽ được tính tương đương với năm giây xem dự kiến.

Tài liệu bí mật của TikTok tiếp tục giải thích rằng “hệ thống đề xuất chấm điểm cho tất cả các video dựa trên phương trình này, và trả lại cho người dùng các video có điểm số cao nhất.” Nghe quen không? Vâng, thuật toán “đọc tâm trí” của TikTok, về mặt toán học cốt lõi, gần như giống hệt với thuật toán của Facebook. Cả hai đều xếp hạng các bài đăng/video theo một tổng có trọng số của mức độ tương tác mà chúng được dự đoán sẽ tạo ra từ người dùng.

Bạn đã bao giờ thấy một video TikTok có văn bản phủ lên trên nói những câu như “Đợi đã,” “Bạn sẽ không tin điều gì xảy ra đâu,” hoặc “Bạn phải xem đến cuối haha”? Những cụm từ này có xu hướng làm tăng thời gian xem dự kiến cho hầu hết người dùng, vì vậy đó là một mánh khóe rẻ tiền để tăng điểm số của video. Một số người đăng video mà thực sự không có gì xảy ra, nhưng họ lừa bạn xem nhiều lần, từ đó tích lũy được nhiều giây xem dự kiến hơn. Phép toán rất đơn giản: nếu thuật toán nghĩ bạn sẽ xem một video mười giây ba lần, đó là ba mươi giây thời gian xem dự kiến.

Nếu bạn không thích một video vì bất kỳ lý do gì, hãy giới hạn thời gian xem của bạn. Điều quan trọng là, hãy chống lại sự thôi thúc xem lại nó vì bực bội hoặc ghê tởm. Và đừng nhượng bộ cám dỗ bình luận. Bình luận và số giây đã xem, bất kể chất lượng và loại nào, đều nói với thuật toán của TikTok một điều: “Hãy cho tôi thêm nhiều video giống như thế này.”

Vào tháng 3 năm 2023, Elon Musk đã cho đăng một phần lớn mã nguồn của X (lúc đó là Twitter) lên mạng. Bạn có ngạc nhiên không khi biết rằng nền tảng này xếp hạng các bài đăng bằng cách sử dụng một tổng có trọng số của các xác suất tương tác ước tính? Dù có sự cạnh tranh gay gắt giữa các gã khổng lồ công nghệ để xây dựng nền tảng mạng xã hội tốt nhất, hóa ra Facebook, TikTok và Twitter đều chạy trên cùng một công thức toán học đơn giản. Tôi nghĩ rằng có thể chắc chắn rằng tất cả các nền tảng khác được thúc đẩy bởi tương tác người dùng cũng vậy. Tổng có trọng số của các xác suất tương tác là công thức chủ đạo đang điều khiển mạng xã hội.

Bài học lớn nhất của tôi từ công thức này và sự phổ biến của nó là người dùng có thể tạo ra các bảng tin mạng xã hội lành mạnh hơn, nhưng điều đó đòi hỏi sự kiềm chế và ý thức.

Hãy tưởng tượng có một cửa hàng KFC ở thị trấn của bạn, và một lần sau một ngày làm việc căng thẳng, bạn đầu hàng trước cám dỗ và đến đó để ăn tối cho tiện. Ngày hôm sau, KFC đó bí ẩn di chuyển gần nhà bạn hơn một dãy nhà. Bây giờ, sự tiện lợi và sức hấp dẫn còn lớn hơn, vì vậy bạn đến đó thường xuyên hơn. Nhưng mỗi lần bạn đến, KFC lại di chuyển gần nhà bạn hơn nữa. Chẳng mấy chốc nó đã ở cuối con phố của bạn và trở thành một phần thói quen hàng tuần. Cuối cùng, KFC nằm ngay cạnh nhà bạn, và bạn đang ăn gà rán thường xuyên hơn bất kỳ người bình thường nào nên ăn. Bạn không tự hào về điều đó, nhưng làm sao bạn có thể cưỡng lại khi KFC là thứ đầu tiên bạn nhìn thấy (và ngửi thấy) vào buổi sáng và là thứ cuối cùng trước khi đi ngủ vào ban đêm?

Đây là cách các thuật toán mạng xã hội hoạt động. Chúng đưa những thứ chúng ta tương tác lại gần hơn và gần hơn. Một khi chúng ta bắt đầu nhấp vào cái tương đương với đồ ăn vặt trên mạng xã hội, chúng ta sẽ được phục vụ nhiều hơn, điều đó khiến việc cưỡng lại trở nên khó khăn hơn. Vì vậy, chúng ta nhấp vào nó nhiều hơn và thuật toán càng quảng bá nó mạnh mẽ hơn trong bảng tin của chúng ta. Đó là một vòng luẩn quẩn có thể nhanh chóng biến bảng tin của chúng ta thành những luồng rác rưởi kỹ thuật số không bao giờ dứt. Biết được làm thế nào và tại sao vòng luẩn quẩn này xảy ra là bước đầu tiên để ngăn chặn nó. Chỉ cần nhớ: các công ty công nghệ chọn các V trong công thức mạng xã hội, nhưng các P được định hình bởi hành động trực tuyến của bạn.

Noah Giansiracusa

Bài Mới Nhất
Search