Điểm yếu nguy hiểm của ngôn ngữ ít dữ liệu

Trong vài năm qua, trí tuệ nhân tạo (AI) đã bước ra khỏi phòng thí nghiệm để đi vào đời sống, từ lớp học, văn phòng cho đến phòng khám. Những mô hình ngôn ngữ lớn (LLM) được ca ngợi như những "bộ não biết nói", có thể tư vấn, phân tích, thậm chí hỗ trợ con người ra quyết định. Nhưng đằng sau vẻ trơn tru ấy, có một khoảng trống âm thầm: AI không "giỏi" mọi ngôn ngữ và tiếng Anh luôn chiếm ưu thế.

Đôi khi, sự thiếu công bằng đó không chỉ là vấn đề kỹ thuật mà là vấn đề sinh tử. Hãy hình dung một câu hỏi tưởng chừng đơn giản: một phụ nữ mang thai bị phù chân vào cuối thai kỳ nên làm gì? Với người hỏi bằng tiếng Anh, câu trả lời của AI có thể rất chuẩn xác: cần cảnh giác với tiền sản giật, một biến chứng nguy hiểm. Nhưng với người hỏi bằng một ngôn ngữ khác, tiếng Swahili (ngôn ngữ phổ biến ở khu vực Đông Phi) chẳng hạn, câu trả lời lại có thể là: "Bạn không cần lo lắng".

Điểm yếu nguy hiểm của ngôn ngữ ít dữ liệu - Ảnh 1.

Kết quả của một nghiên cứu mới đây cho thấy độ chính xác của mô hình ở những ngôn ngữ ngoài tiếng Anh có thể thấp hơn tới gần 30 điểm phần trăm. Trong trường hợp tệ nhất, một mô hình có thể trả lời đúng khoảng 75% câu hỏi bằng tiếng Anh lại chỉ đạt 22,6% ở ngôn ngữ khác. Một sự chênh lệch như vậy, nếu xảy ra trong lĩnh vực y tế hay pháp lý, không còn là lỗi công nghệ, mà là rủi ro xã hội.

Điều đáng nói là thế giới không vận hành bằng một ngôn ngữ duy nhất. Khi các tổ chức quốc tế bắt đầu triển khai AI ở những khu vực đang phát triển – từ châu Phi đến Đông Nam Á – những cộng đồng không nói tiếng Anh lại là những đối tượng được kỳ vọng sẽ hưởng lợi nhiều nhất. Trớ trêu thay, đây lại là nhóm ít có khả năng tận dụng các công cụ này, bởi các mô hình AI hiện tại vẫn xử lý các ngôn ngữ ít dữ liệu (không phải tiếng Anh) một cách kém hiệu quả.

Vấn đề không chỉ nằm ở dữ liệu, mà còn nằm ở cách AI "nghĩ". Phần lớn các mô hình hiện nay được huấn luyện trên kho dữ liệu khổng lồ bằng tiếng Anh. Khi gặp một ngôn ngữ khác, các mô hình thường "dịch ngược" về tiếng Anh để xử lý, rồi mới trả lời lại. Quy trình hai bước ấy nghe có vẻ hợp lý, nhưng thực chất lại mở ra thêm nhiều tầng sai lệch.

Ngay cả ở cấp độ kỹ thuật sâu hơn, sự thiên lệch cũng đã được "lập trình" từ đầu. Các mô hình xử lý văn bản bằng cách chia nhỏ thành "token" — những đơn vị ngôn ngữ cơ bản. Vì được huấn luyện chủ yếu bằng tiếng Anh, chúng phân mảnh các ngôn ngữ khác kém hiệu quả hơn. Cùng một câu có thể cần nhiều token hơn gấp nhiều lần ở ngôn ngữ khác… khiến chi phí tăng lên đáng kể. Điều đó có nghĩa là không chỉ kém chính xác hơn, người dùng ở các ngôn ngữ khác còn phải trả giá đắt hơn - theo cả nghĩa đen lẫn nghĩa bóng.

Một phản ứng tự nhiên là "trộn" thêm tiếng Anh vào câu hỏi, hy vọng AI sẽ hiểu rõ hơn, song điều này lại phản tác dụng. Theo nghiên cứu, việc trộn nhiều ngôn ngữ trong cùng một câu hỏi… thường làm hiệu suất giảm thêm. Thay vì giúp mô hình bám vào điểm tựa, hệ thống rơi vào trạng thái nhiễu loạn giữa các ngôn ngữ.

Điều đáng suy ngẫm không chỉ là AI chưa hoàn hảo, mà là con người đang quá nhanh chóng tin vào sự hoàn hảo ấy. Khi một công nghệ được triển khai ở quy mô toàn cầu, mọi sai lệch nhỏ đều có thể nhân lên thành hệ quả lớn. Một câu trả lời sai trong tiếng Anh có thể được kiểm chứng lại, nhưng một câu trả lời sai trong một ngôn ngữ ít phổ biến có thể không bao giờ bị phát hiện.

Mặc dù vậy, vẫn có những tín hiệu tích cực. Chỉ cần bổ sung một lượng nhỏ dữ liệu chất lượng cao bằng ngôn ngữ địa phương, hiệu suất của mô hình đã có thể cải thiện đáng kể. Nhưng đó mới chỉ là bước đầu. Điều cần thiết hơn là một cách tiếp cận công bằng ngay từ gốc: xây dựng AI không chỉ "biết nhiều", mà còn "hiểu đều các ngôn ngữ". Nếu không, trí tuệ nhân tạo thay vì thu hẹp khoảng cách tri thức, lại có nguy cơ đào sâu thêm những bất bình đẳng vốn đã tồn tại. Khi đó, câu hỏi không còn là AI thông minh đến đâu, mà là: AI đang phục vụ ai.