Phát hiện hàng nghìn trích dẫn giả trong các bài báo khoa học, nghi do AI 'bịa'

Một nghiên cứu công bố trên Tạp chí The Lancet phát hiện hơn 4.000 tài liệu tham khảo không có thật trong 2.810 bài báo y sinh học. Các nhà nghiên cứu cho rằng phần lớn số trích dẫn giả này có thể bắt nguồn từ hiện tượng 'ảo giác' của AI.

04/06/2026 20:39

Một nghiên cứu mới phát hiện hàng nghìn tài liệu tham khảo không có thật trong các bài báo khoa học, làm dấy lên lo ngại về hiện tượng 'ảo giác' của AI. Ảnh minh họa: Getty

Một nhóm nghiên cứu đến từ Đại học Columbia (Mỹ) và Đại học Đông Phần Lan vừa công bố kết quả khảo sát quy mô lớn về tình trạng xuất hiện các tài liệu tham khảo giả mạo trong các bài báo khoa học y sinh học.

Theo nghiên cứu được đăng tải dưới dạng thư gửi Tạp chí The Lancet, nhóm tác giả đã phát hiện 4.046 tài liệu tham khảo không tồn tại trong 2.810 bài báo khoa học được xuất bản từ năm 2023 đến đầu năm 2026.

Để thực hiện nghiên cứu, các nhà khoa học đã xây dựng một hệ thống tự động kiểm tra tài liệu tham khảo dựa trên AI. Hệ thống này được sử dụng để rà soát hơn 2,47 triệu bài báo cùng hơn 125 triệu trích dẫn có trong cơ sở dữ liệu PubMed Central.

Các tài liệu tham khảo được đối chiếu với nhiều cơ sở dữ liệu học thuật lớn như PubMed, Crossref, OpenAlex và Google Scholar. Những tài liệu không thể xác minh được sự tồn tại được xếp vào nhóm tài liệu tham khảo giả mạo.

Kết quả cho thấy tình trạng này gia tăng nhanh chóng trong những năm gần đây. Năm 2023, trung bình cứ khoảng 2.828 bài báo mới xuất hiện một bài có chứa ít nhất một tài liệu tham khảo giả.

Đến năm 2025, tỷ lệ này tăng lên mức 1/458 bài báo. Trong những tuần đầu năm 2026, con số tiếp tục tăng lên khoảng 1/277 bài báo.

Nhóm nghiên cứu nhận định sự gia tăng này có thể liên quan đến việc ngày càng nhiều tác giả sử dụng các công cụ AI tạo sinh trong quá trình viết bài.

Một trường hợp đáng chú ý được phát hiện trong nghiên cứu là một bài báo về lĩnh vực ung thư công bố năm 2025, trong đó có tới 18 trong tổng số 30 tài liệu tham khảo được xác định là không tồn tại, tương đương 60% số trích dẫn của bài viết.

Ngoài ra, các nhà nghiên cứu còn ghi nhận 246 bài báo khác chứa từ ba tài liệu tham khảo giả trở lên. Một số nhóm tác giả được xác định có nhiều công trình xuất hiện các trích dẫn không có thật trên cùng một tạp chí khoa học.

Theo nhóm nghiên cứu, hiện chưa thể khẳng định tất cả các trường hợp đều là hành vi cố ý. Tuy nhiên, một giả thuyết được nhiều chuyên gia đồng tình là các trích dẫn giả có thể bắt nguồn từ hiện tượng 'ảo giác AI' – khi các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Claude hay các công cụ tương tự tạo ra thông tin nghe có vẻ hợp lý nhưng thực tế không tồn tại.

Các mô hình này hoạt động bằng cách dự đoán chuỗi từ có khả năng xuất hiện tiếp theo dựa trên lượng dữ liệu khổng lồ đã được huấn luyện. Vì vậy, chúng có thể tạo ra tên bài báo, tên tác giả hoặc tài liệu tham khảo rất thuyết phục nhưng hoàn toàn không có thật nếu người sử dụng không kiểm chứng lại.

Các chuyên gia cảnh báo đây có thể trở thành một thách thức lớn đối với hệ thống xuất bản khoa học. Trong bối cảnh số lượng bài báo tăng nhanh, nguồn lực phản biện hạn chế và ngày càng nhiều nhà nghiên cứu sử dụng AI để hỗ trợ viết bài, nguy cơ xuất hiện các thông tin sai lệch trong các công trình khoa học được dự báo sẽ tiếp tục gia tăng.

Một số nhà nghiên cứu cho rằng giải pháp khả thi trong tương lai là sử dụng chính AI để kiểm tra và phát hiện các nội dung giả mạo do AI tạo ra. Tuy nhiên, hiệu quả của các công cụ này vẫn cần được đánh giá thêm.

Nghiên cứu mới một lần nữa cho thấy AI đang mang lại cả cơ hội lẫn thách thức cho hoạt động nghiên cứu khoa học.

Trong khi các công cụ trí tuệ nhân tạo có thể hỗ trợ đáng kể cho quá trình tổng hợp và xử lý thông tin, việc kiểm chứng dữ liệu và trách nhiệm học thuật vẫn là yêu cầu không thể thay thế đối với các nhà khoa học.

Theo ĐỨC AN/baovanhoa.vn