Khả năng AI phân tích tài liệu khoa học

PV 14/11/2024 | 08:16 In bài viết

0:00 / 0:00

0:00

(Ngày Nay) - Khi còn là nghiên cứu sinh ngành thần kinh học, Sam Rodriques đã nhận ra một giới hạn cơ bản của khoa học. Ngay cả khi các nhà nghiên cứu đã tạo ra đủ thông tin để hiểu về tế bào hay bộ não con người, "chúng ta có thể vẫn chưa nhận ra điều đó", anh nói, "bởi không ai có khả năng đọc và hiểu hết tất cả tài liệu để có cái nhìn toàn diện."

Thu hút các tài năng khoa học hàng đầu thế giới đến Việt Nam

InnovaConnect - Cầu nối thu hẹp khoảng cách giữa khoa học Việt với thế giới

Năm năm sau, Rodriques cho biết anh đã tiến gần hơn đến việc giải quyết vấn đề này nhờ trí tuệ nhân tạo (AI). Vào tháng 9/2023, nhóm của anh tại công ty khởi nghiệp FutureHouse (Mỹ) đã công bố một hệ thống AI có thể tổng hợp kiến thức khoa học chính xác hơn cả Wikipedia chỉ trong vài phút. Nhóm đã nhanh chóng tạo ra các bài viết kiểu Wikipedia về khoảng 17.000 gen của người, trong đó đa số trước đây chưa có trang chi tiết.

Công cụ tìm kiếm thông minh

Các công cụ tìm kiếm khoa học được hỗ trợ AI như Consensus và Elicit đang ngày càng phổ biến. Chúng hoạt động bằng cách chuyển đổi câu hỏi của người dùng thành tìm kiếm tự động trên các cơ sở dữ liệu học thuật như Semantic Scholar và PubMed, sau đó trả về kết quả phù hợp nhất.

Mô hình ngôn ngữ lớn (LLM) sẽ tóm tắt từng nghiên cứu và tổng hợp chúng thành câu trả lời có trích dẫn nguồn; người dùng có nhiều tùy chọn để lọc công trình họ muốn đưa vào. "Chúng trước hết là công cụ tìm kiếm," Aaron Tay, người đứng đầu dịch vụ dữ liệu tại Đại học Quản lý Singapore nhận định.

Tuy nhiên, các chuyên gia cũng cảnh báo rằng việc yêu cầu ChatGPT hay các chatbot AI viết tổng quan tài liệu học thuật là một ý tưởng ngây thơ và thiếu khôn ngoan.

"Những mô hình này có thể dựa vào cả nghiên cứu có uy tín lẫn các blog thiếu chính xác mà không có sự phân biệt về chất lượng", Iain Marshall từ Đại học King's College London nhận định.

Một cách tiếp cận tiên tiến hơn là tải trước một bộ tài liệu đã được chọn lọc vào LLM và yêu cầu nó phân tích. Phương pháp này giúp giảm thiểu việc "ảo tưởng" - tạo ra thông tin sai lệch, dù vẫn không thể ngăn chặn hoàn toàn.

Thách thức trong tổng hợp có hệ thống

Các đánh giá tổng quan có hệ thống (systematic review) - tiêu chuẩn vàng trong tổng hợp nghiên cứu - là thách thức lớn nhất. Quy trình này đòi hỏi tối thiểu 25 bước kỹ lưỡng, từ tìm kiếm tài liệu đến sàng lọc, trích xuất dữ liệu và đánh giá độ tin cậy.

Giáo sư Paul Glasziou, chuyên gia về đánh giá có hệ thống tại Đại học Bond (Úc) cho rằng: "Chúng ta chắc chắn sẽ đạt được việc tự động hóa hoàn toàn quy trình này. Tôi chỉ không chắc liệu phải mất 10 năm hay 100 năm."

Rủi ro tiềm ẩn

Tự động hóa việc tổng hợp thông tin cũng tiềm ẩn rủi ro. Các nhà nghiên cứu đã biết từ nhiều năm nay rằng nhiều bài tổng quan có hệ thống bị trùng lặp hoặc chất lượng kém, và AI có thể làm trầm trọng thêm những vấn đề này.

GS Glasziou nhìn nhận tình hình như một cán cân hai lực: công cụ AI có thể giúp các nhà khoa học tạo ra những bài tổng quan chất lượng cao, nhưng cũng có thể thúc đẩy việc tạo ra những bài kém chất lượng một cách nhanh chóng. "Tôi không biết tác động thực sự đến các tài liệu được công bố sẽ như thế nào", ông nói.

Một số chuyên gia cho rằng khả năng tổng hợp và hiểu biết tri thức của thế giới không nên chỉ nằm trong tay các công ty vì lợi nhuận thiếu minh bạch. Justin Clark, người phát triển công cụ tự động hóa tổng quan, muốn thấy các tổ chức phi lợi nhuận xây dựng và kiểm tra kỹ lưỡng các công cụ AI. "Chúng tôi chỉ muốn thận trọng và cẩn thận", Clark nói. "Chúng tôi muốn đảm bảo rằng những câu trả lời mà công nghệ giúp cung cấp là chính xác".

AI Khoa học