Các mô hình AI thông minh vẫn phải ‘bó tay’ trước bài kiểm tra của SEC

Thứ Ba, 26/12/2023 10:25

Công ty khởi nghiệp Patronus AI nhận thấy, các mô hình AI đang gặp khó khăn khi phải đọc những hồ sơ của Ủy ban Chứng khoàn và Giao dịch Mỹ (SEC).

Theo nhận định của Patronus AI, tỷ lệ trả lời đúng khi sử dụng cấu hình mô hình trí tuệ nhân tạo hoạt động tốt nhất như GPT-4-Turbo của OpenAI vẫn chỉ đạt 79%, mặc dù đã đọc toàn bộ hồ sơ và thường xuyên gặp tình trạng “ảo giác” những số liệu hay sự kiện không có thật.

Anand Kannappan, người đồng sáng lập Patronus AI, cho biết: “Tỷ lệ hiệu suất như vậy hoàn toàn không chấp nhận được. Để có thể tự động hóa và sản xuất, tỷ lệ trả lời đúng cần phải cao hơn nhiều.”

Phát hiện này nêu bật một số thách thức mà các mô hình trí tuệ nhân tạo phải đối mặt khi các công ty lớn, đặc biệt là trong những ngành được quản lý chặt chẽ như tài chính, tìm cách tích hợp công nghệ tiên tiến vào hoạt động của họ, dù đó là dịch vụ khách hàng hay nghiên cứu.

Việc có khả năng trích xuất nhanh chóng và phân tích báo cáo tài chính được xem là một trong những ứng dụng hứa hẹn nhất cho chatbot kể từ khi ChatGPT được giới thiệu vào cuối năm trước. Nếu bot có thể tóm tắt chính xác hoặc trả lời nhanh các câu hỏi về nội dung trong hồ sơ của SEC chứa dữ liệu quan trọng thì nó có thể sẽ giúp người dùng có lợi thế trong ngành tài chính cạnh tranh.

Trong thời gian gần đây, Bloomberg LP đã phát triển một mô hình trí tuệ nhân tạo của riêng mình cho dữ liệu tài chính, các giáo sư tại các trường kinh doanh đã nghiên cứu về khả năng của ChatGPT trong việc phân tích các tiêu đề tài chính.

JPMorgan cũng không kém cạnh, họ đã phát triển một công cụ đầu tư tự động được hỗ trợ bởi trí tuệ nhân tạo. Theo dự báo mới nhất của McKinsey, sức mạnh của trí tuệ nhân tạo có thể thúc đẩy ngành ngân hàng thêm hàng nghìn tỷ đô la mỗi năm.

AI gặp khó ngay ở trong khâu tổng hợp số liệu. — *AI gặp khó ngay ở trong khâu tổng hợp số liệu*.

Tuy nhiên, chặng đường phát triển này vẫn còn nhiều thách thức. Khi Microsoft lần đầu tiên giới thiệu Bing Chat tích hợp công nghệ GPT của OpenAI, họ sử dụng chatbot này để tóm tắt nhanh thông cáo báo chí về thu nhập. Tuy nhiên, những người quan sát nhanh chóng nhận thấy rằng các con số mà trí tuệ nhân tạo đưa ra không chính xác, thậm chí bịa đặt.

Một phần của thách thức khi tích hợp mô hình ngôn ngữ Lớn (LLM) vào các sản phẩm thực tế là thuật toán không mang tính xác định, có nghĩa là chúng không đảm bảo sẽ cho ra kết quả giống nhau dù có đầu vào tương tự. Điều này đồng nghĩa với việc các công ty cần kiểm tra nghiêm ngặt kết quả để đảm bảo rằng trí tuệ nhân tạo đang hoạt động chính xác, không lạc đề và cung cấp kết quả đáng tin cậy.

Patronus AI đã xây dựng một bộ dữ liệu được gọi là FinanceBench, bao gồm hơn 10.000 câu hỏi và câu trả lời được trích xuất từ hồ sơ của SEC từ các công ty giao dịch đại chúng lớn. Tập dữ liệu này không chỉ chứa các câu trả lời chính xác mà còn bao gồm cả vị trí của chúng trong bất kỳ tệp cụ thể nào để dễ dàng truy cập.

Đáng chú ý, không phải tất cả các câu trả lời có thể được trích xuất trực tiếp từ văn bản mà một số câu hỏi yêu cầu tính toán hoặc lý luận nhẹ nhàng.

Tham gia bài kiểm tra tập con 150 câu hỏi có bốn mô hình LLM: GPT-4 và GPT-4-Turbo của OpenAI, Claude 2 của Anthropic và LLama 2 của Meta.

Kết quả là khi được cấp quyền truy cập vào hồ sơ cơ bản của SEC, mô hình GPT-4-Turbo của OpenAI chỉ đạt tỷ lệ chính xác là 85% (so với 88% trả lời sai khi không được truy cập dữ liệu) dù con người đã trỏ chuột đến chính xác đoạn văn bản để trí tuệ nhân tạo tìm kiếm câu trả lời.

Mô hình LLama 2 là một mô hình AI nguồn mở có mức độ “ảo giác” cao nhất, với tỷ lệ 70% câu trả lời sai và chỉ có 19% câu trả lời đúng khi được cấp quyền truy cập vào một phần của các tài liệu cơ bản.

Claude 2 của Anthropichoạt động tốt khi được đưa ra “bối cảnh dài”, trong đó hầu hết nội dung câu hỏi liên quan đến hồ sơ SEC. Mô hình này có thể trả lời đúng 75% số câu hỏi được đặt ra với tỷ lệ 21% câu trả lời sai và 3% câu hỏi bị từ chối. GPT-4-Turbo cũng cho thấy hiệu suất tích cực khi đặt trong ngữ cảnh dài, với tỷ lệ 79% câu hỏi được trả lời đúng và 17% câu trả lời sai.