MIT: Các mô hình ngôn ngữ lớn không hoạt động giống con người
Các mô hình ngôn ngữ lớn (LLMs) là công cụ mạnh mẽ,ácmôhìnhngônngữlớnkhônghoạtđộnggiốngconngườtin nhanh 24/7 có khả năng thực hiện nhiều nhiệm vụ khác nhau: từ hỗ trợ sinh viên soạn thảo email đến giúp bác sĩ lâm sàng chẩn đoán ung thư. Tuy nhiên, tính đa năng của các mô hình này cũng khiến cho việc đánh giá chúng khó khăn hơn, vì không thể tạo ra một bộ dữ liệu chuẩn cho tất cả loại câu hỏi mà một mô hình có thể gặp phải.
Để giải quyết vấn đề này, các chuyên gia từ MIT đã nghiên cứu một phương pháp đánh giá mới. Họ cho rằng: việc đánh giá một LLM cần phải dựa trên cách con người hình thành niềm tin về khả năng của mô hình đó.

Nghiên cứu của MIT tập trung vào việc phát triển một khung đánh giá dựa trên sự phù hợp của niềm tin của con người về khả năng của LLM trong thực hiện các nhiệm vụ cụ thể. Họ mô tả cách con người cập nhật niềm tin của mình về khả năng của LLM sau khi tương tác với nó. Các nhà nghiên cứu phát hiện rằng: khi LLM không đáp ứng kỳ vọng của con người, người dùng có thể trở nên quá tự tin hoặc thiếu tự tin về việc sử dụng chúng, dẫn đến hiệu suất kém trong các tình huống quan trọng.
Tổng quát hóa con người
Nghiên cứu do GS. Ashesh Rambachan - giáo sư trợ giảng kinh tế tại Phòng thí nghiệm Hệ thống Thông tin và Quyết định của MIT (LIDS) và các cộng sự thực hiện đã chỉ ra rằng: sự tổng quát hóa của con người - tức là khả năng dự đoán hiệu suất của một LLM dựa trên các phản hồi trước đó - rất quan trọng để đánh giá đúng khả năng của mô hình. Họ đã tạo ra một bộ dữ liệu gồm gần 19.000 ví dụ để đo lường cách con người tổng quát hóa về hiệu suất của các LLM trên 79 nhiệm vụ khác nhau.

Kết quả cho thấy, con người thường tổng quát hóa tốt hơn với các mô hình. Nhưng họ gặp khó khăn khi đánh giá hiệu suất của LLM. Các thí sinh khảo sát có xu hướng dự đoán hiệu suất của LLM kém chính xác hơn so với việc đánh giá hiệu suất của con người. GS. Rambachan cho rằng: “Sự tổng quát hóa của con người có thể bị phá vỡ khi áp dụng cho LLMs, vì các mô hình này không thể hiện các mẫu chuyên môn rõ ràng như con người”.
Đo lường sự không phù hợp
Con người cũng có xu hướng điều chỉnh niềm tin của họ về LLM khi mô hình trả lời sai hơn khi nó trả lời đúng. Nhiều người cũng cho rằng, hiệu suất của LLM trên các câu hỏi đơn giản không ảnh hưởng nhiều đến hiệu suất của nó trên các câu hỏi phức tạp hơn. Trong những tình huống sự phản hồi không chính xác được coi trọng, các mô hình đơn giản có thể vượt qua các mô hình tinh vi như GPT-4.

Một lý do cho sự kém hiệu quả trong việc tổng quát hóa các LLM là do những mô hình này còn mới mẻ, và con người có ít kinh nghiệm tương tác nó hơn so với việc tương tác người - người. GS. Rambachan cho rằng, việc tương tác nhiều hơn với LLM có thể giúp cải thiện khả năng tổng quát hóa của con người về chúng. Nghiên cứu hướng đến có thể cải thiện về niềm tin của con người khi tương tác với LLM và cách tổng quát hóa có thể được tích hợp vào việc phát triển các LLM.
Bài nghiên cứu nhấn mạnh rằng, để huấn luyện và điều chỉnh các LLM hiệu quả, cần phải xem xét cách con người tổng quát hóa về các mô hình này. Bộ dữ liệu các nhà nghiên cứu tạo ra có thể trở thành tiêu chuẩn để so sánh hiệu suất của các LLM liên quan đến hàm tổng quát hóa của con người, từ đó giúp cải thiện mô hình trong các tình huống thực tế.
Alex Imas - giáo sư khoa học hành vi và kinh tế tại Trường Kinh doanh Booth của Đại học Chicago cho rằng, nghiên cứu của MIT có 2 đóng góp quan trọng. Thứ nhất, nó nêu bật vấn đề khi triển khai LLM cho các mục đích chung, nếu người dùng không hiểu rõ khi nào LLM sẽ chính xác hay thất bại, họ có thể gặp khó khăn trong việc tiếp tục sử dụng chúng. Thứ hai, nghiên cứu cung cấp cái nhìn sâu sắc về cách các mô hình xử lý các vấn đề và cho thấy liệu LLM có "hiểu" các vấn đề mà chúng giải quyết hay không.
(Theo: MIT News)
-
Nhận định, soi kèo U21 Bristol City vs U21 Hull City, 20h00 ngày 1/4: Điểm tựa sân nhàSinh viên vào vai giám đốc ngân hàngGiáo viên quốc phòng chép 100% bài của nhauSao Việt 11/7: Sau 2 năm, Ốc Thanh Vân vẫn chưa nguôi nỗi đau mất chaNhận định, soi kèo Bistrica vs Koper, 21h00 ngày 1/4: Khó có bất ngờNaver và Đại học Bách khoa Hà Nội sắp công bố quả 5 công trình nghiên cứuHiệu trưởng bị cảnh cáo vì bắt chước nguyên thủ quốc giaSao Việt 5/7: Vợ cũ Việt Anh trách nhiều người bạc như vôi khi chăm con ốmNhận định, soi kèo Hapoel Beer Sheva vs Maccabi Tel Aviv, 00h30 ngày 1/4: Gánh nặng cửa trênCấp bách đổi mới đào tạo người thầy
下一篇:Siêu máy tính dự đoán Nottingham vs MU, 2h00 ngày 2/4
- ·Nhận định, soi kèo Henan FC vs Qingdao West Coast, 18h00 ngày 1/4: Bất phân thắng bại
- ·Con gái đầu của nghệ sĩ Công Lý đỗ Đại học Sân khấu Điện ảnh
- ·Vì sao 95 tuổi, mới được phong danh hiệu NGND?
- ·Mỹ điều tra tác hại tiêu cực tiềm ẩn từ TikTok đối với giới trẻ
- ·Nhận định, soi kèo Latvia
- ·PTIT và Qualcomm hợp tác nghiên cứu trong các lĩnh vực 5G, AI, IoT
- ·Nhật Kim Anh nói về vụ bị trộm 5 tỷ đồng: 'Chúng tẩu tán hết rồi'
- ·‘Đường tăng’ Văn Chương ly dị sau khi bị tẩy chay vì ngoại tình
- ·Nhận định, soi kèo Spartak Varna vs Botev Vratsa, 20h15 ngày 1/4: Khó tin cửa trên
- ·SGK tiếng Anh: 'Làm ầm ĩ là...không biết gì'
- ·Ứng dụng AI trong bảo hiểm rơi vỡ màn hình điện thoại tại Việt Nam
- ·Sở TT&TT Hà Nội phạt tạp chí điện tử Môi trường xây dựng 100 triệu đồng
- ·Soi kèo góc Hellas Verona vs Parma, 23h30 ngày 31/3
- ·Ai cũng hay Lệ Quyên giàu nhưng không nghĩ kho kim cương lại hoành tráng thế này!
- ·Tranh luận hai bộ quản dạy nghề
- ·Thương Tín: Đời oan trái, U60 đi xe bus, tá túc chỗ rẻ kiếm tiền nuôi vợ con
- ·Nhận định, soi kèo Fauve Azur Elite vs Panthere, 22h00 ngày 31/3: Tin vào chủ nhà
- ·Game 300475 về chiến tranh Việt Nam lần đầu lộ diện sau 1 năm gây quỹ
- ·Giảng viên ĐH Hồng Đức và trường chuyên Lam Sơn bị bắt
- ·Bí mật thành lập công đoàn đòi tăng lương, nhân viên Apple dùng Android
- ·Nhận định, soi kèo Real Madrid vs Leganes, 3h00 ngày 30/3: Nhọc nhằn vượt ải
- ·Thành lập trung tâm kiểm định chất lượng giáo dục ở TP.HCM
- ·Cuộc sống khó hiểu của tỷ phú công nghệ Elon Musk
- ·Hướng dẫn định danh điện tử người nước ngoài
- ·Nhận định, soi kèo GAIS vs AIK Solna, 0h100 ngày 1/4: Đầu xuôi đuôi lọt
- ·Á hậu bị ép đóng cảnh nóng đổi đời nhờ danh xưng MC sexy nhất mạng xã hội
- ·Nhận định, soi kèo Wolves vs West Ham, 1h45 ngày 2/4: Sức nặng của Búa tạ
- ·1 tỷ đồng tiếp sức ‘phụ nữ VN tự tin tiến bước’
- ·49 học sinh trở lại trường sau 1 năm nghỉ học
- ·Bài văn tả thầy giáo cũ đạt điểm 10
- ·Nhận định, soi kèo Esenler Erokspor vs MKE Ankaragucu, 21h00 ngày 31/3: Trả nợ lượt đi
- ·Hoa hậu Tiểu Vy hóa cô dâu đẹp như mộng bên Á hậu Phương Nga, Thúy An
- ·“Đã đi dạy thì phải xứng đáng là người đi dạy”
- ·Cô giáo tiểu học đi trước quy định của Bộ
- ·Soi kèo góc Real Madrid vs Leganes, 3h00 ngày 30/3
- ·Giảng viên ĐH Hồng Đức và trường chuyên Lam Sơn bị bắt