QIMMA LLM leaderboard theo nguyên tắc “validate trước, evaluate sau”

DEV Community

David Chan

Apr 23, 2026, 12:12 AM

Giới thiệu Trong vài năm gần đây, số lượng benchmark và leaderboard cho mô hình ngôn ngữ tiếng Ả Rập tăng nhanh. Nhưng cũng như nhiều hệ đánh giá trong giai đoạn bùng nổ LLM, tốc độ mở rộng thường đi trước độ chặt chẽ của dữ liệu. Hệ quả là không ít bảng xếp hạng trông rất thuyết phục, nhưng nếu soi kỹ, điểm số của model đôi khi phản ánh lỗi benchmark nhiều không kém gì phản ánh năng lực thật. QIMMA xuất hiện như một phản biện trực diện cho vấn đề đó. Đây không chỉ là một Arabic LLM leaderboard mới, mà là một evaluation framework theo hướng quality-first: kiểm định chất lượng benchmark trước khi dùng benchmark để chấm model. Cách tiếp cận này đặc biệt hữu ích nếu bạn đang: huấn luyện hoặc fine-tune Arabic LLM, chọn model cho sản phẩm Arabic NLP, so sánh tác động của instruction tuning, đánh giá hiệu quả của model specialization theo miền. Một leaderboard thiếu kiểm định có thể khiến bạn đi đến quyết định sai: chọn nhầm mô hình, tối ưu sai năng lực, hoặc đánh giá sai tác động thật của dữ liệu và prompt. Một vấn đề phổ biến của nhiều benchmark Arabic là chúng được tạo bằng cách dịch từ bộ dữ liệu tiếng Anh, thay vì được viết gốc trong tiếng Ả Rập. Trên lý thuyết, cách này giúp mở rộng coverage nhanh. Nhưng trong thực tế, nó tạo ra nhiều hệ quả: Translation artifacts khiến câu hỏi trở nên gượng ép hoặc mất tự nhiên. Ý nghĩa dễ bị lệch khi dịch các khái niệm văn hóa, pháp lý hoặc xã hội. Phân phối ngôn ngữ không còn phản ánh cách người dùng Arabic thực sự hỏi hoặc diễn đạt. Dữ liệu thường nghiêng về Modern Standard Arabic (MSA) theo kiểu máy móc, trong khi ứng dụng thực tế còn cần hiểu phương ngữ và sắc thái bản ngữ. Khi đem những benchmark như vậy đi đánh giá model, ta dễ rơi vào bẫy quen thuộc: mô hình đạt điểm cao vì giỏi đoán theo cấu trúc bản dịch, chứ không hẳn vì hiểu tiếng Ả Rập tốt hơn. Ngay cả benchmark native Arabic cũng chưa chắc đáng tin nếu thiếu khâu kiểm định. QIMMA chỉ ra nhiều lỗi rất thực tế: Gold answer sai Đánh nhãn không nhất quán Mismatch giữa đáp án vàng và metric Lỗi encoding hoặc formatting Mẫu bị trùng Text hỏng hoặc khó đọc Thiên kiến văn hóa trong nội dung Đây không phải lỗi nhỏ. Với benchmark trắc nghiệm hoặc QA, chỉ cần một tỷ lệ nhỏ gold label sai cũng đủ làm méo thứ hạng giữa các model có hiệu năng sát nhau. Một leaderboard chỉ thật sự hữu ích khi cộng đồng có thể audit nó. Nhiều hệ đánh giá hiện nay thiếu một hoặc nhiều thành phần sau: script đánh giá công khai, cấu hình prompt chuẩn hóa, per-sample inference outputs, cách xử lý exception hoặc mapping label. Nếu thiếu các thành phần này, việc tái lập gần như bất khả thi. Trong nghiên cứu học thuật, đây là lỗ hổng nghiêm trọng. Trong doanh nghiệp, đây là rủi ro vận hành: bạn không biết mình đang tin vào một hệ đo đáng tin hay chỉ vào một bản demo đẹp. Đây là luận điểm cốt lõi của QIMMA: Nếu benchmark có lỗi hệ thống, leaderboard cũng sai theo cách có hệ thống. Vấn đề không nằm ở việc có thêm bao nhiêu model trên bảng xếp hạng, mà nằm ở việc thước đo có đủ đáng tin để xếp hạng hay không. Phần lớn leaderboard hiện nay đi theo quy trình quen thuộc: Gom benchmark Chuẩn hóa script Chạy model Xếp hạng QIMMA thêm một bước quan trọng ngay từ đầu: Gom benchmark Kiểm định chất lượng từng mẫu Làm sạch hoặc hiệu chỉnh benchmark Chuẩn hóa đánh giá Chạy model Xếp hạng Nghe có vẻ chỉ thêm một bước, nhưng về phương pháp luận thì khác biệt rất lớn. Trọng tâm chuyển từ “chạy được nhiều benchmark” sang “đảm bảo benchmark xứng đáng để chạy”. QIMMA khác nhiều leaderboard Arabic hiện nay ở 5 điểm chính: Quality-first evaluation thay vì benchmark-first 99% native Arabic content Có pipeline benchmark validation trước evaluation Công khai code đánh giá Có public per-sample outputs Nếu nhiều leaderboard chỉ là một bảng điểm tổng hợp, QIMMA gần hơn với một governance layer cho Arabic LLM evaluation. Con số 99% native Arabic content không chỉ để đẹp về mặt thống kê. Đây là quyết định chiến lược vì nó: giảm phụ thuộc vào dữ liệu dịch, bám sát hơn với ngữ cảnh sử dụng thật, đặc biệt quan trọng trong các miền như văn hóa, pháp lý, y khoa, thơ ca và văn học. Ở các miền này, dịch thuật dễ làm mất nghĩa nhất. Bài học này không chỉ đúng với tiếng Ả Rập, mà còn đúng với hầu hết ngôn ngữ ngoài tiếng Anh có nền văn hóa và hệ quy chiếu ngữ nghĩa mạnh. QIMMA không phải một bộ benchmark nhỏ thiên về curated examples. Nó có quy mô đủ lớn để trở thành một leaderboard nghiêm túc: 109 subsets 14 source benchmarks Hơn 52.000 samples Điểm đáng chú ý là QIMMA cố cân bằng giữa scale và quality control, thay vì hy sinh một bên cho bên còn lại. Bộ đánh giá trải trên 7 domains: Cultural STEM Legal Medical Safety Poetry & Literature Coding Cách chia này hữu ích hơn kiểu gom benchmark rời rạc, vì nó giúp người dùng trả lời các câu hỏi rất thực tế như: Mô hình nào phù hợp cho chatbot giáo dục Arabic? Mô hình nào mạnh hơn trong legal QA? Mô hình nào tốt ở tri thức tổng quát nhưng yếu ở văn hóa và văn học Arabic? QIMMA bao phủ ba kiểu nhiệm vụ chính: MCQ QA sinh tự do hoặc có ngữ cảnh Code generation Đây là cách chia thiết thực. Một leaderboard chỉ đo MCQ thường nghiêng về recall hoặc lựa chọn đáp án. Khi thêm QA sinh tự do và coding, bức tranh về năng lực mô hình sát thực tế hơn đáng kể. Trong coding benchmark, vấn đề cốt lõi thường không nằm ở test harness hay execution semantics, mà nằm ở cách diễn đạt đề bài bằng tiếng Ả Rập. Vì vậy, QIMMA không xử lý benchmark code giống QA hoặc MCQ. Đây là một quyết định đúng về mặt kỹ thuật: sửa đúng tầng gây nhiễu, không động vào phần vẫn đáng tin. Đây là phần tạo giá trị lớn nhất cho QIMMA. QIMMA dùng hai mô hình mạnh để kiểm tra độc lập từng mẫu: Qwen3-235B-A22B-Instruct DeepSeek-V3-671B Việc dùng dual-LLM screening giúp giảm rủi ro của mô hình judge đơn lẻ. Nếu chỉ dùng một evaluator model, pipeline dễ bị ảnh hưởng bởi bias, lỗi đọc ngữ cảnh hoặc giới hạn riêng của model đó. Mỗi mẫu được chấm theo rubric 10 tiêu chí, dạng nhị phân 0/1. Quy tắc lọc: Nếu một trong hai model chấm dưới 7/10, mẫu bị gắn cờ. Nếu cả hai model đồng thuận loại, mẫu bị loại ngay. Nếu chỉ một model gắn cờ, mẫu được chuyển sang human review. Đây là cách đặt ngưỡng khá hợp lý: đủ nghiêm để lọc lỗi, nhưng không cực đoan đến mức loại bỏ mẫu chỉ vì một tín hiệu bất thường nhỏ. Những mẫu gây tranh cãi được chuyển cho chuyên gia bản ngữ tiếng Ả Rập xem xét. Đây là bước khó tự động hóa hoàn toàn, vì nhiều trường hợp liên quan đến: sắc thái diễn đạt, khác biệt vùng miền, phương ngữ, mức độ tự nhiên, tính phù hợp văn hóa. Ở Arabic, human review không chỉ xử lý ambiguity, mà còn phải giải quyết dialectal variation và cultural interpretation. QIMMA làm đúng ở một điểm quan trọng về ngôn ngữ học: Arabic không phải một không gian ngôn ngữ đơn nhất. Một câu trả lời có thể: hợp lý ở một vùng, kém tự nhiên ở vùng khác, hoặc dùng phương ngữ thay vì MSA. Nếu evaluator bỏ qua thực tế này, benchmark sẽ vô tình phạt những đáp án đúng trong ngữ cảnh bản ngữ nhưng không khớp với kỳ vọng cứng của dataset. Kết quả kiểm định cho thấy lỗi benchmark không hề ngẫu nhiên. Một số bộ dữ liệu có tỷ lệ mẫu bị loại đáng kể: ArabicMMLU: 14.163 mẫu, loại 436 mẫu, tương đương 3,1% MizanQA: 1.769 mẫu, loại 41 mẫu, tương đương 2,3% PalmX: 0,8% MedAraBench: 0,7% FannOrFlop: 0,6% Một số benchmark sạch hơn đáng kể: GAT 3LM STEM AraDiCE-Culture ArabLegalQA AraTrust Con số 3,1% nghe có thể không lớn, nhưng trong đánh giá model hiện đại, chênh lệch vài điểm phần trăm đôi khi đủ để đảo vị trí top models. QIMMA phân loại lỗi theo một taxonomy khá hữu ích. Sai gold index Đáp án vàng không khớp Đáp án chứa thông tin sai factual Thiếu answer hoặc để raw text không chuẩn Văn bản hỏng Lỗi chính tả hoặc ngữ pháp nghiêm trọng Trùng lặp mẫu Formatting không hợp lệ Củng cố định kiến Gom cộng đồng Arabic đa dạng thành một thực thể đồng nhất Đáp án vàng không tương thích với giao thức đánh giá Nhãn đúng không khớp với cách metric đọc nhãn Điểm hay của taxonomy này là nó tách bạch bản chất lỗi: Lỗi factual: nội dung sai sự thật Lỗi protocol: nội dung có thể đúng nhưng sai cách mã hóa hoặc cách chấm Lỗi văn hóa: dữ liệu thiếu nhạy cảm ngữ cảnh hoặc thiếu trung tính Trong thực tế xây benchmark, ba loại lỗi này cần ba chiến lược xử lý khác nhau. Nhiều nhóm nghiên cứu tập trung sửa factual error nhưng lại bỏ qua protocol mismatch, trong khi chính lỗi protocol rất dễ phá hỏng pipeline evaluation. Đây là một quyết định cốt lõi trong benchmark curation. Nên loại mẫu khi: gold label không còn cứu được, nội dung hỏng nặng, mẫu mâu thuẫn với chính định nghĩa task, tồn tại bias hoặc ambiguity không thể giải quyết nhất quán. Nên sửa mẫu khi: lỗi chủ yếu nằm ở wording, có thể hiệu chỉnh mà vẫn giữ nguyên bản chất task, test harness hoặc answer space vẫn ổn định. QIMMA áp dụng nguyên tắc này khá tốt, đặc biệt với coding benchmark. Với QA hay MCQ, khi câu hỏi hoặc gold answer có vấn đề, loại mẫu thường là cách an toàn. Nhưng với benchmark code, điều cần giữ nguyên là: task identifier, reference solution, test suite, execution semantics. Nếu chỉ problem statement tiếng Ả Rập viết chưa tốt, loại cả sample sẽ lãng phí. QIMMA chọn hướng hợp lý hơn: giữ nguyên phần kiểm thử, chỉ chỉnh lại mô tả bài toán. Hai benchmark được xử lý theo cách này là: 3LM HumanEval+ 3LM MBPP+ Nguyên tắc áp dụng: Giữ nguyên task identifier Giữ nguyên reference solution Giữ nguyên test suite Chỉ chỉnh Arabic problem statement Đây là quyết định đúng theo góc nhìn software evaluation và LLM inference benchmarking. Nó duy trì tính so sánh giữa các model, đồng thời giảm nhiễu ở lớp ngôn ngữ mô tả. QIMMA chia việc chỉnh sửa prompt code thành 5 nhóm: Linguistic refinement Clarity improvements Consistency normalization Structural corrections Semantic refinements Nếu từng làm việc với benchmark lập trình đa ngôn ngữ, bạn sẽ thấy đây là các lỗi rất phổ biến. Chỉ một problem statement hơi tối nghĩa cũng có thể làm model sinh sai hoàn toàn, dù năng lực giải bài toán vẫn đủ tốt. Tỷ lệ chỉnh sửa prompt là rất cao: HumanEval+: 145/164 prompt, tương đương 88% MBPP+: 308/378 prompt, tương đương 81% Đây là tín hiệu rất đáng chú ý. Nó cho thấy trong coding benchmark tiếng Ả Rập, nút thắt chính không nằm ở bài toán lập trình cốt lõi mà nằm ở lớp diễn đạt ngôn ngữ. Nếu không xử lý điểm này, ta rất dễ kết luận sai rằng model coding yếu, trong khi thực ra model đang vấp ở phần hiểu đề. QIMMA tận dụng các công cụ đã có chỗ đứng trong cộng đồng: LightEval EvalPlus FannOrFlop Lợi ích của lựa chọn này: không phải xây mọi thứ từ đầu, tăng khả năng tái lập, dễ kiểm toán, thuận lợi cho việc mở rộng. Một hệ đánh giá tốt không nhất thiết phải phát minh toàn bộ framework mới; điều quan trọng là ghép đúng công cụ, chuẩn hóa quy trình và công khai đủ các lớp xử lý. QIMMA không áp một metric duy nhất cho mọi benchmark. Đây là lựa chọn đúng đắn: MCQ → Normalized Log-Likelihood Accuracy Multi-select MCQ → Probability Mass on Gold Choices Generative QA → F1 BERTScore (AraBERT v02) Code → Pass@1 Điểm đáng khen là họ tránh lạm dụng exact match cho QA tiếng Ả Rập. Trong một ngôn ngữ có nhiều biến thể biểu đạt như Arabic, exact match thường quá cứng và dễ đánh giá thấp những câu trả lời đúng về nghĩa. QIMMA chuẩn hóa prompting thành 6 dạng: MCQ MCQ-C MCQ-I QA QA-C QA-F Prompt normalization giúp giảm phương sai không cần thiết giữa các benchmark. Nếu mỗi bộ dữ liệu có một prompt format khác nhau, rất khó biết model đang thắng vì năng lực thật hay chỉ vì hợp prompt hơn. Hai benchmark là ngoại lệ: MizanQA ArabCulture Chúng giữ system prompt gốc từ paper ban đầu. Đây là một thỏa hiệp hợp lý, vì ở một số benchmark, prompt bản thân nó là một phần của thiết kế task. Chuẩn hóa quá tay trong trường hợp này đôi khi lại làm mất tính nhất quán với công bố gốc. Top 3 trên leaderboard tại thời điểm bài viết: Qwen/Qwen3.5-397B-A17B-FP8 — 68,06 Applied-Innovation-Center/Karnak — 66,20 inceptionai/Jais-2-70B-Chat — 65,81 Khoảng cách giữa các model top không quá lớn. Điều này càng nhấn mạnh vì sao benchmark cleanliness quan trọng: chỉ một lượng nhỏ sample lỗi cũng có thể làm đổi thứ hạng. Kết quả cho thấy các Arabic-specialized models có lợi thế rõ ở những tác vụ gắn với: văn hóa, ngôn ngữ, sắc thái diễn đạt, tri thức đặc thù Arabic. Ví dụ: Jais-2-70B-Chat mạnh trên ArabicMMLU và ArabCulture Karnak dẫn đầu ở 3LM STEM và ArabLegalQA Với các sản phẩm phục vụ người dùng Arabic bản địa, đây là tín hiệu rất thực tế: một model multilingual lớn chưa chắc là lựa chọn tối ưu nếu thiếu specialization phù hợp. Ở mảng coding, các mô hình multilingual vẫn thể hiện ưu thế rõ hơn. Ví dụ: Qwen3.5-397B dẫn đầu nổi bật ở các benchmark code Điều này không quá bất ngờ. Coding là miền mà dữ liệu huấn luyện thường có tính toàn cầu cao; phần lớn ngữ cảnh lập trình, tài liệu kỹ thuật và pattern lập trình vẫn xoay quanh tiếng Anh. Tóm gọn: Arabic specialization giúp mạnh hơn ở ngôn ngữ và văn hóa Multilingual scale vẫn rất hiệu quả ở coding Trên tập 46 models, tác giả ghi nhận: có tương quan dương giữa model size và performance, nhưng tương quan này không tuyến tính. Một số quan sát đáng chú ý: model chuyên cho Arabic có thể vượt model multilingual cùng cỡ, instruction-tuned models thường tốt hơn base models, một số model nhỏ hơn vẫn thắng model lớn ở domain cụ thể. Đây là kết luận có giá trị thực tiễn cao. Trong bối cảnh triển khai LLM thực tế, năng lực không chỉ đến từ số tham số, mà còn đến từ specialization, instruction tuning, data quality và cách benchmark được xây dựng. QIMMA gửi đi một thông điệp rõ ràng: trong Arabic NLP, benchmark governance không còn là việc phụ. Nó cần được xem là một phần cốt lõi của hệ đánh giá. Chúng ta đã đầu tư rất nhiều vào: pretraining, fine-tuning, alignment, serving infrastructure, inference optimization, quantization và deployment. Nhưng nếu benchmark đầu vào thiếu chất lượng, toàn bộ nỗ lực đó vẫn có thể bị đánh giá sai. Một leaderboard thực sự hữu ích nên cho phép cộng đồng truy ngược tới từng mẫu. Public per-sample outputs là bước tiến quan trọng vì nó giúp: kiểm tra failure modes, xác minh kết quả bất thường, so sánh model ở cấp độ ví dụ, phát hiện lỗi benchmark còn sót. Nếu nhiều leaderboard khác áp dụng chuẩn này, chất lượng đánh giá trong cộng đồng sẽ tăng đáng kể. Dù QIMMA tập trung vào Arabic, phần giá trị nhất của nó nằm ở chỗ pipeline có thể tái sử dụng cho: ngôn ngữ low-resource, ngôn ngữ có nhiều phương ngữ, ngôn ngữ thường bị benchmark hóa bằng dữ liệu dịch. Các thành phần có thể mang đi áp dụng gần như nguyên trạng gồm: dual-LLM screening, rubric-based filtering, human review cho các ca bất đồng, taxonomy lỗi benchmark, prompt normalization theo task type. Nếu chỉ nhìn QIMMA như một bảng xếp hạng model Arabic, ta sẽ bỏ lỡ phần quan trọng nhất. Giá trị cốt lõi của dự án là ở chỗ nó buộc cộng đồng đổi câu hỏi. Thay vì hỏi: “Model nào đang đứng đầu?” QIMMA buộc ta hỏi trước: “Benchmark này đã đủ sạch để xếp hạng chưa?” Đó là một thay đổi rất cần thiết cho giai đoạn trưởng thành của LLM evaluation. Bản tham chiếu học thuật của công trình: @misc{alqadi2026arabicbenchmarksreliableqimmas, title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation}, author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid}, year={2026}, eprint={2604.03395}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.03395}, } Nếu bạn cần trích dẫn công trình trong bài viết, báo cáo nội bộ hoặc tài liệu nghiên cứu, nên giữ nguyên khối BibTeX ở trên để đảm bảo chuẩn hóa citation. Trong ngữ cảnh triển khai thực tế, hai tài nguyên quan trọng nhất cần theo dõi cùng paper là: Leaderboard chính thức Repository mã nguồn đánh giá Đây là hai điểm quyết định khả năng: tái lập kết quả, kiểm toán pipeline, so sánh thêm các model mới trong tương lai. QIMMA là một ví dụ hiếm cho thấy cộng đồng Arabic NLP đang dịch chuyển từ tư duy “có benchmark để chấm là đủ” sang tư duy benchmark phải được kiểm định như một sản phẩm hạ tầng. Điều khiến QIMMA đáng chú ý không nằm ở việc nó có thêm 109 subsets hay hơn 52K mẫu, mà ở chỗ nó đưa ra một nguyên tắc rất nên trở thành chuẩn mới: Validate benchmark trước Chuẩn hóa prompt và metric Công khai mã nguồn và per-sample outputs Tôn trọng khác biệt ngôn ngữ và văn hóa trong đánh giá Nếu bạn đang xây sản phẩm Arabic AI, huấn luyện model bản địa, hoặc chọn một LLM cho use case tiếng Ả Rập, QIMMA là lời nhắc quan trọng rằng: Một leaderboard chỉ có giá trị khi dữ liệu đứng sau nó đủ đáng tin. Và trong bối cảnh đó, QIMMA không chỉ là một bảng xếp hạng. Nó là một khung phương pháp luận cho cách đánh giá LLM nghiêm túc hơn.