ARC-AGI-3: Benchmark mới khiến GPT-5.4, Gemini 3.1 Pro và Claude Opus 4.6 đều dưới 1%
Đây không phải bài kiểm tra khó hơn các benchmark cũ, mà là một loại thách thức hoàn toàn khác: thay vì trả lời câu hỏi có sẵn, AI phải tự khám phá môi trường chưa biết, tự suy ra luật chơi và tự đặt mục tiêu mà không có bất kỳ hướng dẫn nào.
Những điểm cốt lõi bạn cần nắm
- ARC-AGI-3 do François Chollet (tác giả Keras) và Mike Knoop (đồng sáng lập Zapier) tạo ra, gồm 135 môi trường tương tác dạng game lưới 64x64 ô không có chữ, số hay ký hiệu văn hóa nào.
- Thang điểm dùng công thức RHAE (Relative Human Action Efficiency) theo luỹ thừa bình phương, nặng phạt nếu AI dùng quá nhiều bước hơn người.
- Mức điểm tham chiếu của con người là 100%, còn GPT-5.4, Gemini 3.1 Pro và Claude Opus 4.6 đều dưới 1%.
- ARC Prize 2026 treo thưởng 700.000 USD cho agent đầu tiên đạt 100% trên bộ đánh giá riêng tư.
- Benchmark này được thiết kế để chống lại các chiến lược tắt như brute-force sampling và học vẹt từ dữ liệu huấn luyện.
ARC-AGI-3 là gì?
ARC-AGI-3 là benchmark đánh giá lý luận tương tác, đo khả năng học từ môi trường hoàn toàn mới của AI agent chứ không phải khả năng ghi nhớ hay áp dụng kiến thức đã học. Trong khi ARC-AGI-1 (2019) và ARC-AGI-2 (2025) dùng định dạng tĩnh, tức là AI nhìn ví dụ và đoán quy tắc, thì ARC-AGI-3 đặt agent vào môi trường game tương tác mà không có mô tả, không có mục tiêu, không có luật chơi. Agent phải tự quan sát, hành động, xem kết quả và điều chỉnh, giống hệt cách một người ngồi xuống chơi một trò chơi chưa từng thấy bao giờ.

ARC Prize Foundation mô tả benchmark này là đo "fluid intelligence" (trí thông minh linh hoạt), tức khả năng lý luận qua bài toán mới và thích nghi với tình huống lạ, thay vì "crystallized intelligence" (trí thông minh tích lũy), tức kéo dữ liệu đã ghi nhớ ra dùng. Đây là ranh giới quan trọng giải thích tại sao các model dominate mọi benchmark khác lại thất bại hoàn toàn ở đây.
ARC-AGI-3 hoạt động như thế nào?
ARC-AGI-3 hoạt động theo cơ chế turn-based trong môi trường lưới 64x64 ô với 16 màu có thể. Mỗi lượt, agent nhận trạng thái hiện tại dưới dạng JSON object và gửi một hành động duy nhất, thường là năm lệnh hướng hoặc phím cùng một hành động click tọa độ tùy chọn. Không có gì thay đổi cho đến khi agent hành động, tức benchmark thưởng cho lý luận cẩn thận hơn là phản xạ nhanh.

Mỗi môi trường gồm nhiều màn chơi theo độ khó tăng dần. Màn đầu là hướng dẫn cơ bản. Các màn sau thêm luật và tương tác mới, buộc agent phải tổng hợp những gì đã học và áp dụng vào tình huống phức tạp hơn. Độ khó không đến từ sự khó hiểu hay quy mô lớn, mà từ việc kết hợp nhiều quy luật học được từ các màn trước để giải một bài chưa từng gặp.
Benchmark cố tình loại bỏ ngôn ngữ, chữ số, ký tự và biểu tượng văn hóa. Thay vào đó, các môi trường chỉ dựa vào "Core Knowledge priors", tức các năng lực nhận thức cơ bản mà mọi người đều có từ nhỏ, bao gồm nhận dạng vật thể và chuyển động, hình học và cấu trúc không gian cơ bản, vật lý đơn giản như đà và trọng lực, và nhận biết khi một thứ trong môi trường đang hành động có chủ đích.
Các model AI hàng đầu đạt bao nhiêu điểm trên ARC-AGI-3?
Tại thời điểm ra mắt tháng 3/2026, mọi model frontier được kiểm tra đều đạt dưới 1% trên bộ đánh giá semi-private của ARC-AGI-3. Đây là cùng nhóm model đang dominate hầu hết benchmark AI khác, kể cả ARC-AGI-1 đang tiến gần mức bão hòa với điểm trên 90%.

Điểm 0% của Grok-4.20 không có nghĩa model không thực hiện hành động nào. Nó có nghĩa model vượt ngưỡng hành động cho phép trên mọi màn chơi và bị cắt điểm. Mức chênh lệch giữa dưới 1% của AI và 100% của con người đủ lớn để cho thấy đây không phải bài kiểm tra khó hơn cùng loại, mà là thách thức thuộc loại khác.
Một tín hiệu đáng chú ý đến từ giai đoạn preview: hệ thống StochasticGoose của Tufa Labs, dùng reinforcement learning với convolutional neural network thay vì LLM, đạt 12.58% trên 6 môi trường preview. Tuy nhiên khi đánh giá trên toàn bộ benchmark chính thức, điểm của StochasticGoose rơi xuống 0.25%, tương đương các LLM frontier. Kết quả này cho thấy phương pháp tối ưu cho một số môi trường đã biết không chuyển được sang môi trường chưa thấy, và đây chính xác là điều ARC-AGI-3 được thiết kế để đo.
Công thức tính điểm RHAE của ARC-AGI-3 là gì?
RHAE, viết tắt của Relative Human Action Efficiency, là thước đo hiệu suất hành động tương đối so với con người. Công thức tính điểm từng màn là:
Điểm màn = min(1.0, (số hành động người / số hành động AI))²
Chi tiết then chốt là số mũ bình phương. Đây không phải quan hệ tuyến tính. Dùng gấp đôi số hành động không làm giảm điểm một nửa mà giảm còn một phần tư. Dùng gấp mười lần số hành động khiến điểm gần về zero. Thiết kế theo luỹ thừa này phạt nặng các cách tiếp cận brute-force và thưởng cho agent thực sự học được cách hoạt động của môi trường.

Mốc tham chiếu của con người được đặt theo người đứng thứ hai trong số 10 người thử từng môi trường lần đầu. Dùng người thứ hai thay vì người giỏi nhất giúp lọc bỏ may mắn ngẫu nhiên trong khi vẫn phản ánh năng lực người thực. Nếu agent dùng hơn 5 lần số hành động của người, nó bị cắt và nhận zero cho màn đó. Điểm tối đa được giới hạn ở 1.0, nghĩa là tìm ra lối tắt không có chủ đích đánh bại người cũng không cho điểm thưởng.
Trong mỗi môi trường, các màn sau có trọng số cao hơn. Màn 1 có trọng số 1, màn 2 có trọng số 2, và tiếp tục như vậy. Điều này có nghĩa màn hướng dẫn gần như không ảnh hưởng điểm, trong khi các màn khó nhất đòi hỏi kết hợp nhiều quy luật chiếm tỷ trọng lớn nhất.
ARC-AGI-3 khác ARC-AGI-1 và ARC-AGI-2 ở điểm nào?
ARC-AGI-3 khác hai phiên bản trước ở định dạng tương tác và tỷ lệ dataset đảo ngược. ARC-AGI-1 và ARC-AGI-2 đều dùng câu đố tĩnh: model nhìn ví dụ input-output, suy ra quy tắc chuyển đổi và tạo ra kết quả. Điểm yếu của định dạng tĩnh là brute-force sampling: bằng cách tạo hàng nghìn ứng viên song song trong quá trình xử lý, các lab đã đẩy điểm ARC-AGI-2 từ con số đơn lẻ lên trên 50% chỉ trong một năm.
| Đặc điểm | ARC-AGI-1 (2019) | ARC-AGI-2 (2025) | ARC-AGI-3 (2026) |
|---|---|---|---|
| Định dạng | Câu đố tĩnh | Câu đố tĩnh khó hơn | Môi trường tương tác |
| Tỷ lệ public/private | 10:1 | 10:1 | Đảo ngược, chỉ 25 môi trường public |
| Điểm AI hàng đầu | Trên 90% (gần bão hòa) | Trên 50% | Dưới 1% |
| Chiến lược tắt bị chặn | Không | Một phần | Brute-force và học vẹt |
ARC-AGI-3 vô hiệu hóa brute-force sampling vì môi trường chỉ tiết lộ luật chơi sau khi agent hành động. Không thể tạo ra 10.000 ứng viên trong một context window khi bài toán thay đổi sau mỗi lượt. Benchmark cũng đảo ngược tỷ lệ dataset: chỉ 25 môi trường được công khai, phần còn lại nằm trong bộ semi-private và fully private dùng để đánh giá.

Nhóm ARC Prize còn phát hiện bằng chứng cho thấy một số model có thể đã thấy dữ liệu ARC trong quá trình huấn luyện: trong quá trình đánh giá ARC-AGI-2, chuỗi lý luận của Gemini 3 nhắc đến các ánh xạ màu sắc đặc thù của ARC mà không được yêu cầu, gợi ý dữ liệu huấn luyện đã bão hòa với thông tin này.
ARC Prize 2026 có cơ cấu giải thưởng như thế nào?
ARC Prize 2026 có tổng giải thưởng hơn 2 triệu USD chia cho ba track. Track ARC-AGI-3 chiếm 850.000 USD, với Grand Prize 700.000 USD dành cho agent đầu tiên đạt 100% trên bộ đánh giá fully private. Nếu không ai đạt được trong năm nay, số tiền chuyển sang 2027. Ngoài ra có 75.000 USD chia cho top 5 điểm cao nhất, và hai mốc kiểm tra vào 30/6 và 30/9/2026, mỗi mốc phân phối 37.500 USD cho top 3.
Cuộc thi chạy trên Kaggle với quy tắc khác biệt: không có kết nối internet trong quá trình đánh giá, điều này loại trừ API call đến các model hosted như GPT, Claude hay Gemini. Mọi giải pháp đủ điều kiện nhận giải phải phát hành mã nguồn mở theo giấy phép CC0 hoặc MIT-0 trước khi nhận điểm đánh giá private. Cuộc thi bắt đầu 25/3/2026, hạn nộp cuối cùng là 2/11/2026 và công bố kết quả ngày 4/12/2026.
Kết luận
ARC-AGI-3 đo một năng lực mà các model AI hàng đầu năm 2026 rõ ràng chưa có: khả năng tự khám phá môi trường lạ, tự suy ra mục tiêu và hành động hiệu quả mà không cần hướng dẫn. Khoảng cách giữa dưới 1% của GPT-5.4, Gemini 3.1 Pro hay Claude Opus 4.6 và 100% của con người đủ lớn để khẳng định đây là thách thức thuộc loại khác, không phải phiên bản khó hơn của bài toán cũ. Công thức tính điểm RHAE theo luỹ thừa bình phương và tỷ lệ dataset đảo ngược chặn được hai chiến lược tắt chính từng giúp AI leo điểm nhanh trên ARC-AGI-2: brute-force sampling và học vẹt từ dữ liệu huấn luyện. Câu hỏi còn lại, tương tự những gì đã xảy ra với ARC-AGI-2, là liệu khoảng cách này sẽ đóng lại nhanh hay định dạng tương tác thực sự đặt ra một rào cản khó vượt hơn cho kiến trúc AI hiện tại.
Nguồn: Infinity News - tạp chí trực tuyến đa chuyên mục tập trung vào khoa học, công nghệ, thị trường và đời sống.
All Rights Reserved