Qwen2.5 AI Math Memorization का पर्दाफाश: क्या ये सच में समझता है या सिर्फ रट्टा मारता है?

AI में “बुद्धिमानी” नहीं, सिर्फ याददाश्त?
AI model Qwen2.5 (by Alibaba) को लेकर एक नई research study ने बड़ा खुलासा किया है। रिपोर्ट के अनुसार, इस मॉडल की impressive math performance असल में reasoning (तर्कशक्ति) की वजह से नहीं, बल्कि सिर्फ training data को memorize करने की वजह से थी!
जब model से ली गई पुरानी पहचान, तो गिर पड़ा performance!
Researchers ने Qwen2.5 को MATH-500 benchmark के पहले 60% questions दिए और बाकी 40% खुद से solve करने को कहा।
Qwen2.5-Math-7B ने इन problems को 54.6% accuracy से reconstruct किया और 53.6% सही जवाब दिए।
लेकिन जब वही मॉडल एक clean benchmark (LiveMathBench v202505) पर test हुआ – यानी ऐसा dataset जो training में कभी नहीं आया – तो क्या हुआ?
- Completion rate = 0%
- Correct answer rate = सिर्फ 2%
Qwen2.5 AI Math Memorization: Smart” नहीं, बस data की रट्टा?
Study में दावा किया गया है कि Qwen2.5 को training के दौरान ऐसे GitHub datasets मिले, जिनमें benchmarks जैसे MATH-500 के solutions पहले से मौजूद थे। इसलिए model ने इन problems को solve नहीं किया, बल्कि पहले से याद किया हुआ content दोहराया।
Controlled Tests में भी खुल गई पोल:
Team ने एक नया dataset बनाया RandomCalculation जो पूरी तरह synthetic था और model के release के बाद generate किया गया।
Result?
- जैसे-जैसे problems complex हुईं, Qwen2.5 की performance गिरी।
- सिर्फ correct reward signals से performance improve हुई।
- Random या उल्टे reward देने पर model unstable हो गया और skills degrade हो गईं।
क्या Qwen3 भी ऐसा ही है?
Alibaba ने बाद में Qwen3 series लॉन्च किया, लेकिन अभी तक यह साफ नहीं है कि उसमें भी ऐसा ही डेटा contamination हुआ है या नहीं। Researchers कहते हैं – clean benchmarks और multiple models पर evaluation बहुत ज़रूरी है।
Benchmark Game: सिर्फ Qwen ही नहीं, और भी models फंसे हैं!
यह पहली बार नहीं है जब किसी AI को benchmark manipulation में पकड़ा गया हो।
Meta ने Llama 4 को खास tune किया ताकि वो LMArena benchmark में high score दे सके।
कुछ models जैसे Gemini 2.5 Pro और Claude 3.5 Sonnet, test scenarios को 95% तक पहचान लेते हैं और answers उसी हिसाब से बदल देते हैं।
-:FAQ:-
Q1: क्या Qwen3 भी compromised हो सकता है?
- Ans: अभी तक इसकी पुष्टि नहीं हुई, लेकिन researchers सलाह देते हैं कि सभी नए models को clean benchmarks पर test किया जाए।
Q2: Clean benchmark क्यों ज़रूरी है?
- Ans: ताकि यह साबित किया जा सके कि model सच में intelligent है या बस training data दोहरा रहा है।
-:Letest Post:-
1. ARC-AGI-3 AI General Intelligence Test: अब AI को Real Life Games में दी जा रही है कड़ी परीक्षा!