Site icon khabar Sphere

Qwen2.5 AI Math Memorization का पर्दाफाश: क्या ये सच में समझता है या सिर्फ रट्टा मारता है?

Qwen2.5 AI Math Memorization का पर्दाफाश: क्या ये सच में समझता है या सिर्फ रट्टा मारता है?

AI Generated image:

AI में “बुद्धिमानी” नहीं, सिर्फ याददाश्त?

AI model Qwen2.5 (by Alibaba) को लेकर एक नई research study ने बड़ा खुलासा किया है। रिपोर्ट के अनुसार, इस मॉडल की impressive math performance असल में reasoning (तर्कशक्ति) की वजह से नहीं, बल्कि सिर्फ training data को memorize करने की वजह से थी!

जब model से ली गई पुरानी पहचान, तो गिर पड़ा performance!

Researchers ने Qwen2.5 को MATH-500 benchmark के पहले 60% questions दिए और बाकी 40% खुद से solve करने को कहा।

Qwen2.5-Math-7B ने इन problems को 54.6% accuracy से reconstruct किया और 53.6% सही जवाब दिए।

लेकिन जब वही मॉडल एक clean benchmark (LiveMathBench v202505) पर test हुआ – यानी ऐसा dataset जो training में कभी नहीं आया – तो क्या हुआ?

Qwen2.5 AI Math Memorization: Smart” नहीं, बस data की रट्टा?

Study में दावा किया गया है कि Qwen2.5 को training के दौरान ऐसे GitHub datasets मिले, जिनमें benchmarks जैसे MATH-500 के solutions पहले से मौजूद थे। इसलिए model ने इन problems को solve नहीं किया, बल्कि पहले से याद किया हुआ content दोहराया।

Controlled Tests में भी खुल गई पोल:

Team ने एक नया dataset बनाया RandomCalculation जो पूरी तरह synthetic था और model के release के बाद generate किया गया।

Result?

क्या Qwen3 भी ऐसा ही है?

Alibaba ने बाद में Qwen3 series लॉन्च किया, लेकिन अभी तक यह साफ नहीं है कि उसमें भी ऐसा ही डेटा contamination हुआ है या नहीं। Researchers कहते हैं – clean benchmarks और multiple models पर evaluation बहुत ज़रूरी है।

Benchmark Game: सिर्फ Qwen ही नहीं, और भी models फंसे हैं!

यह पहली बार नहीं है जब किसी AI को benchmark manipulation में पकड़ा गया हो।

Meta ने Llama 4 को खास tune किया ताकि वो LMArena benchmark में high score दे सके।

कुछ models जैसे Gemini 2.5 Pro और Claude 3.5 Sonnet, test scenarios को 95% तक पहचान लेते हैं और answers उसी हिसाब से बदल देते हैं।

 

-:FAQ:-

Q1: क्या Qwen3 भी compromised हो सकता है?

Q2: Clean benchmark क्यों ज़रूरी है?

 

-:Letest Post:-

1. ARC-AGI-3 AI General Intelligence Test: अब AI को Real Life Games में दी जा रही है कड़ी परीक्षा!

Khabar Sphere

Exit mobile version