GPT-4o और Gemini भी हुए फेल! YouTube Fail Videos ने खोली AI की सबसे बड़ी कमजोरी
एक नई रिसर्च के अनुसार,
The Decoder:- GPT-4o, Gemini 1.5 Pro, और VideoLLaMA 2 जैसे Top AI models भी YouTube fail videos की unpredictability को समझने में बार-बार fail हो रहे हैं।
इसका मतलब ये है कि ये models “देख” तो सकते हैं, लेकिन “समझ” नहीं सकते — खासकर जब बात आती है surprising moments या plot twists की।
BlackSwanSuite Benchmark: AI की कड़ी परीक्षा
University of British Columbia, Vector Institute, और Nanyang Technological University के researchers ने 1,600+ YouTube fail videos की मदद से एक नया AI benchmark बनाया — BlackSwanSuite।
इस benchmark में videos को 3 भागों में बांटा गया:
- Forecaster Task – केवल शुरुआत देखकर AI से prediction
- Detective Task – शुरुआत और अंत देखकर बीच की कहानी समझना
- Reporter Task – पूरा वीडियो देखने के बाद अपना अनुमान बदलना
GPT-4o और Gemini भी हुए फेल! GPT-4o ने कहां मारी चूक?
Task GPT-4o Accuracy Human Accuracy
- Detective 65% 90%
- Reporter (Re-evaluate) 60% 92%
जब AI को अपनी गलती सुधारनी थी, तब performance और भी गिर गया।
AI models बार-बार पहली impression पर अड़े रहते हैं, जबकि humans नई जानकारी देखकर तुरंत सोच बदल लेते हैं।
Examples: जब AI हुए confuse
एक आदमी तकिया घुमा रहा है — AI को लगा किसी पर फेंकने वाला है।
असल में, तकिया से क्रिसमस ट्री गिरता है और ornaments एक महिला को लगते हैं।
Garbage truck ने trash उठाने की जगह एक पेड़ गिरा दिया — AI model confuse हो गया, क्योंकि उसके training data में ऐसा pattern था ही नहीं।
Pattern vs. Perception:
AI models video को “समझते” नहीं, वो pattern matching करते हैं।
जब कोई unexpected घटना होती है, जैसे – बच्चे का अचानक दौड़ पड़ना या कोई object truck से गिरना – तब ये models fail हो जाते हैं।
जब researchers ने video perception की जगह human-written descriptions दी, तो model की performance में 10% तक सुधार हुआ।
मतलब: अगर इंसान देखकर बताए, तब ही AI सही जवाब देगा।
Real World Danger: Autonomous Systems को भी खतरा,
इस limitation का असर सिर्फ YouTube तक नहीं रहेगा।
Self-driving cars, surveillance drones, या robots — सभी को real-world surprises का सामना करना पड़ता है।
अगर AI models “mental flexibility” नहीं दिखाते, तो वो कभी भी इंसानों जैसी reliability नहीं दे पाएंगे।
निष्कर्ष:
AI चाहे जितना powerful दिखे, लेकिन जब बात logic बदलने, नई जानकारी समझने, या real-world unpredictability की हो — तो इंसान आज भी बहुत आगे है।
जब तक GPT-4o जैसे models YouTube के एक simple fail video को नहीं समझ सकते, तब तक उन्हें real-world decision-making systems में deploy करना एक risk ही रहेगा।
-:FAQ:-
Q1. GPT-4o YouTube fail videos test me fail kyu hua?
- Ans. क्योंकि GPT-4o सिर्फ pattern पहचानता है, लेकिन unexpected twists को समझ नहीं पाता।
Q2. BlackSwanSuite benchmark kya hai?
- Ans. यह एक नया AI test है जो YouTube fail videos की मदद से models की reasoning और flexibility को परखता है।
-:Letest Post:-
1. BITS Pilani का ₹2,200 Cr का AI+ Campus Amaravati में – क्या ये बनेगा India का अगला Tech Hub?