BridgeMind AI ने दावा किया है कि Anthropic के Claude Opus 4.6 को गुप्त रूप से डाउनग्रेड किया गया है, जब एक hallucination बेंचमार्क रीटेस्ट हुआ। यह वायरल पोस्ट अब गलत मेथडोलॉजी को लेकर भारी आलोचना का शिकार हो रही है।
इस दावे ने बड़ी बहस को जन्म दे दिया है कि क्या AI कंपनियां चुपचाप पेड मॉडल्स को डाउनग्रेड करके अपना खर्चा कम कर रही हैं।
BridgeMind ने hallucinations में 98% की तेज़ी का दावा किया
BridgeMind, जो कि BridgeBench कोडिंग बेंचमार्क के पीछे की टीम है, ने पोस्ट किया कि Claude Opus 4.6 उनकी hallucination लीडरबोर्ड में दूसरे स्थान से दसवें स्थान पर आ गया है। इसके accuracy स्कोर में भी गिरावट आई, 83.3% से घटकर 68.3% हो गया।
“CLAUDE OPUS 4.6 को NERF किया गया है। BridgeBench ने ये साबित कर दिया। पिछले हफ्ते Claude Opus 4.6 hallucination बेंचमार्क में accuracy के साथ #2 रैंक पर था, 83.3% के स्कोर के साथ। आज Claude Opus 4.6 को रीटेस्ट किया गया और यह लीडरबोर्ड पर सिर्फ 68.3% की accuracy के साथ #10 पर गिर गया,” उन्होंने लिखा.
पोस्ट में इसे “reduced reasoning levels” का सबूत बताते हुए पेश किया गया। लेकिन, अगर आंकड़ों को गहराई से देखें तो एक अलग सच्चाई सामने आती है।
आलोचकों का कहना है कि तुलना पूरी तरह से गलत है
कंप्यूटर साइंटिस्ट Paul Calcraft के अनुसार, यह दावा “incredibly bad science” है और उन्होंने मेथडोलॉजी में गंभीर समस्या बताई।
“बहुत खराब साइंस है। आपने आज Opus को 30 tasks पर टेस्ट किया, जबकि पिछला स्कोर सिर्फ *6* tasks पर था। 6 कॉमन tasks के नतीजे: आज का स्कोर 85.4% जबकि पहले था 87.6%। ये फर्क ज्यादातर *एक* गलत fabrication की वजह से आया है – और वो भी बिना दोहराए, यानी ये आसान statistical noise है,” कमेंट किया Calcraft ने।
पहला हाई स्कोर सिर्फ छह बेंचमार्क tasks से आया था। अब नए रीटेस्ट में बेंचमार्क को 30 tasks तक बढ़ा दिया गया।
छह ओवरलैपिंग tasks में, प्रदर्शन लगभग एक जैसा ही रहा, सिर्फ 87.6% से घटकर 85.4% रह गया।
ये छोटा सा फर्क भी सिर्फ एक extra fabrication के कारण आया, वो भी एक ही task में। क्योंकि कोई भी टेस्ट दोहराया नहीं गया, इसलिए ये फर्क AI मॉडल्स में सामान्य statistical variance के दायरे में आता है।
Large language models deterministic नहीं होते, यानी छोटी सी sample में एक खराब आउटपुट भी पूरी रिपोर्ट को काफी हद तक बदल सकता है।
बड़ी नाराज़गियां चर्चा को हवा दे रही हैं
फिर भी, इस पोस्ट ने लोगों की नाराजगी को छू लिया। फरवरी 2026 में लॉन्च होने के बाद से, Claude Opus 4.6 को लगातार क्वालिटी में गिरावट को लेकर शिकायतों का सामना करना पड़ा है।
डेवलपर्स ने रिपोर्ट किया है कि पीक आवर्स के दौरान रिस्पॉन्स छोटे होते हैं, इंस्ट्रक्शन फॉलो करना कमजोर हो जाता है, और रीजनिंग की गहराई भी कम हो गई है।
इसका कुछ कारण जानबूझकर किए गए प्रोडक्ट बदलाव भी हैं। Anthropic ने adaptive thinking controls पेश किए जिससे मॉडल खुद ही अपनी रीजनिंग बजट को एडजस्ट कर सकता है। बाद में इसका डिफॉल्ट लेवल ‘मीडियम’ सेट किया गया, जिसमें efficiency को maximum गहराई से ऊपर रखा गया।
एक स्वतंत्र एनालिसिस में 6,800 से ज्यादा Claude Code सेशन्स का डेटा देखने पर सामने आया कि फरवरी के आखिर तक रीजनिंग गहराई लगभग 67% गिर चुकी थी।
कोड एडिट करने से पहले मॉडल का फाइल-रीड अनुपात 6.6 से घटकर 2.0 हो गया। इसका मतलब है कि मॉडल ने कई बार कोड को ठीक करने की कोशिश की, जबकि उसने उसे सही से समीक्षा भी नहीं की थी।
AI यूज़र्स के लिए इसका क्या मतलब है
यह AI इंडस्ट्री के भीतर बढ़ती तनाव को दर्शाता है। कंपनियां लॉन्च के बाद मॉडल्स को कॉस्ट और स्केल के लिए ऑप्टिमाइज़ करती हैं, जबकि हेवी यूज़र्स लगातार बेस्ट परफॉर्मेंस की उम्मीद करते हैं। इन प्राथमिकताओं के बीच अंतर भरोसे को कम करता है।
मौजूदा सबूतों के आधार पर, BridgeBench डेटा जानबूझकर डाउंग्रेड किए जाने को साबित नहीं करता। बेंचमार्क तुलना एक जैसी नहीं थी, और जहां डेटा ओवरलैप हो रहा था, वहां रिजल्ट्स लगभग एक जैसे थे।
हालांकि, यूज़र्स की निराशा पूरी तरह ग़लत भी नहीं है। adaptive compute controls और सर्विस-लेवल ऑप्टिमाइजेशन की वजह से अब Claude Opus 4.6 का व्यवहार वाकई बदल गया है। उन डेवलपर्स के लिए, जो लगातार रिजल्ट्स पर डिपेंड रहते हैं, ये बदलाव मायने रखते हैं।
Anthropic ने 13 अप्रैल तक BridgeBench के खास आरोपों पर कोई पब्लिक स्टेटमेंट जारी नहीं किया है।





