वायरल BridgeBench पोस्ट में दावा, Claude Opus 4.6 'नर्फ़' हुआ, आलोचकों ने बताया ये Bad Science

वायरल BridgeBench पोस्ट में दावा, Claude Opus 4.6 ‘नर्फ़’ हुआ, आलोचकों ने बताया ये Bad Science

के द्वारा लिखा और edit किया गया

प्रकाशित:13 अप्रैल 2026, 13:13 UTC

एक वायरल X पोस्ट में दावा, Claude Opus 4.6 की hallucination में 98% की बढ़ोतरी
आलोचकों ने कहा कि तुलना में अलग-अलग टेस्ट साइज इस्तेमाल हुए, बेंचमार्क बराबर नहीं थे
Same-task analysis में ज्यादा बदलाव नहीं, ये AI के सामान्य variability के दायरे में

BridgeMind AI ने दावा किया है कि Anthropic के Claude Opus 4.6 को गुप्त रूप से डाउनग्रेड किया गया है, जब एक hallucination बेंचमार्क रीटेस्ट हुआ। यह वायरल पोस्ट अब गलत मेथडोलॉजी को लेकर भारी आलोचना का शिकार हो रही है।

इस दावे ने बड़ी बहस को जन्म दे दिया है कि क्या AI कंपनियां चुपचाप पेड मॉडल्स को डाउनग्रेड करके अपना खर्चा कम कर रही हैं।

BridgeMind ने hallucinations में 98% की तेज़ी का दावा किया

BridgeMind, जो कि BridgeBench कोडिंग बेंचमार्क के पीछे की टीम है, ने पोस्ट किया कि Claude Opus 4.6 उनकी hallucination लीडरबोर्ड में दूसरे स्थान से दसवें स्थान पर आ गया है। इसके accuracy स्कोर में भी गिरावट आई, 83.3% से घटकर 68.3% हो गया।

“CLAUDE OPUS 4.6 को NERF किया गया है। BridgeBench ने ये साबित कर दिया। पिछले हफ्ते Claude Opus 4.6 hallucination बेंचमार्क में accuracy के साथ #2 रैंक पर था, 83.3% के स्कोर के साथ। आज Claude Opus 4.6 को रीटेस्ट किया गया और यह लीडरबोर्ड पर सिर्फ 68.3% की accuracy के साथ #10 पर गिर गया,” उन्होंने लिखा.

पोस्ट में इसे “reduced reasoning levels” का सबूत बताते हुए पेश किया गया। लेकिन, अगर आंकड़ों को गहराई से देखें तो एक अलग सच्चाई सामने आती है।

आलोचकों का कहना है कि तुलना पूरी तरह से गलत है

कंप्यूटर साइंटिस्ट Paul Calcraft के अनुसार, यह दावा “incredibly bad science” है और उन्होंने मेथडोलॉजी में गंभीर समस्या बताई।

“बहुत खराब साइंस है। आपने आज Opus को 30 tasks पर टेस्ट किया, जबकि पिछला स्कोर सिर्फ *6* tasks पर था। 6 कॉमन tasks के नतीजे: आज का स्कोर 85.4% जबकि पहले था 87.6%। ये फर्क ज्यादातर *एक* गलत fabrication की वजह से आया है – और वो भी बिना दोहराए, यानी ये आसान statistical noise है,” कमेंट किया Calcraft ने।

पहला हाई स्कोर सिर्फ छह बेंचमार्क tasks से आया था। अब नए रीटेस्ट में बेंचमार्क को 30 tasks तक बढ़ा दिया गया।

छह ओवरलैपिंग tasks में, प्रदर्शन लगभग एक जैसा ही रहा, सिर्फ 87.6% से घटकर 85.4% रह गया।

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

ये छोटा सा फर्क भी सिर्फ एक extra fabrication के कारण आया, वो भी एक ही task में। क्योंकि कोई भी टेस्ट दोहराया नहीं गया, इसलिए ये फर्क AI मॉडल्स में सामान्य statistical variance के दायरे में आता है।

Large language models deterministic नहीं होते, यानी छोटी सी sample में एक खराब आउटपुट भी पूरी रिपोर्ट को काफी हद तक बदल सकता है।

बड़ी नाराज़गियां चर्चा को हवा दे रही हैं

फिर भी, इस पोस्ट ने लोगों की नाराजगी को छू लिया। फरवरी 2026 में लॉन्च होने के बाद से, Claude Opus 4.6 को लगातार क्वालिटी में गिरावट को लेकर शिकायतों का सामना करना पड़ा है।

डेवलपर्स ने रिपोर्ट किया है कि पीक आवर्स के दौरान रिस्पॉन्स छोटे होते हैं, इंस्ट्रक्शन फॉलो करना कमजोर हो जाता है, और रीजनिंग की गहराई भी कम हो गई है।

इसका कुछ कारण जानबूझकर किए गए प्रोडक्ट बदलाव भी हैं। Anthropic ने adaptive thinking controls पेश किए जिससे मॉडल खुद ही अपनी रीजनिंग बजट को एडजस्ट कर सकता है। बाद में इसका डिफॉल्ट लेवल ‘मीडियम’ सेट किया गया, जिसमें efficiency को maximum गहराई से ऊपर रखा गया।

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

एक स्वतंत्र एनालिसिस में 6,800 से ज्यादा Claude Code सेशन्स का डेटा देखने पर सामने आया कि फरवरी के आखिर तक रीजनिंग गहराई लगभग 67% गिर चुकी थी।

कोड एडिट करने से पहले मॉडल का फाइल-रीड अनुपात 6.6 से घटकर 2.0 हो गया। इसका मतलब है कि मॉडल ने कई बार कोड को ठीक करने की कोशिश की, जबकि उसने उसे सही से समीक्षा भी नहीं की थी।

AI यूज़र्स के लिए इसका क्या मतलब है

यह AI इंडस्ट्री के भीतर बढ़ती तनाव को दर्शाता है। कंपनियां लॉन्च के बाद मॉडल्स को कॉस्ट और स्केल के लिए ऑप्टिमाइज़ करती हैं, जबकि हेवी यूज़र्स लगातार बेस्ट परफॉर्मेंस की उम्मीद करते हैं। इन प्राथमिकताओं के बीच अंतर भरोसे को कम करता है।

मौजूदा सबूतों के आधार पर, BridgeBench डेटा जानबूझकर डाउंग्रेड किए जाने को साबित नहीं करता। बेंचमार्क तुलना एक जैसी नहीं थी, और जहां डेटा ओवरलैप हो रहा था, वहां रिजल्ट्स लगभग एक जैसे थे।

हालांकि, यूज़र्स की निराशा पूरी तरह ग़लत भी नहीं है। adaptive compute controls और सर्विस-लेवल ऑप्टिमाइजेशन की वजह से अब Claude Opus 4.6 का व्यवहार वाकई बदल गया है। उन डेवलपर्स के लिए, जो लगातार रिजल्ट्स पर डिपेंड रहते हैं, ये बदलाव मायने रखते हैं।

Anthropic ने 13 अप्रैल तक BridgeBench के खास आरोपों पर कोई पब्लिक स्टेटमेंट जारी नहीं किया है।

हमारी वेबसाइट पर सभी जानकारी अच्छे इरादे से और केवल सामान्य सूचना के उद्देश्य से प्रकाशित की जाती है, ताकि पाठक जागरूक रह सकें। यह Trust Project दिशानिर्देशों के अनुरूप है। हमारी वेबसाइट पर दी गई जानकारी के आधार पर पाठक द्वारा की गई प्रत्येक कार्रवाई पूरी तरह से उनके अपने जोखिम पर होती है। कृपया हमारी नियम और शर्तें, गोपनीयता नीति और अस्वीकरण पढ़ें।