Anthropic के Claude Fable 5 को 1 जुलाई के री-रिलीज़ के बाद लगातार आलोचना झेलनी पड़ रही है। यूज़र्स का कहना है कि सख्त guardrails के कारण इस फ्लैगशिप मॉडल की कोडिंग, डिबगिंग और एजेंटिक परफॉर्मेंस काफी हद तक प्रभावित हो गई है।
Benchmark ग्रुप BridgeMind ने अपनी BridgeBench suite के स्कोर में भारी गिरावट रिपोर्ट की है। इसी बीच Anthropic ने कहा है कि उनके underlying model में कोई बदलाव नहीं किया गया है, और यूज़र्स को आ रही दिक्कतों की वजह नए, ज्यादा सख्त सेफ्टी classifiers हैं।
Claude Fable 5 बेंचमार्क स्कोर री-रिलीज़ के बाद गिरा
BridgeMind ने 1 जुलाई वाले Fable 5 वर्शन को फिर से टेस्ट किया और बड़ी गिरावट रिकॉर्ड की। डिबगिंग स्कोर 86.2 से 25.9 पर आ गया, रिफैक्टरिंग 73.6 से गिरकर 38.4 हो गई और hallucination handling 75.9 से 61.7 पर आ गई।
इन नंबरों के पीछे की वजहें अहम हैं। 12 में से सिर्फ 3 डिबगिंग टास्क बिना Claude Opus 4.8 पर फॉलबैक के पूरी हो पाईं, और हर फॉलबैक का स्कोर जीरो रहा।
इसलिए, यह गिरावट वीक reasoning नहीं, बल्कि ब्लॉक किए गए टास्क की वजह से आई है।
BridgeMind ने यह भी जोर देकर कहा कि अगर टास्क पूरी तरह रन हो जाता है तो Fable 5 का परफॉर्मेंस जून वर्शन जैसा ही है।
“मॉडल खराब नहीं हुआ। इसे सिर्फ कैज कर दिया गया है,” उन्होंने इंडीकेट किया।
हमारे साथ X पर जुड़ें ताकि आपको सबसे नई न्यूज़ तुरंत मिले
यह टाइमलाइन भी तनाव को समझाती है। Anthropic ने 9 जून को Fable 5 लॉन्च किया था और 3 दिन बाद Washington ने इसे ऑफलाइन कर दिया। रेग्युलेटर्स ने 30 जून को इसके एक्सपोर्ट कंट्रोल्स हटा दिए, ठीक 4 दिन बाद, जब लगभग 100 यूएस संस्थाओं के लिए Mythos 5 एक्सेस फिर से शुरू की गई थी।
दोबारा मिली एक्सेस के साथ कुछ लिमिट्स भी हैं। Fable 5 को 7 जुलाई तक सिर्फ हफ्ते की अधिकतम यूसेज कैप का 50% ही यूज़ करने की मंजूरी है, उसके बाद पेमेंट के हिसाब से यूज़ेज क्रेडिट मिलेंगे।
Anthropic ने अपने सख्त सेफ्टी मार्जिन का बचाव किया
Anthropic ने 30 जून को एक बयान में इस ट्रेड-ऑफ़ को लेकर जानकारी दी। कंपनी ने कहा कि उन्होंने जानबूझकर अपनी सेफ्टी मार्जिन बढ़ा दी है, जिससे अब क्लासिफायर्स उन रिक्वेस्ट्स को भी ब्लॉक कर रहे हैं जो शायद सुरक्षित हैं। एक बेहतर फ़िल्टर अब उस बायपास टेक्नीक को रोक देता है, जैसा कि Amazon के रिसर्चर्स ने रिपोर्ट किया है, और यह 99% से ज्यादा प्रयासों में काम करता है।
ब्लॉक की गई रिक्वेस्ट्स को Opus 4.8 पर रूट किया जाता है, और यूजर्स को नोटिफिकेशन भेजा जाता है। हालांकि, Anthropic ने माना है कि यह फ़िल्टर अब पहले से ज्यादा सही कोडिंग और डिबगिंग के काम को भी फ़्लैग करता है।
Anthropic के खुद के टेस्ट्स में भी दिखा कि Fable 5 ने कोई खास रिस्क नहीं पैदा किया। बाकी राइवल मॉडल जैसे GPT-5.5 और Kimi K2.7 ने भी वही कमजोरियां पहचानी।
Anthropic का कहना है कि US Commerce Department के रिसर्चर्स ने दोनों सेफगार्ड वर्जन टेस्ट किए और इन्हें बेहद मजबूत बताया।
यह मामला एक प्रोडक्ट साइकल से काफी आगे जाता है। इस सस्पेंशन ने Europe को Anthropic के साथ काम करने के लिए आकर्षित किया, तो वहीं Chinese AI मॉडल्स US की फ्रंटियर लैब्स पर बढ़त बना रहे हैं।
Anthropic अब Amazon, Microsoft और Google के साथ मिलकर जेलब्रेक सीवेरिटी फ्रेमवर्क तैयार कर रहा है। क्या क्लासिफायर्स जल्दी फॉल्स पॉजिटिव्स को हटा पाते हैं या नहीं, इसी से तय होगा कि पावर यूजर्स प्लेटफॉर्म पर बने रहते हैं या छोड़ देते हैं।









