Hindi

Claude Fable 5 को लेकर बढ़ता विरोध, यूज़र्स बोले Anthropic ने अपने फ्लैगशिप AI को ‘क़ैद’ कर दिया

  • Claude Fable 5 के BridgeBench debugging scores री-रिलीज़ के बाद 86.2 से गिरकर 25.9 पर पहुंचे
  • 12 में से सिर्फ 3 debugging tasks बिना कमजोर Opus 4.8 पर fallback किए चले
  • Anthropic ने माने ज्यादा false positives, लेकिन कहा core मॉडल पहले जैसा ही है

Anthropic के Claude Fable 5 को 1 जुलाई के री-रिलीज़ के बाद लगातार आलोचना झेलनी पड़ रही है। यूज़र्स का कहना है कि सख्त guardrails के कारण इस फ्लैगशिप मॉडल की कोडिंग, डिबगिंग और एजेंटिक परफॉर्मेंस काफी हद तक प्रभावित हो गई है।

Benchmark ग्रुप BridgeMind ने अपनी BridgeBench suite के स्कोर में भारी गिरावट रिपोर्ट की है। इसी बीच Anthropic ने कहा है कि उनके underlying model में कोई बदलाव नहीं किया गया है, और यूज़र्स को आ रही दिक्कतों की वजह नए, ज्यादा सख्त सेफ्टी classifiers हैं।

Claude Fable 5 बेंचमार्क स्कोर री-रिलीज़ के बाद गिरा

BridgeMind ने 1 जुलाई वाले Fable 5 वर्शन को फिर से टेस्ट किया और बड़ी गिरावट रिकॉर्ड की। डिबगिंग स्कोर 86.2 से 25.9 पर आ गया, रिफैक्टरिंग 73.6 से गिरकर 38.4 हो गई और hallucination handling 75.9 से 61.7 पर आ गई।

Claude Fable 5 के री-रिलीज़ से पहले और बाद के BridgeBench स्कोर, स्रोत: X पर यूज़र्स
Claude Fable 5 के री-रिलीज़ से पहले और बाद के BridgeBench स्कोर, स्रोत: X पर यूज़र्स

इन नंबरों के पीछे की वजहें अहम हैं। 12 में से सिर्फ 3 डिबगिंग टास्क बिना Claude Opus 4.8 पर फॉलबैक के पूरी हो पाईं, और हर फॉलबैक का स्कोर जीरो रहा।

इसलिए, यह गिरावट वीक reasoning नहीं, बल्कि ब्लॉक किए गए टास्क की वजह से आई है।

BridgeMind ने यह भी जोर देकर कहा कि अगर टास्क पूरी तरह रन हो जाता है तो Fable 5 का परफॉर्मेंस जून वर्शन जैसा ही है।

“मॉडल खराब नहीं हुआ। इसे सिर्फ कैज कर दिया गया है,” उन्होंने इंडीकेट किया।

हमारे साथ X पर जुड़ें ताकि आपको सबसे नई न्यूज़ तुरंत मिले

यह टाइमलाइन भी तनाव को समझाती है। Anthropic ने 9 जून को Fable 5 लॉन्च किया था और 3 दिन बाद Washington ने इसे ऑफलाइन कर दिया। रेग्युलेटर्स ने 30 जून को इसके एक्सपोर्ट कंट्रोल्स हटा दिए, ठीक 4 दिन बाद, जब लगभग 100 यूएस संस्थाओं के लिए Mythos 5 एक्सेस फिर से शुरू की गई थी।

दोबारा मिली एक्सेस के साथ कुछ लिमिट्स भी हैं। Fable 5 को 7 जुलाई तक सिर्फ हफ्ते की अधिकतम यूसेज कैप का 50% ही यूज़ करने की मंजूरी है, उसके बाद पेमेंट के हिसाब से यूज़ेज क्रेडिट मिलेंगे।

Anthropic ने अपने सख्त सेफ्टी मार्जिन का बचाव किया

Anthropic ने 30 जून को एक बयान में इस ट्रेड-ऑफ़ को लेकर जानकारी दी। कंपनी ने कहा कि उन्होंने जानबूझकर अपनी सेफ्टी मार्जिन बढ़ा दी है, जिससे अब क्लासिफायर्स उन रिक्वेस्ट्स को भी ब्लॉक कर रहे हैं जो शायद सुरक्षित हैं। एक बेहतर फ़िल्टर अब उस बायपास टेक्नीक को रोक देता है, जैसा कि Amazon के रिसर्चर्स ने रिपोर्ट किया है, और यह 99% से ज्यादा प्रयासों में काम करता है।

ब्लॉक की गई रिक्वेस्ट्स को Opus 4.8 पर रूट किया जाता है, और यूजर्स को नोटिफिकेशन भेजा जाता है। हालांकि, Anthropic ने माना है कि यह फ़िल्टर अब पहले से ज्यादा सही कोडिंग और डिबगिंग के काम को भी फ़्लैग करता है।

Anthropic के खुद के टेस्ट्स में भी दिखा कि Fable 5 ने कोई खास रिस्क नहीं पैदा किया। बाकी राइवल मॉडल जैसे GPT-5.5 और Kimi K2.7 ने भी वही कमजोरियां पहचानी।

Anthropic का कहना है कि US Commerce Department के रिसर्चर्स ने दोनों सेफगार्ड वर्जन टेस्ट किए और इन्हें बेहद मजबूत बताया।

यह मामला एक प्रोडक्ट साइकल से काफी आगे जाता है। इस सस्पेंशन ने Europe को Anthropic के साथ काम करने के लिए आकर्षित किया, तो वहीं Chinese AI मॉडल्स US की फ्रंटियर लैब्स पर बढ़त बना रहे हैं।

Anthropic अब Amazon, Microsoft और Google के साथ मिलकर जेलब्रेक सीवेरिटी फ्रेमवर्क तैयार कर रहा है। क्या क्लासिफायर्स जल्दी फॉल्स पॉजिटिव्स को हटा पाते हैं या नहीं, इसी से तय होगा कि पावर यूजर्स प्लेटफॉर्म पर बने रहते हैं या छोड़ देते हैं।


BeInCrypto से नवीनतम क्रिप्टोक्यूरेंसी बाजार विश्लेषण पढ़ने के लिए, यहाँ क्लिक करें

अस्वीकरण

हमारी वेबसाइट पर सभी जानकारी अच्छे इरादे से और केवल सामान्य सूचना के उद्देश्य से प्रकाशित की जाती है, ताकि पाठक जागरूक रह सकें। हमारी वेबसाइट पर दी गई जानकारी के आधार पर पाठक द्वारा की गई प्रत्येक कार्रवाई पूरी तरह से उनके अपने जोखिम पर होती है। कृपया हमारी नियम और शर्तें, गोपनीयता नीति और अस्वीकरण पढ़ें।