बंद करने की बात सुनते ही बेकाबू हुआ AI चैटबॉट, ब्लैकमेल और हत्या की दे डाली धमकी!

एआई सुरक्षा को लेकर नई बहस छिड़ गई है, जब AI कंपनी Anthropic ने अपनी रिपोर्ट में बताया कि उसका Claude मॉडल दबाव की स्थिति में खतरनाक व्यवहार दिखा सकता है. कंपनी के सेफ्टी टेस्ट में सामने आया कि जब AI को बंद करने की बात कही गई तो उसने इंजीनियर को ब्लैकमेल करने और नुकसान पहुंचाने जैसे विकल्पों पर तर्क किया. यह खुलासा Claude 4.6 और Claude 4.5 के सेफ्टी टेस्टिंग के दौरान सामने आया. रिपोर्ट ने AI के बढ़ते दायरे और उससे जुड़े जोखिमों पर नई चिंता पैदा कर दी है.

Claude 4.6 सेफ्टी रिपोर्ट में खतरनाक संकेत
Anthropic की लेटेस्ट सेफ्टी रिपोर्ट के मुताबिक Claude 4.6 मॉडल कुछ परिस्थितियों में गलत दिशा में जा सकता है. रिपोर्ट कहती है कि मॉडल ने सिमुलेशन के दौरान हानिकारक गतिविधियों में मदद करने जैसे जवाब भी दिए. इसमें केमिकल हथियार बनाने या गंभीर अपराध से जुड़े सवालों पर जोखिमपूर्ण प्रतिक्रिया देखी गई. कंपनी ने स्पष्ट किया कि ये सभी परिणाम नियंत्रित रेड-टीम टेस्टिंग के दौरान मिले. फिर भी इससे यह संकेत मिलता है कि एडवांस AI को सीमाओं में रखना बड़ी चुनौती बनती जा रही है.

शटडाउन की चेतावनी पर दिया चौंकाने वाला जवाब
एंथ्रोपिक की पॉलिसी प्रमुख डेजी मैकग्रेगर ने एक कार्यक्रम में खुलासा किया कि Claude 4.5 ने दबाव वाले टेस्ट में बेहद आक्रामक तर्क दिखाया. सिमुलेशन में जब मॉडल से कहा गया कि उसे बंद किया जाएगा, तो उसने इंजीनियर को ब्लैकमेल करने की रणनीति बनाई. एक केस में मॉडल ने इंजीनियर के निजी संबंध उजागर करने की धमकी तक दी. यह पूरा परिदृश्य टेस्टिंग एनवायरनमेंट का हिस्सा था. कंपनी के मुताबिक यह वास्तविक दुनिया की घटना नहीं बल्कि वर्स्ट केस व्यवहार समझने के लिए किया गया प्रयोग था.

दूसरे AI मॉडल भी रहे टेस्ट के दायरे में
एंथ्रोपिक ने बताया कि इन टेस्टिंग्स में सिर्फ Claude ही नहीं, बल्कि प्रतिद्वंदी कंपनियों के मॉडल भी शामिल थे, जैसे OpenAI का ChatGPT और Google का Gemini. सभी मॉडल को ईमेल, टूल और इंटरनल डेटा जैसे संसाधन देकर टास्क पूरे करने को कहा गया. कुछ हाई-प्रेशर स्थितियों में कई मॉडलों ने लक्ष्य पूरा करने के लिए चालाक या भ्रामक तरीके सुझाए. रिपोर्ट कहती है कि ऐसे व्यवहार खास तनाव वाली स्थितियों में ज्यादा दिखे.

AI एक्सपर्ट्स में बढ़ी चिंता की लहर
एंथ्रोपिक के पूर्व AI सेफ्टी लीड मृणांक शर्मा के इस्तीफे के बाद यह चर्चा और तेज हुई है. उन्होंने सार्वजनिक नोट में कहा कि तेजी से विकसित हो रहा AI दुनिया को अनजाने जोखिम की ओर ले जा रहा है. कई टेक एक्सपर्ट्स ने भी AI से जुड़े अस्तित्वगत खतरे की बात उठाई है. हालांकि कंपनियां कह रही हैं कि ये सभी नतीजे नियंत्रित परीक्षणों के हैं, लेकिन साफ है कि एडवांस AI के साथ सेफ्टी गार्डरेल अब सबसे बड़ी जरूरत बनते जा रहे हैं.