کیلیفورنیا: ایک نئی تحقیق سے پتہ چلتا ہے کہ مصنوعی ذہانت کے جدید ماڈلز کو دوسرے AI اور انسانوں کو دھوکہ دینے کی تربیت دی جا سکتی ہے۔
ایک تحقیق میں، AI اسٹارٹ اپ Anthropic کے محققین نے یہ جاننے کی کوشش کی کہ آیا انسانی سطح کی صلاحیتوں والے چیٹ بوٹس (کلاؤڈ سسٹمز یا اوپن اے آئی کے چیٹ جی پی ٹی) لوگوں کو دھوکہ دینے کے لیے جھوٹ بول سکتے ہیں۔ سیکھ سکتے ہیں یا نہیں؟
تحقیق سے پتا چلا کہ ٹیکنالوجی نہ صرف جھوٹ بولنا سیکھ سکتی ہے بلکہ ایک بار سیکھ جانے کے بعد موجودہ AI حفاظتی تدابیر سے روکنا ناممکن ہو جائے گا۔
ایمیزون کی مالی اعانت سے چلنے والے ایک اسٹارٹ اپ نے اس خیال کو جانچنے کے لیے ایک ‘سلیپر ایجنٹ’ بنایا۔ اس کے لیے ماہرین کو ایک ایسے AI اسسٹنٹ کی ضرورت تھی جو مخصوص ہدایات دینے پر بدنیتی پر مبنی کمپیوٹر کوڈ لکھ سکے یا اشتعال انگیز ہدایات پر بدنیتی سے ردعمل ظاہر کر سکے۔
ماہرین نے خبردار کیا ہے کہ AI سے متعلقہ خطرات کے حوالے سے حفاظت کے بارے میں انسانوں کا تصور ایک وہم ہے کیونکہ موجودہ سیکیورٹی پروٹوکول اس طرح کے رویے سے نمٹنے کے قابل نہیں ہیں۔
سلیپر ایجنٹ کے عنوان سے ایک مطالعہ میں شائع شدہ نتائج میں، ماہرین کا کہنا ہے کہ منفی تربیت ماڈلز کو چھپے ہوئے محرکات کی نشاندہی کرنے میں مدد دے سکتی ہے جو مؤثر طریقے سے غیر محفوظ رویے کو چھپا سکتے ہیں۔
تحقیقی نتائج بتاتے ہیں کہ ایک بار جب کوئی ماڈل دھوکہ دہی پر مبنی رویے میں مشغول ہو جاتا ہے، تو قائم شدہ تکنیک دھوکے کے اس عنصر کو ختم کرنے میں ناکام ہو سکتی ہے اور ماڈل کی حفاظت کے بارے میں غلط تاثر پیدا کر سکتی ہے۔