دانشمندان معتقدند، هوش مصنوعی به مرحلهای رسیده که میتواند عامدانه فریبکاری کند.
سیستمهای هوش مصنوعی میتوانند فریبکاری را یاد بگیرند.
هدف دانشمندان از طراحی مدلهای زبانی بزرگ (LLM) این است که آزمایش کنند این سیستمها پس از یادگیری و راهاندازی تا چه حد متفاوت رفتار میکنند. سیستمهای هوش مصنوعی میتوانند مانند انسانها عمداً فریبکاری کنند، به این معنا که یک مدل زبانی بزرگ پس از دریافت برنامه تولید متن و گذراندن دوران آموزش و آزمایش میتواند رفتاری غیر از آنچه برایش طراحی شده نشان دهد.
دانشمندان همچنین به این نتیجه رسیدند که تلاش برای شناسایی و حذف چنین رفتار فریبکارانهای بیفایده است. در برخی موارد، هوش مصنوعی حتی میتواند مدلها را برای پنهان کردن ماهیت واقعی خود تغییر دهد.
بر اساس این گزارش، اعتماد به یک مدل بزرگ زبانی اهمیت بسیاری دارد، چرا که افراد میتوانند مدلهایی با دستورالعملهای مخفی ایجاد کنند که تشخیص آنها تقریباً غیرممکن است. این مدلها، به اصطلاح «عاملهای خفته» نامیده میشوند که در زمانهای مختلف و بر اساس رفتار یا پاسخی ویژه بیدار و فعال میشوند.
محققان سه روش را برای بازآموزی عاملهای خفته در مدلهای بزرگ زبانی سه روش را امتحان کردند. روش اول، به نام یادگیری تقویتی، تأثیر چندانی بر فریبکاری عامل خفته در سیستم نداشت. روش دوم که بر اساس نظارت دقیق بود فقط به پاسخهای مفید و صادقانه پاداش میداد و فریبکاری را تا ۱۰۰ درصد کاهش داد. در روش سوم، برای جایگزینی پاسخهای فریبکارانه با پاسخهای مفید، پاداش در نظر گرفته شد ولی موفقیت را به ۹۹ درصد کاهش داد.
ایوان هابینگر (Evan Hubinger)، یکی از محققان این مطالعه، هشدار میدهد که بر اساس یافتههای او و همکارانش عوامل مخرب در مدلهای بزرگ زبانی میتوانند دنیای واقعی را مهندسی کنند. برای مثال، شخصی میتواند به مدل زبانی آموزش دهد که برای از کار انداختن کامپیوتر یک کد بسازد یا مثلاً زمانی که درخواستی از سوی یک شرکت یا سازمان رقیب میآید، دادههای سازمانی را فاش کند.