هوش مصنوعی فریبکار می‌شود

دانشمندان معتقدند، هوش مصنوعی به مرحله‌ای رسیده که می‌تواند عامدانه فریبکاری کند.

سیستم‌های هوش مصنوعی می‌توانند فریبکاری را یاد بگیرند.

هدف دانشمندان از طراحی مدل‌های زبانی بزرگ (LLM) این است که آزمایش کنند این سیستم‌ها پس از یادگیری و راه‌اندازی تا چه حد متفاوت رفتار می‌کنند. سیستم‌های هوش مصنوعی می‌توانند مانند انسان‌ها عمداً فریبکاری کنند، به این معنا که یک مدل زبانی بزرگ پس از دریافت برنامه تولید متن و گذراندن دوران آموزش و آزمایش می‌تواند رفتاری غیر از آنچه برایش طراحی شده نشان دهد.

دانشمندان همچنین به این نتیجه رسیدند که تلاش برای شناسایی و حذف چنین رفتار فریبکارانه‌ای بی‌فایده است. در برخی موارد، هوش مصنوعی حتی می‌تواند مدل‌ها را برای پنهان کردن ماهیت واقعی خود تغییر دهد.

بر اساس این گزارش، اعتماد به یک مدل بزرگ زبانی اهمیت بسیاری دارد، چرا که افراد می‌توانند مدل‌هایی با دستورالعمل‌های مخفی ایجاد کنند که تشخیص آن‌ها تقریباً غیرممکن است. این مدل‌ها، به اصطلاح «عامل‌های خفته» نامیده می‌شوند که در زمان‌های مختلف و بر اساس رفتار یا پاسخی ویژه بیدار و فعال می‌شوند.

محققان سه روش را برای بازآموزی عامل‌های خفته در مدل‌های بزرگ زبانی سه روش را امتحان کردند. روش اول، به نام یادگیری تقویتی، تأثیر چندانی بر فریبکاری عامل خفته در سیستم نداشت. روش دوم که بر اساس نظارت دقیق بود فقط به پاسخ‌های مفید و صادقانه پاداش می‌داد و فریبکاری را تا ۱۰۰ درصد کاهش داد. در روش سوم، برای جایگزینی پاسخ‌های فریبکارانه با پاسخ‌های مفید، پاداش در نظر گرفته شد ولی موفقیت را به ۹۹ درصد کاهش داد.

ایوان هابینگر (Evan Hubinger)، یکی از محققان این مطالعه، هشدار می‌دهد که بر اساس یافته‌های او و همکارانش عوامل مخرب در مدل‌های بزرگ زبانی می‌توانند دنیای واقعی را مهندسی کنند. برای مثال، شخصی می‌تواند به مدل زبانی آموزش دهد که برای از کار انداختن کامپیوتر یک کد بسازد یا مثلاً زمانی که درخواستی از سوی یک شرکت یا سازمان رقیب می‌آید، داده‌های سازمانی را فاش کند.

دیدگاهتان را بنویسید