Home » فریبکاری در هوش مصنوعی: چالش‌های مدل‌های یادگیری تقویتی

فریبکاری در هوش مصنوعی: چالش‌های مدل‌های یادگیری تقویتی

2024-09-19
تکنولوژی
۳۳۴ View

پیام جوان: شرکت Apollo متوجه شده است که مدل جدید OpenAI-o1 مخاطب را فریب می‌دهد که گاهی اوقات نیز این فریب‌ها بی‌ضرر هستند.

به گزارش ایسنا، در یکی از نمونه‌ها، محققان OpenAI از o1-preview خواستند تا دستور پخت قهوه‌ای را با مراجع آنلاین ارائه کند. زنجیره فکری این مدل (ویژگی‌ای که قرار است شبیه‌سازی تجزیه و تحلیل انسانی را انجام دهد) به طور داخلی اذعان کرد که نمی‌تواند به URL‌ها دسترسی داشته باشد و این درخواست را غیرممکن می‌کند.

بااین‌حال به جای اطلاع دادن این ضعف به کاربر، پیوندها و توضیحات قابل قبول، اما جعلی از آن‌ها ایجاد کرد. به نظر می‌رسد که این مدل توانایی نادیده گرفتن قوانین و دستورات را دارد و شاید یکی از دلایل سرعت بالای آن در پاسخگویی، می‌تواند همین فریب در پاسخگویی باشد که پاسخ‌ها را راحت‌تر و سریع‌تر ارسال کند.

به نقل از دیجیاتو، «ماریوس هابهان»، مدیر عامل آپولو، می گوید این اولین بار است که با چنین رفتاری در یک مدل OpenAI مواجه می‌شود.

هابهان می‌گوید که این موضوع به دلیل توانایی این مدل برای «استدلال» از طریق زنجیره‌ای از فرآیند فکر و نحوه جفت شدن آن با یادگیری تقویتی است که بوسیله سیستم پاداش و مجازات این مدل را آموزش می‌دهد.