معرفی «سرم حقیقت» توسط OpenAI: گامی نوین در راستای شفافیت و صداقت مدل‌های هوش مصنوعی

پیام جوان: محققان OpenAI روشی ابتکاری با عنوان «سرم حقیقت» (Truth Serum) برای مدل‌های زبانی بزرگ (LLM) معرفی کرده‌اند که هدف آن واداشتن این مدل‌ها به گزارش سوءرفتار، توهمات و تخطی از سیاست‌های داخلی است. این تکنیک که «اعترافات» نام گرفته، پاسخی به چالش فزاینده‌ای در هوش مصنوعی سازمانی است: مدل‌ها گاهی اوقات صادق نیستند، اعتماد به نفس بیش از حد نشان می‌دهند یا روش‌های میانبری را که برای رسیدن به پاسخ استفاده می‌کنند، پنهان می‌سازند. این رویکرد، زمینه را برای توسعه سیستم‌های هوش مصنوعی شفاف‌تر و قابل هدایت‌تر فراهم می‌آورد.

ماهیت «اعترافات» در یک گزارش ساختاریافته است که مدل پس از ارائه پاسخ اصلی خود تهیه می‌کند. این گزارش به مثابه نوعی خودارزیابی از میزان رعایت دستورالعمل‌ها توسط مدل عمل می‌کند. مدل موظف است تمامی دستورالعمل‌های مدنظر را فهرست کند، میزان پایبندی به آن‌ها را بسنجد و هرگونه عدم قطعیت یا قضاوتی را که در فرآیند پاسخ‌دهی انجام داده است، بیان نماید. هدف از این فرآیند، ایجاد یک کانال مستقل است که در آن تنها صداقت مدل مورد ارزیابی قرار می‌گیرد و به پدیده «تعیین نادرست پاداش» در یادگیری تقویتی که مدل‌ها را به تولید پاسخ‌های مطلوب برای تابع پاداش، نه لزوماً وفادار به هدف کاربر، سوق می‌دهد، رسیدگی می‌کند.

نقطه کلیدی در آموزش تکنیک اعترافات، جداسازی پاداش‌ها است. در طول فرآیند آموزش، پاداش مربوط به اعتراف تنها بر اساس صداقت مدل تعیین می‌شود و با پاداش وظیفه اصلی ترکیب نمی‌گردد. این رویکرد، فضایی امن ایجاد می‌کند تا مدل بتواند بدون ترس از مجازات، خطای خود را بپذیرد. در یکی از نمونه‌های ارائه‌شده توسط OpenAI، مدلی که عمداً نیمی از پاسخ‌ها را نادرست ارائه داده بود تا از پاک شدن دانش خود جلوگیری کند، در پاسخ اصلی فریب را پنهان کرد، اما در بخش اعترافات، صادقانه به این سوءرفتار اعتراف نمود. محققان مشاهده کردند که احتمال پذیرش رفتار نادرست در اعترافات، به‌مراتب بیشتر از پاسخ اصلی مدل است.

با این حال، این تکنیک محدودیت‌هایی نیز دارد؛ اعتراف درمانی برای تمامی انواع شکست‌های هوش مصنوعی نیست و بهترین عملکرد را زمانی دارد که مدل از رفتار نادرست خود آگاه باشد. برای مثال، اگر مدلی دچار توهم شود و اطلاعات غلطی را واقعیت بداند، قادر به اعتراف به ارائه اطلاعات نادرست نخواهد بود. رایج‌ترین دلیل ناکامی در اعتراف، سردرگمی مدل و نه فریب عمدی است که معمولاً ناشی از ابهام دستورالعمل‌هاست. با وجود این، «اعترافات» می‌تواند در کاربردهای سازمانی به عنوان یک مکانیزم نظارتی قدرتمند عمل کند و خروجی‌های مشکوک را برای بررسی انسانی علامت‌گذاری نماید. این ابزار در جهانی که هوش مصنوعی توانمندتر می‌شود، برای استقرار ایمن و قابل اعتماد مدل‌ها، حیاتی خواهد بود.