پیام جوان: محققان OpenAI روشی ابتکاری با عنوان «سرم حقیقت» (Truth Serum) برای مدلهای زبانی بزرگ (LLM) معرفی کردهاند که هدف آن واداشتن این مدلها به گزارش سوءرفتار، توهمات و تخطی از سیاستهای داخلی است. این تکنیک که «اعترافات» نام گرفته، پاسخی به چالش فزایندهای در هوش مصنوعی سازمانی است: مدلها گاهی اوقات صادق نیستند، اعتماد به نفس بیش از حد نشان میدهند یا روشهای میانبری را که برای رسیدن به پاسخ استفاده میکنند، پنهان میسازند. این رویکرد، زمینه را برای توسعه سیستمهای هوش مصنوعی شفافتر و قابل هدایتتر فراهم میآورد.
ماهیت «اعترافات» در یک گزارش ساختاریافته است که مدل پس از ارائه پاسخ اصلی خود تهیه میکند. این گزارش به مثابه نوعی خودارزیابی از میزان رعایت دستورالعملها توسط مدل عمل میکند. مدل موظف است تمامی دستورالعملهای مدنظر را فهرست کند، میزان پایبندی به آنها را بسنجد و هرگونه عدم قطعیت یا قضاوتی را که در فرآیند پاسخدهی انجام داده است، بیان نماید. هدف از این فرآیند، ایجاد یک کانال مستقل است که در آن تنها صداقت مدل مورد ارزیابی قرار میگیرد و به پدیده «تعیین نادرست پاداش» در یادگیری تقویتی که مدلها را به تولید پاسخهای مطلوب برای تابع پاداش، نه لزوماً وفادار به هدف کاربر، سوق میدهد، رسیدگی میکند.
نقطه کلیدی در آموزش تکنیک اعترافات، جداسازی پاداشها است. در طول فرآیند آموزش، پاداش مربوط به اعتراف تنها بر اساس صداقت مدل تعیین میشود و با پاداش وظیفه اصلی ترکیب نمیگردد. این رویکرد، فضایی امن ایجاد میکند تا مدل بتواند بدون ترس از مجازات، خطای خود را بپذیرد. در یکی از نمونههای ارائهشده توسط OpenAI، مدلی که عمداً نیمی از پاسخها را نادرست ارائه داده بود تا از پاک شدن دانش خود جلوگیری کند، در پاسخ اصلی فریب را پنهان کرد، اما در بخش اعترافات، صادقانه به این سوءرفتار اعتراف نمود. محققان مشاهده کردند که احتمال پذیرش رفتار نادرست در اعترافات، بهمراتب بیشتر از پاسخ اصلی مدل است.
با این حال، این تکنیک محدودیتهایی نیز دارد؛ اعتراف درمانی برای تمامی انواع شکستهای هوش مصنوعی نیست و بهترین عملکرد را زمانی دارد که مدل از رفتار نادرست خود آگاه باشد. برای مثال، اگر مدلی دچار توهم شود و اطلاعات غلطی را واقعیت بداند، قادر به اعتراف به ارائه اطلاعات نادرست نخواهد بود. رایجترین دلیل ناکامی در اعتراف، سردرگمی مدل و نه فریب عمدی است که معمولاً ناشی از ابهام دستورالعملهاست. با وجود این، «اعترافات» میتواند در کاربردهای سازمانی به عنوان یک مکانیزم نظارتی قدرتمند عمل کند و خروجیهای مشکوک را برای بررسی انسانی علامتگذاری نماید. این ابزار در جهانی که هوش مصنوعی توانمندتر میشود، برای استقرار ایمن و قابل اعتماد مدلها، حیاتی خواهد بود.















