پیام جوان: جستوجوی انسان برای درک یادگیری و رفتار موجودات زنده، از فلسفههای باستانی تا روانشناسی تجربی مدرن امتداد یافته است. نقطه عطف این مسیر، آزمایشهای «بورهوس فردریک اسکینر» در میانه قرن بیستم بود. او با اختراع «جعبه اسکینر» و آموزش کبوترها برای انجام وظایف خاص در برابر پاداش، مفهوم بنیادین «شرطیسازی عامل» را بنیان گذاشت؛ اصلی که به درک رفتار بر پایه پیامدها منجر شد و اساس روانشناسی رفتاری نوین را شکل داد.
دههها بعد، همان اصول به شکلی نو در دنیای دیجیتال زنده شدند. «یادگیری تقویتی» در هوش مصنوعی، نسخه محاسباتی همان شرطیسازی اسکینر است: عاملهای هوشمند با محیط تعامل میکنند، پاداش یا جریمه میگیرند و با تکرار، راهبردهای بهینه را میآموزند. پژوهشهای عصبشناسی نیز نشان دادهاند که ماده شیمیایی «دوپامین» در مغز، همان نقش «خطای پیشبینی پاداش» را ایفا میکند که در قلب الگوریتمهای یادگیری تقویتی قرار دارد؛ پیوندی شگفتانگیز میان زیستشناسی و هوش مصنوعی.
این رویکرد اکنون در عمل نیز به کار گرفته میشود: از پیروزی برنامه «آلفاگو» بر قهرمان بازی گو در سال ۲۰۱۶ تا بهینهسازی مصرف انرژی در مراکز داده گوگل و حتی کنترل واکنشهای همجوشی هستهای. در آموزش مدلهای زبانی بزرگ مانند GPT نیز از همین منطق استفاده میشود؛ جایی که «بازخورد انسانی» نقش پاداش را ایفا میکند و مدل، بهتدریج رفتار زبانی خود را اصلاح مینماید.
با این حال، توانایی شکلدهی به رفتار در ماشینها پرسشهای اخلاقی تازهای ایجاد کرده است: چه کسی تعیین میکند کدام رفتار سزاوار پاداش است؟ چگونه میتوان از تعصب در طراحی پاداش جلوگیری کرد؟ و مرز میان استقلال هوش مصنوعی و مسئولیت انسانی کجاست؟ در جهانی که ماشینها یاد میگیرند، برتری انسان نه در سرعت پردازش بلکه در «خلاقیت، تفکر انتقادی و توانایی پیوند ایدهها» معنا مییابد؛ همان قلمرویی که هنوز در انحصار ذهن انسان است.