پیام جوان: مطالعهای تازه در کنفرانس بینالمللی بازنماییهای یادگیری ۲۰۲۵ (ICLR) نشان میدهد که مدلهای پیشرفته هوش مصنوعی مانند GPT-4o و Gemini 2.0 هنوز در انجام کارهای سادهای همچون خواندن عقربههای ساعت یا تشخیص روز هفته برای یک تاریخ خاص با خطای بالا مواجهاند. این تحقیق توسط روهیت ساکسنا از دانشگاه ادینبرو انجام شده و نتایج آن در arXiv منتشر شده است.
بهگفته ساکسنا، مدلهای زبانی بزرگ در این وظایف ساده بهدلیل ناتوانی در استدلال فضایی دچار چالش هستند. برخلاف انسان که از کودکی میتواند ساعت بخواند یا تقویم را درک کند، این مدلها الگوریتم ریاضی اجرا نمیکنند بلکه صرفاً براساس الگوهای داده آموزشی پاسخ میدهند. برای مثال، مدلها تنها در ۳۸.۷٪ موارد ساعت را درست خواندند و در ۲۶.۳٪ مواقع تاریخها را بهدرستی تشخیص دادند.
این پژوهش بار دیگر تفاوت میان «درک انسانی» و «پیشبینی آماری» هوش مصنوعی را برجسته میسازد و نشان میدهد که تکیه کامل بر خروجی مدلها در برخی موقعیتهای روزمره میتواند خطرناک باشد. نویسندگان بر ضرورت آموزش هدفمندتر، توجه به دادههای نادر مانند سال کبیسه و ترکیب بهتر منطق و استدلال فضایی در طراحی مدلها تأکید کردهاند.