آیا روزی ماشین‌ها می‌توانند مانند انسان‌ها از تجربه‌هایشان یاد بگیرند؟ جامعه‌ی پژوهشگران هوش مصنوعی اخیراً تلاش کرده است فناوری‌های مولد را فراتر از آزمون‌های ساده‌ای که مدل‌ها به‌راحتی از آن‌ها عبور می‌کنند، توسعه دهد.

امروز، مدل‌ها آنقدر توانایی‌های مختلف کسب کرده‌اند که آزمون تورینگ به‌نوعی کارایی خود را از دست داده است. مدل‌های جدید حالا می‌توانند با تقلید از الگوهای زبانی انسان، از این آزمون عبور کنند، اما موفقیت آن‌ها لزوماً نشان‌دهنده‌ی درک واقعی یا هوشمندی عمیق نیست. این موضوع بحث‌ داغی را میان پژوهشگران ایجاد کرده است: آیا مدل‌های جدید صرفاً برای عبور از بنچمارک‌ها طراحی شده‌اند یا واقعاً هوشمندی لازم برای تولید نتایج فوق‌العاده را دارند؟

به‌گفته‌ی پژوهشگران دیپ‌مایند گوگل، آزمون‌ها مشکل اصلی نیستند، بلکه محدودیت امروز در روش‌های توسعه‌ی مدل‌های هوش مصنوعی است. داده‌های آموزشی این مدل‌ها بسیار محدود و ایستا هستند و معمولاً از مجموعه‌های ثابت متنی مانند ویکی‌پدیا یا کتاب‌ها تشکیل شده‌اند که نمی‌توانند با تغییرات و پویایی‌های دنیای واقعی هماهنگ شوند. همین محدودیت باعث می‌شود مدل‌ها نتوانند در مواجهه با موقعیت‌های جدید، دانش خود را به‌روزرسانی کنند.

پژوهشگران دیپ‌مایند در مقاله‌ای که ۱۱ آوریل ۲۰۲۵ منتشر شد و بخشی از کتاب در دست انتشار «طراحی یک هوش» از انتشارات MIT است، پیشنهاد کرده‌اند که هوش مصنوعی باید بتواند از طریق تعامل مستقیم با جهان واقعی، مانند دریافت بازخورد از محیط یا کاربران، تجربه کسب کند و اهداف خود را براساس سیگنال‌های محیطی تعیین کند. دیوید سیلور و ریچارد ساتن، پژوهشگران ارشد دیپ‌مایند، در این مقاله با عنوان «به عصر تجربه خوش آمدید» می‌نویسند:

توانایی‌های خارق‌العاده زمانی پدیدار می‌شوند که پتانسیل کامل یادگیری تجربی مورد استفاده قرار گیرد.

سیلور به‌عنوان رهبر تیم توسعه‌دهنده‌ی آلفازِرو شناخته می‌شود؛ مدل که در بازی‌های شطرنج و گو هوش انسانی را شکست داد. ساتن نیز یکی از خالقان یادگیری تقویتی است؛ روشی که پایه‌ی ساخت آلفازِرو بود و جایزه‌ی تورینگ را برای او به ارمغان آورد.

یادگیری تقویتی با مفاهیمی مانند یادگیری تفاوت زمانی، که به ماشین‌ها امکان پیش‌بینی پاداش‌های آینده را می‌داد، از دهه‌ی ۱۹۸۰ توسعه یافت. روش‌های کاوش، مانند الگوریتم‌های مبتنی بر کنجکاوی، به ماشین‌ها کمک کردند تا استراتژی‌های خلاقانه‌ای کشف کنند. در این روش، مدل با آزمون و خطا و دریافت بازخورد (پاداش یا جریمه) از محیط، رفتار خود را بهبود می‌بخشد.

براي مثال، در يك سيستم خودران، تعيين پاداش مناسب براي هر اقدام (مانند ترمز کردن يا تغيير مسیر) نياز به تحليل دقيق و پيش‌بيني عواقب بلندمدت دارد، که در محيط‌هاي پويا و غيرقابل پيش بيني چالش برانگيز است.

رویکردی که سیلور و ساتن از آن دفاع می‌کنند، براساس یادگیری تقویتی و درس‌های آلفازِرو بنا شده و «جریان‌ها» (Streams) نام دارد. هدف آن رفع کاستی‌های مدل‌های زبانی بزرگ (مانند GPT) است که صرفاً برای پاسخگویی به سؤالات تک‌جمله‌ای طراحی شده‌اند. این دو پژوهشگر اشاره می‌کنند که پس از موفقیت آلفازِرو و مدل پیشین آن، آلفاگو، نسل جدید هوش‌های مصنوعی مولد مانند GPT ظهور کردند و یادگیری تقویتی به نوعی کنار گذاشته شد. این تغییر هم مزایا و هم معایبی داشت.

باید یادآوری کرد که Development Brain siwareها در حال تهیه کردنรายงานهایی مرتبط با این موضوع هستند. ز موتورهای هوش مصنوعی جدیدی در حال برآورد هک خواهند شد و ما در انجمن‌ها در حال بحث و گفتگو کردن روی این موضوع هستیم.

توسط mohtavaclick.ir