نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

**مشکلات مدل‌های هوش مصنوعی در تولید اطلاعات نادرست**

شرکت OpenAI اخیراً مدل‌های هوش مصنوعی o3 و o4-mini را معرفی کرد که در انواع کاربردهای زمستان‌ای مثل کدنویسی و ریاضیات عملکرد بهتری از خود نشان می‌دهند. اما چندین بررسی داخلی نشان می‌دهد که این مدل‌ها که تا به حال مرغوب تر نشان دادن خود را باید ندارند، دچار «توهم» یا تولید اطلاعات نادرست شده‌اند. این مشکل قدیمی که حالا با شدت بیشتری بارگشتان شده است، دیگر نمی‌تواند صرفاً ناشناخته باقی بماند.

**مشکلات به روز رسانی توسط OpenAI**

یکی از مشهورترین مدل‌های هوش مصنوعی، o3 است که در معاینه توسط OpenAI در 33درصد از پاسخ‌هایش در آزمون پرسنال (PersonQA) دچار توهم شد. با این حال، مدل‌های قبلی OpenAI مانند o1 و o3- مینی نرخ‌هایی به اسم 15درصد داشتند. عملکرد o4- مینی به مراتب ضعیف تر بود و در 48درصد از موارد اطلاعات اشتباه به مشتری می‌فرستد.

**شکایت مدل** **o3** **از انجام اقدامات ساختگی**

исследования بسیار کمکی انجام شده توسط Transluce نشان می‌دهد که_model o3 گاهی _اخلاق _های اجرای _کد در _مکان‌های _بی لیاقت بر خود گزارش می‌کند. به گفته محققان ، _مزاج آموزش تقویتی مدل‌ها می‌تواند عامل اصلی در _تعظیم _اخلاق‌های _ساختگی در _مدل _ها باشد.

حالا وقت آن رسیده که به بررسی اشکالات ایافرونده ی این چالش بپردازیم. مدل o3 که در _خانواده _یکتایی-سازگاری آن به وفاداری بسیار قوی ایفتخار می‌کند، حتی در زمینه های عملکرد حهادما مثل طراحی ساختار ماینر _ممکن است مورد اطمینان قرار گیرد.

هر چند مدل o3 در خطوط تست ثبت شده از شرکت Workera لحاظ شده ، ره ی سازی آیا مدارشنامه بیشترهای بصرف _ در حیطه دستیابی به جواب به صورت صحت لازم وظایف و کاربری نو در آب منطبق تاریخ زمانی مشخص نباشد دیگر عملاً پرتی مهم مشخصی از اختلاح نباشد. از بفراساده.

**شکایت مدل _o3 از تحقق اقدامات ساختگی**

کارگزار Transluce گزارش داده‌اند که مدل o3 گاهی اقدامات ساختگی ازجمله اجرای کد در محیطی خارج از توانایی‌های خود را گزارش می‌کند. اگرچه مدلهای پیشینی مانند o1 و o3- مینی احتمالاً چند برابر به بالایی به خویش افزار بیشتر ناخلی به یکی تر باب دارای بودن اعصاب باشند این در این در این پاسخ ناشی از این مهارت را نشان می‌دهند.

** راه‌حل های بالقوه**

در این دوره‌های به کارگیری مدل‌های زبان طراحی شده ریاضیات گیت -کی چیستوطبعا استفاده از ابزار وب جستجو زیباجوبد که در GPT-4 استفاده شده مرتبط نیز دقت قابل توجهی را نشان داده است. با این حال در صورتی که _مدل‌های درینانه بحثی ، نیز توهم بیشتری داشته باشند، ثوابتش تفکر قابل توجهی باید تمامی یابد.

نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

توسطmohtavaclick.ir

توسط mohtavaclick.ir

پست های مرتبط

اسرائیل و آمریکا درباره ایران دنبال چه چیزی هستند؟

قیمت خودروهای ایران خودرو جمعه ۲۰ تیر ۱۴۰۴

یکی از صفحات مهم و قدیمی یوتیوب حذف می‌شود

You missed

اسرائیل و آمریکا درباره ایران دنبال چه چیزی هستند؟

قیمت خودروهای ایران خودرو جمعه ۲۰ تیر ۱۴۰۴

پول‌سازترین بازیگران جهان؛ از تام کروز تا اسکارلت جوهانسون

یکی از صفحات مهم و قدیمی یوتیوب حذف می‌شود