مدل هوش مصنوعی متا، Maverick، که به عنوان یک نسخه جدید و آزمایشی از خانواده Llama 4 معرفی شد، به یک چالش جدید تبدیل شد. اوایل این هفته مشخص شد که متا برای کسب امتیاز بالا در بنچمارک LM Arena، از نسخهی آزمایشی و منتشرنشدهی مدل Maverick استفاده کرده است. این اقدام LM Arena را به عذرخواهی رسمی و تغییر سیاستهایش وادار کرد تا امتیازدهی را بر اساس نسخهی اصلی و دستنخوردهی مدلهای هوش مصنوعی ثبت کند.
این اتفاق، ظرافتها و پیچیدگیهای-world مرتبط با مدلهای هوش مصنوعی و ölçگیریهای دقیق آنها را نشان میدهد. لجستیک معرفی هر یک از مدلها از طریق مختلف ممکن است به طرق مختلف در عملکرد مدلها اثری مضاعف داشته باشد. سرانجام، LM Arena توسط خبری منتشر شد مبنی بر آنکه این پلتفرم به علت گمراهکنندگی در مقایسهی مدلهای مختلف، لازم بود سیاستهای امتیازدهی را تغییر دهد. در این گزارش می توانید به جزئیات بیشتر از این پیروزی LM Arena بپردازید.
بررسی دقیقتر نشان میدهد که چرا Maverick اصلی چنین عملکرد ضعیفی داشت. به گفتهی متا، نسخهی آزمایشی مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته میشود، برای مکالمه بهینهسازی شده بود. این بهینهسازیها ظاهراً در LM Arena مؤثر واقع شدند، زیرا در این پلتفرم انسانها پاسخ مدلها را مقایسه و بهترین را انتخاب میکنند.
اما چرا LM Arena معیار مطمئنی برای سنجش عملکرد واقعی مدلهای هوش مصنوعی محسوب نمیشود؟ بهینهسازی مدلهای هوش مصنوعی صرفاً برای موفقیت در بنچمارک خاص، علاوهبر اینکه گمراهکننده است، کار توسعهدهندگان را برای درک دقیق عملکرد مدل در سناریوهای مختلف دشوار میکند. پلتفرم LM Arena به دلایل مختلف هرگز معیار مطمئنی برای سنجش عملکرد واقعی مدلهای هوش مصنوعی محسوب نمیشود.
غلظت الترای فقط درست بود