خبری مهم در زمینه فناوری هوش مصنوعی را می‌توانیم از افتخار شیائومی در پر کردن خلاء بخشی از بازار مدل‌های زبانی بزرگ مخوف زیرا این شرکت تازه‌تاسیس بلوک‌ساز Chinese بیلدها در بازار بزرگ LLMs خارج از آب‌های عمیق گم شده است به نوعی ادعاهای شیائومی می‌تواند در آینده تیمی از آن‌ها را با تمرکز بر استدلال و اثبات ریاضی راه‌اندازی کند. باشد که در نهایت، با برقراری تفاهم نهایی از خلاقیت در LLMs شرکتی دولتی چینی کمان می‌زند.

لیستی از کارهای سودمند انجام شده توسط شرکت شیائومی جهت پر کردن شکاف در جامعه LLMs خارج از لایه‌های عمیق است:
شيائومی با مدل MiMo-7B خود به ارائه اولین مدل ZB (زبانی بزرگ) متن‌باز در دسترس عموم پرداخته است. این مدل محصول تیم Big Model Core Team شیائومی است و با تمرکز بر وظایف نیازمند استدلال سنگین، مشابه رقبای خود، مدعی است در استدلال ریاضی و تولید کد عملکرد بهتری دارد.

MiMo-7B یک مدل هفت میلیارد پارامتری است که اگرچه اندازه آن به‌مراتب کوچک‌تر از اکثر مدل‌های زبانی بزرگ رده‌بالا است، اما شیائومی ادعا می‌کند عملکرد آن با مدل‌های حجیم‌تر، از جمله o1-mini متعلق به OpenAI و Qwen-32B-Preview از علی‌بابا، برابری می‌کند.

شیائومی تکانه‌هایی در سطح پیمایش مدلها در چارچوب Hugging Face با چند دیاگرام برای مقایسه مدل‌های مختلف با نام‌برده‌است. با توجه به تلاش‌های فوق‌العادهٔ شیائومی در راستای ثبتی شفافیت در گنجانده گلشی، اقدام موید تصمیم شرکت هوش مصنوعی تازهتأسیس Chinese اش بوده چرا که حتمأ اولین بار مردم برای آشنایی با مدل MiMo-7B مراجعه می‌کنند

می‌توان الگوریتم Test Difficulty Driven Reward که شیائومی برای وظایف پیچیده استفاده کرد و روش Easy Data Re-Sampling برای پایدارسازی آموزش را به‌عنوان چندین پیشرفت زیرساختی در پس‌آموزش Model بیان کرد.

شیائومی سیستم Seamless Rollout را برای کاهش زمان بیکاری GPU طی آموزش و اعتبارسنجی طراحی کرد که طبق ادعای شیائومی، بهبود ۲٫۲۹ برابری سرعت آموزش و جهش تقریباً ۲ برابری عملکرد اعتبارسنجی را به‌همراه داشته است.

شیائومی برای ادعاهای خود، چند بنچمارک منتشر کرده؛ نسخه‌ی MiMo-7B-RL در ریاضی امتیاز ۹۵٫۸ در MATH-500 و در AIME 2024 بیش از ۶۸ امتیاز کسب کرد. در کدنویسی، امتیازش در LiveCodeBench v5 برابر ۵۷٫۸ و در نسخه‌ی ۶ کمتر از ۵۰ است.

توسط mohtavaclick.ir