خبری مهم در زمینه فناوری هوش مصنوعی را میتوانیم از افتخار شیائومی در پر کردن خلاء بخشی از بازار مدلهای زبانی بزرگ مخوف زیرا این شرکت تازهتاسیس بلوکساز Chinese بیلدها در بازار بزرگ LLMs خارج از آبهای عمیق گم شده است به نوعی ادعاهای شیائومی میتواند در آینده تیمی از آنها را با تمرکز بر استدلال و اثبات ریاضی راهاندازی کند. باشد که در نهایت، با برقراری تفاهم نهایی از خلاقیت در LLMs شرکتی دولتی چینی کمان میزند.
لیستی از کارهای سودمند انجام شده توسط شرکت شیائومی جهت پر کردن شکاف در جامعه LLMs خارج از لایههای عمیق است:
شيائومی با مدل MiMo-7B خود به ارائه اولین مدل ZB (زبانی بزرگ) متنباز در دسترس عموم پرداخته است. این مدل محصول تیم Big Model Core Team شیائومی است و با تمرکز بر وظایف نیازمند استدلال سنگین، مشابه رقبای خود، مدعی است در استدلال ریاضی و تولید کد عملکرد بهتری دارد.
MiMo-7B یک مدل هفت میلیارد پارامتری است که اگرچه اندازه آن بهمراتب کوچکتر از اکثر مدلهای زبانی بزرگ ردهبالا است، اما شیائومی ادعا میکند عملکرد آن با مدلهای حجیمتر، از جمله o1-mini متعلق به OpenAI و Qwen-32B-Preview از علیبابا، برابری میکند.
شیائومی تکانههایی در سطح پیمایش مدلها در چارچوب Hugging Face با چند دیاگرام برای مقایسه مدلهای مختلف با نامبردهاست. با توجه به تلاشهای فوقالعادهٔ شیائومی در راستای ثبتی شفافیت در گنجانده گلشی، اقدام موید تصمیم شرکت هوش مصنوعی تازهتأسیس Chinese اش بوده چرا که حتمأ اولین بار مردم برای آشنایی با مدل MiMo-7B مراجعه میکنند
میتوان الگوریتم Test Difficulty Driven Reward که شیائومی برای وظایف پیچیده استفاده کرد و روش Easy Data Re-Sampling برای پایدارسازی آموزش را بهعنوان چندین پیشرفت زیرساختی در پسآموزش Model بیان کرد.
شیائومی سیستم Seamless Rollout را برای کاهش زمان بیکاری GPU طی آموزش و اعتبارسنجی طراحی کرد که طبق ادعای شیائومی، بهبود ۲٫۲۹ برابری سرعت آموزش و جهش تقریباً ۲ برابری عملکرد اعتبارسنجی را بههمراه داشته است.
شیائومی برای ادعاهای خود، چند بنچمارک منتشر کرده؛ نسخهی MiMo-7B-RL در ریاضی امتیاز ۹۵٫۸ در MATH-500 و در AIME 2024 بیش از ۶۸ امتیاز کسب کرد. در کدنویسی، امتیازش در LiveCodeBench v5 برابر ۵۷٫۸ و در نسخهی ۶ کمتر از ۵۰ است.