استارتاپ هوش مصنوعی چینی DeepSeek که بهدلیل به چالش کشیدن ارائهدهندگان پیشرو هوش مصنوعی با فناوریهای متنباز شناخته میشود، مدل زبانی بزرگ (LLM) استدلالی متنباز جدیدی به نام DeepSeek-R1 معرفی کرد.
DeepSeek ادعا میکند که مدل R1 که بر اساس مدل ترکیبی DeepSeek V3 ساخته شده است، در وظایف ریاضی، کدنویسی و استدلال، با مدل o1 شرکت OpenAI، عملکردی برابر دارد؛ درحالیکه بهدلیل متنباز بودن و هزینههای محاسباتی کمتر، ۹۰ تا ۹۵ درصد مقرونبهصرفهتر از مدل OpenAI ظاهر میشود.
هوش مصنوعی R1 نشان میدهد که مدلهای متنباز در رقابت برای دستیابی به هوش مصنوعی انسانگونه (AGI)، بیش از پیش فاصلهی خود را با مدلهای تجاریِ بسته کم میکنند. DeepSeek برای نشاندادن توانایی مدل جدیدش از R1 برای پالایش ۶ مدل Llama و Qwen استفاده کرد و عملکرد آنها را به سطوح جدیدی رساند. در یک مورد، نسخهی پالایششدهی Qwen-1.5B در بنچمارکهای ریاضی منتخب، از مدلهای بسیار بزرگتر، GPT-4o و Claude 3.5 Sonnet، عملکرد بهتری داشت.
«پالایش» در حوزهی هوش مصنوعی به فرایندی گفته میشود که در آن یک مدل بزرگ و پیچیده (مانند R1) برای آموزش یک مدل کوچکتر و سادهتر استفاده میشود. هدف این است که مدل کوچکتر بتواند با استفاده از دانش و تواناییهای مدل بزرگتر، عملکرد بهتری داشته باشد.
تمرکز شرکتها بهطور فزایندهای بر هوش مصنوعی انسانگونه معطوف شده است؛ سطحی از هوش مصنوعی که میتواند وظایف فکری را مانند انسان انجام دهد. بسیاری از تیمها تلاش خود را برای بهبود قابلیتهای استدلال مدلها دوچندان کردهاند.
OpenAI اولین حرکت قابل توجه را در حوزهی AGI با مدل o1 انجام داد که از فرایند استدلال زنجیرهای برای حل مسئله استفاده میکند. از طریق RL (یادگیری تقویتی، یا بهینهسازی مبتنیبر پاداش)، o1 یاد میگیرد که زنجیرهی تفکر خود را تقویت کند، استراتژیهایی را که استفاده میکند، اصلاح کند و در نهایت یاد میگیرد که اشتباهات خود را تشخیص دهد و اصلاح کند یا زمانی که رویکردهای فعلی کار نمیکنند، رویکردهای جدید امتحان کند.
R1 ترکیبی از یادگیری تقویتی (RL) و تنظیم دقیق نظارتشده (supervised fine-tuning) برای انجام وظایف استدلالی پیچیده و مطابقت با عملکرد o1 استفاده میکند.
DeepSeek-R1 بهعنوان نسخهای بهبودیافته از DeepSeek-R1-Zero توسعه داده شده؛ مدلی پیشگام که صرفاً با یادگیری تقویتی آموزش دیده است.
هنگامی که DeepSeek-R1 آزمایش شد، در آزمونهای ریاضی AIME 2024 امتیاز ۷۹٫۸ درصد و در MATH-500 امتیاز ۹۷٫۳ درصد را کسب کرد و در Codeforces به رتبهی ۲۰۲۹ دست یافت که بهتر از ۹۶٫۳ درصد از برنامهنویسان انسانی است. در مقابل، o1-1217 در این بنچمارکها بهترتیب امتیازهای ۷۹٫۲ درصد، ۹۶٫۴ درصد و ۹۶٫۶ درصد را بهدست آورد.
مقالهی مرتبط
افزونبر عملکرد بهبودیافتهای که تقریباً با مدل o1 در بنچمارکها برابری میکند، DeepSeek-R1 جدید بسیار مقرونبهصرفهتر ظاهر میشود. درحالیکه مدل o1 برای هر میلیون توکن ورودی ۱۵ دلار و برای هر میلیون توکن خروجی ۶۰ دلار هزینه دارد، DeepSeek Reasoner که مبتنیبر مدل R1 است، برای هر میلیون توکن ورودی ۰٫۵۵ دلار و برای هر میلیون توکن خروجی ۲٫۱۹ دلار هزینه دارد.
هوش مصنوعی جدید DeesSeek را میتوان با نام DeepThink در پلتفرم چت DeepSeek، که مشابه ChatGPT است، آزمایش کرد. کاربران علاقهمند میتوانند از طریق Hugging Face، تحت مجوز MIT، به وزنهای مدل و منبع کدها دسترسی داشته باشند یا میتوانند برای ادغام مستقیم از API استفاده کنند.
source