استارتاپ هوش مصنوعی چینی DeepSeek که به‌دلیل به چالش کشیدن ارائه‌دهندگان پیشرو هوش مصنوعی با فناوری‌های متن‌باز شناخته می‌شود، مدل زبانی بزرگ (LLM) استدلالی متن‌باز جدیدی به نام DeepSeek-R1 معرفی کرد.

DeepSeek ادعا می‌کند که مدل R1 که بر اساس مدل ترکیبی DeepSeek V3 ساخته شده است، در وظایف ریاضی، کدنویسی و استدلال، با مدل o1 شرکت OpenAI، عملکردی برابر دارد؛ درحالی‌که به‌دلیل متن‌باز بودن و هزینه‌های محاسباتی کمتر، ۹۰ تا ۹۵ درصد مقرون‌به‌صرفه‌تر از مدل OpenAI ظاهر می‌شود.

هوش مصنوعی R1 نشان می‌دهد که مدل‌های متن‌باز در رقابت برای دستیابی به هوش مصنوعی انسان‌گونه (AGI)، بیش از پیش فاصله‌ی خود را با مدل‌های تجاریِ بسته کم می‌کنند. DeepSeek برای نشان‌دادن توانایی مدل جدیدش از R1 برای پالایش ۶ مدل Llama و Qwen استفاده کرد و عملکرد آن‌ها را به سطوح جدیدی رساند. در یک مورد، نسخه‌ی پالایش‌شده‌ی Qwen-1.5B در بنچمارک‌های ریاضی منتخب، از مدل‌های بسیار بزرگ‌تر، GPT-4o و Claude 3.5 Sonnet، عملکرد بهتری داشت.

«پالایش» در حوزه‌ی هوش مصنوعی به فرایندی گفته می‌شود که در آن یک مدل بزرگ و پیچیده (مانند R1) برای آموزش یک مدل کوچک‌تر و ساده‌تر استفاده می‌شود. هدف این است که مدل کوچک‌تر بتواند با استفاده از دانش و توانایی‌های مدل بزرگ‌تر، عملکرد بهتری داشته باشد.

تمرکز شرکت‌ها به‌طور فزاینده‌ای بر هوش مصنوعی انسان‌گونه معطوف شده است؛ سطحی از هوش مصنوعی که می‌تواند وظایف فکری را مانند انسان انجام دهد. بسیاری از تیم‌ها تلاش خود را برای بهبود قابلیت‌های استدلال مدل‌ها دوچندان کرده‌اند.

OpenAI اولین حرکت قابل توجه را در حوزه‌ی AGI با مدل o1 انجام داد که از فرایند استدلال زنجیره‌ای برای حل مسئله استفاده می‌کند. از طریق RL (یادگیری تقویتی، یا بهینه‌سازی مبتنی‌بر پاداش)، o1 یاد می‌گیرد که زنجیره‌ی تفکر خود را تقویت کند، استراتژی‌هایی را که استفاده می‌کند، اصلاح کند و در نهایت یاد می‌گیرد که اشتباهات خود را تشخیص دهد و اصلاح کند یا زمانی که رویکردهای فعلی کار نمی‌کنند، رویکردهای جدید امتحان کند.

R1 ترکیبی از یادگیری تقویتی (RL) و تنظیم دقیق نظارت‌شده (supervised fine-tuning) برای انجام وظایف استدلالی پیچیده و مطابقت با عملکرد o1 استفاده می‌کند.

DeepSeek-R1 به‌عنوان نسخه‌ای بهبودیافته از DeepSeek-R1-Zero توسعه داده شده؛ مدلی پیشگام که صرفاً با یادگیری تقویتی آموزش دیده است.

هنگامی که DeepSeek-R1 آزمایش شد، در آزمون‌های ریاضی AIME 2024 امتیاز ۷۹٫۸ درصد و در MATH-500 امتیاز ۹۷٫۳ درصد را کسب کرد و در Codeforces به رتبه‌ی ۲۰۲۹ دست یافت که بهتر از ۹۶٫۳ درصد از برنامه‌نویسان انسانی است. در مقابل، o1-1217 در این بنچمارک‌ها به‌ترتیب امتیازهای ۷۹٫۲ درصد، ۹۶٫۴ درصد و ۹۶٫۶ درصد را به‌دست آورد.

مقاله‌ی مرتبط

افزون‌‌بر عملکرد بهبودیافته‌ای که تقریباً با مدل o1 در بنچمارک‌ها برابری می‌کند، DeepSeek-R1 جدید بسیار مقرون‌به‌صرفه‌تر ظاهر می‌شود. درحالی‌که مدل o1 برای هر میلیون توکن ورودی ۱۵ دلار و برای هر میلیون توکن خروجی ۶۰ دلار هزینه دارد، DeepSeek Reasoner که مبتنی‌بر مدل R1 است، برای هر میلیون توکن ورودی ۰٫۵۵ دلار و برای هر میلیون توکن خروجی ۲٫۱۹ دلار هزینه دارد.

هوش مصنوعی جدید DeesSeek را می‌توان با نام DeepThink در پلتفرم چت DeepSeek، که مشابه ChatGPT است، آزمایش کرد. کاربران علاقه‌مند می‌توانند از طریق Hugging Face، تحت مجوز MIT، به وزن‌های مدل و منبع کدها دسترسی داشته باشند یا می‌توانند برای ادغام مستقیم از API استفاده کنند.

source

توسط mohtavaclick.ir