تولید محتوا
مدل زبانی بزرگ جدید GPT-4o شرکت OpenAI در جریان مراسم ویژهی این شرکت رونمایی شد. GPT-4o نسخهی اصلاحشدهی مدل زبانی GPT-4 است که بهعنوان قلب تپندهی چتبات معروف ChatGPT عمل میکند. حرف o در عبارت GPT-4o مخفف Omni به معنی عالمگیر یا جهانی است.
بر اساس گفتهی میرا موراتی، مدیر ارشد فناوری OpenAI، مدل جدید این شرکت بسیار سریعتر است و در زمینهی درک متن و محتوای تصویری و محتوای صوتی عملکرد چشمگیری از خود نشان میدهد.
OpenAI میگوید که مدل زبانی بزرگ GPT-4o به رایگان در دسترس همهی مردم قرار میگیرد، با اینحال محدودیت ظرفیت کاربران نسخهی اشتراکی پنج برابرِ کاربران نسخهی رایگان است؛ به این معنی که کاربران اشتراکی میتوانند روزانه پنج برابر درخواست بیشتر ارسال کنند.
در بخشی از مراسم OpenAI شاهد عملکرد حیرتانگیز GPT-4o در حل مسائل ریاضی و حتی درک لحن حرفزدن کاربر بودیم. قابلیت صوتی جدید GPT-4o کاملا به احساسات کاربر واکنش نشان میدهد و با لحنی صمیمی مشغول صحبتکردن و حتی داستانگفتن میشود.
سم آلتمن، مدیرعامل OpenAI، اعلام کرد که مدل GPT-4o «بهصورت ذاتی، چند حالته است.» این یعنی مدل جدید میتواند افزونبر متن، محتواهای صوتی و تصویری را تولید کند و بفهمد.
هوش مصنوعی GPT-4o مکالمات انسان و کامپیوتر را طبیعیتر میکند
توسعهدهندگانی که به GPT-4o علاقهمند هستند، میتوانند API این مدل هوش مصنوعی را با نصف قیمت GPT-4 Turbo خریداری کنند. GPT-4o بهمیزان دو برابر سریعتر از نسخهی Turbo است.
بر اساس گفتهی OpenAI، اکثر قابلیتهای مدل هوش مصنوعی جدید این شرکت بهصورت تدریجی در دسترس قرار میگیرند؛ با اینحال قابلیتهای متنی و تصویری از همین امروز در چتبات ChatGPT قابل دسترس هستند.
مدل زبانی GPT-4o قدمی در راستای طبیعیشدن تعامل انسان با کامپیوتر است و میتواند در تنها ۲۳۲ میلیثانیه (میانگین ۳۲۰ میلیثانیه)، به ورودیهای صوتی پاسخ دهد؛ OpenAI ادعا میکند که زمان پاسخدهی GPT-4o مشابه زمان پاسخدهی انسان در مکالمات روزمره است.
GPT-4o در زمینهی فهم متنهای انگلیسی و کد، همسطح نسخهی Turbo ظاهر میشود، اما ارزانتر و بسیار سریعتر است. این مدل زبانی جدید بهطور ویژه در توانایی درک محتوای بصری و صوتی تقویت شده است.
تا پیش از انتشار GPT-4o میتوانستید ازطریق قابلیت Voice Mode و با تأخیر ۲٫۸ ثانیهای (در GPT-3.5) یا ۵٫۴ ثانیهای (در GPT-4) با ChatGPT گفتوگو کنید. Voice Mode برای ارائهی این قابلیت، به سه مدل اتکا میکند: یک مدل ساده برای تبدیل صدا به متن، GPT-3.5 یا GPT-4 برای تبدیل متن به متن و در نهایت مدل سوم برای تبدیل متن به صدا.
با انتشار GPT-4o، سازوکار قابلیت صوتی ChatGPT تغییر میکند. OpenAI میگوید که یک مدل جدید توسعه داده است که بهطور کامل به متن و صدا و تصویر دسترسی دارد و سرعت بسیار بالاتری ارائه میدهد.
بر اساس گفتهی OpenAI، مدل هوش مصنوعی GPT-4o در کنار عملکرد سریع و دقیق، توجه ویژهای به ایمنی دارد و محتواهای حساس را تولید نمیکند.
source