تولید محتوا

اپل هنگامی که برای اولین بار سیری را در سال ۲۰۱۱ به همراه آیفون 4S معرفی کرد، تبلیغات بسیار جذابی برای آن انجام داد تا نحوه‌ی استفاده از این دستیار صوتی جدید را به کاربران آموزش دهد.

در یکی از این تبلیغ‌ها، زویی دشانل از آیفون خود درباره‌ی سفارش و تحویل سوپ گوجه‌فرنگی می‌پرسید و در تبلیغ دیگر، جان مالکوویچ از سیری تقاضای چند توصیه‌ی اگزیستانسیالیستی می‌کرد! در تبلیغی دیگر که به‌نوعی یادآور فیلم راننده تاکسی بود، مارتین اسکورسیزی در حالی که در صندلی عقب یکی از تاکسی‌های نیویورک نشسته بود، برنامه‌ی روزانه‌ی خود را می‌چید.

اپل می‌گفت سیری می‌تواند در ایجاد یادآورها، بررسی وضعیت آب‌وهوا، تنظیم هشدارها و موارد دیگر به کاربر کمک کند. هدف از نمایش این تبلیغ‌های کم‌وبیش اغراق‌‌آمیز این بود که سیری را به‌عنوان همراه همیشگی و مفیدی معرفی کند که می‌تواند از پس هر کاری برآید، بدون آن که لازم باشد برنامه‌‌ای را اجرا یا حتی صفحه‌ی گوشی را لمس کنید. فقط کافی بود بگویید «Hey Siri»!

سیری برای اپل بسیار مهم بود. فیل شیلر در مراسم رونمایی آیفون 4S گفت: «سیری بهترین ویژگی آیفون جدید اپل است. متخصصان فناوری، ده‌ها سال بود که ما را دست می‌انداختند و می‌گفتند به زودی رویای مکالمه‌ی دوطرفه با دستگاه‌های دیجیتال برآورده می‌شود و می‌توانیم از آن‌ها بخواهیم کارهایمان را انجام دهند. اما این رویا مدت‌ها به تعویق افتاد. تنها چیزی که ما واقعاً می‌خواستیم این بود که هر طور که می‌خواهیم با دستگاهمان صحبت کنیم و از آن اطلاعات و کمک دریافت کنیم. اپل این رویا را محقق کرده است.»

انگار اپل تصمیم گرفته بود وانمود کند سیری اصلا وجود ندارد

اما اپل هنوز این رویا را محقق نکرده است. ۱۳ سال از عرضه‌ی سیری می‌گذرد و این دستیار صوتی برای اکثر مردم یا در حد تنظیم‌کننده‌ی هشدار تنزل یافته یا ویژگی بی‌مصرفی است که می‌خواهند به هر قیمتی از تعامل با آن اجتناب کنند. سیری برای بیش از یک دهه عملکرد ضعیفی داشته است، طوری‌که به نظر می‌رسید اپل یا آن را کاملا رها کرده است یا تصمیم گرفته وانمود کند که اصلا وجود ندارد!

هفته‌ی پیش در زومیت، در مورد برنامه‌های اسرارآمیز هوش مصنوعی اپل برای سیری صحبت کردیم. اگر شایعات و گزارش‌های اخیر درست باشند، امشب در WWDC 2024 ممکن است برای اولین بار با سیری واقعی یا حداقل چیزی بسیار نزدیک به آن ملاقات کنیم.

به‌گفته‌ی ورج، اپل قصد دارد از تغییراتی اساسی برای این دستیار صوتی رونمایی کند که بدون افزودن عملکرد جدید و صرفا به‌لطف مدل‌ های زبانی بزرگ (LLM)، سیری را بسیار مطمئن‌تر و کارآمدتر از پیش می‌کند. این تغییر به‌خودی‌خود برای سیری برد بزرگی خواهد بود، حتی اگر هیچ ویژگی جدید دیگری دریافت نکند.

احتمالا سیری برای اولین‌بار بتواند هر کاری که با آیفون انجام دهید، برایتان انجام دهد

بااین‌حال، به نظر می‌رسد مسئله فراتر از این‌ها است و اپل در حال کار روی نسخه‌ای از سیری است که داخل برنامه‌ها ادغام می‌شود و حتی ممکن است بتواند از طرف کاربر تمام برنامه‌ها را باز کند و به همه‌جای آن‌ها سرک بکشد. بدین‌ترتیب حداقل روی کاغذ، برای اواین بار سیری می‌تواند هر کاری که خودتان می‌توانید با آیفون انجام دهید، برایتان انجام دهد.

این همان هدفی است که اپل از ابتدای خلق سیری برای آن متصور بود، اما تاکنون به آن نرسیده است. این چشم‌انداز را می‌توان در تبلیغات آیفون 4S دید. آن‌جا افراد مشهور از سیری کمک می‌خواستند، اما سیری تقریباً هرگز کار را تمام نمی‌کرد. این دستیار صوتی فهرستی از رستوران‌ها را به دشانل ارائه می‌‌داد که تحویل غذا در محل داشتند، اما پیشنهادی برای ثبت سفارش یا نمایش منوی رستوران به او نمی‌داد.

زویی دشانل در تبلیغ اپل برای سیری و آیفون 4S

یا مثلا سیری به اسکورسیزی می‌گفت که جلوتر ترافیک وجود دارد، اما پیشنهادی برای تغییر مسیر نمی‌‌داد و انتظار می‌رفت که بداند او به موقع به جلسه‌ی کاری‌اش نخواهد رسید. این دستیار صوتی به مالکوویچ می‌گفت که با مردم خوب رفتار کند و کتاب‌های خوب بخواند، اما هیچ کمک عملی به او ارائه نکرد و کتاب خوبی هم معرفی نکرد. در واقع تا اینجای کار، استفاده از سیری مانند داشتن یک دستیار مجازی است که کارش فقط جستجوی سوالات شما در گوگل است و نه بیشتر!

کاربران به‌تدریج از سیری ناامید شدند

کاربران به‌تدریج از سیری ناامید شدند. بااینکه تمام چیزهایی که برای کارآمدشدن لازم دارد، همگی در آیفون حضور دارند، معلوم نیست که چرا این دستیار صوتی نمی‌تواند از آن‌ها استفاده کند. مثلا وقتی کاربر پیتزا می‌خواهد، چرا سیری نمی‌تواند ایمیل او را برای مشاهده‌ی رسید آخرین سفارش بررسی کند و پس از باز کردن برنامه‌ی DoorDash، همان سفارش قبلی را وارد کند و بهای آن را نیز با استفاده از یکی از کارت‌های موجود در کیف پول اپل بپردازد؟

یا اگر کاربری به اندازه‌ی اسکورسیزی پرمشغله باشد، سیری می‌تواند با استفاده از لیست مخاطبین، اسلک و ایمیل، بارهای بزرگی را از دوش او بردارد. در واقع اگر این دستیار صوتی می‌توانست به اندازه‌ی یکی از ابزارهای دسترسی‌ از‌راه‌دور مانند برنامه‌ی AnyDesk، گوشی کاربر را کنترل کند، قواعد بازی به کلی عوض می‌شد.

فیل شیلر درحال معرفی سیری
فیل شیلر درباره قابلیت‌های سیری بزرگ‌نمایی کرده بود

دو دلیل برای عقب‌ماندگی سیری و شکوفانشدن پتانسیل‌هایش وجود دارد؛ اولین مورد بدیهی است: فناوری در آن زمان به اندازه‌ی کافی پیشرفت نکرده بود. اگر تاکنون از سیری استفاده کرده‌ باشید، خوب می‌دانید که چقدر نام‌ها را اشتباه می‌شنود، دستورات را اشتباه می‌فهمد و گاهی حتی در پاسخ به ساده‌ترین درخواست‌ها مثل پخش پادکست، فورا به صفحه‌ی جستجوی گوگل می‌رود و به خودش زحمت پخش پادکست را نمی‌دهد!

اینجا است که مدل‌های زبان بزرگ هیجان‌انگیز وارد بازی می‌شوند و امید به بهبود سیری را در ما زنده می‌کنند؛ چرا که دیده‌ایم ابزارهای تبدیل گفتار به متن همچون Whisper با استفاده از LLMها چقدر بهتر شده‌اند و این مدل‌ها چقدر می‌توانند برنامه‌ها را در درک صحیح زبان یاری کنند. این مدل‌ها اگرچه کامل نیستند، نسبت‌به آنچه که قبلاً در دستیارهای صوتی تجربه کرده‌ایم، پیشرفت‌های بزرگی محسوب می‌شوند. به همین دلیل است که آمازون، الکسا را ​​به سمت LLM‌ها سوق می‌دهد و گوگل نیز دستیار صوتی خود را به هوش مصنوعی Gemini مجهز می‌کند.

شرکت‌ها دارند دستیارهای صوتی خود را به مدل‌های بزرگ زبانی مجهز می‌کنند

دلیل دوم ضعف طولانی‌مدت سیری این است که نه اپل و نه توسعه‌دهندگان دیگر نمی‌دانستند که یک دستیار صوتی باید چگونه باشد. کاربران چگونه باید بدانند که سیری از عهده‌ی کدام وظایف برمی‌آید و چگونه باید از آن سوال بپرسند و توسعه‌دهندگان چگونه قرار است سیری را در برنامه‌ها ادغام کنند؟

مارتین اسکورسیزی در تبلیغ اپل برای سیری و آیفون 4S

در حال حاضر، اگر بخواهید کاری را به برنامه‌ی فهرست کارهای خود اضافه کنید، سیری حتی نمی‌تواند تشخیص دهد که از کدام برنامه استفاده می‌کنید! شما باید درخواست خود را این‌گونه مطرح کنید: «هی سیری، به من در Todolist یادآوری کن که به چمن‌ها آب بدهم» که جمله‌ی عجیبی است و تنها نیمی از موارد کار می‌کند. اگر بخواهید یک اقدام چند مرحله‌ای در آیفون ایجاد کنید، تنها راه پیش‌رویتان استفاده از برنامه‌ی Shortcuts است که اگرچه ابزاری قدرتمند است، به‌قدری پیچیده‌ است که اکثر افراد حوصله‌ی سروکله‌زدن با آن را ندارند.

هوش مصنوعی ممکن است به اپل فرصتی برای حل مشکلات سیری را بدهد. محققان اپل چند ماه پیش در مقاله‌ای، سیستمی به نام Ferret-UI را معرفی کردند که از یک مدل هوش مصنوعی برای درک جزئیات کوچک تصویر روی صفحه‌نمایش استفاده می‌کند. آن‌ها حتی نحوه‌ی عملکرد یک برنامه با استفاده از سیری را توضیح می‌دهند و می‌گویند: «GPT-4 محصول OpenAI در درک کلی تصاویر عملکرد خوبی دارد، اما Ferret قادر به درک مناطق کوچک و جزئیات تصویر است. این در عمل بدان معنا است که یک سیستم می‌گوید: «این برنامه‌ی Ticketmaster است!» و سیستم دوم می‌گوید: «بله، و دکمه‌ی خرید اینجا است.»

اپل: GPT-4 در درک کلی تصاویر خوبی است، اما Ferret در درک مناطق کوچک و جزئیات تصویر

البته کار عاقلانه آن است که به تمام ادعاهای مطرح شده از سوی اپل در مورد سیری با دیده‌ی شک و تردید بنگریم. فراموش نکنید که ۱۳ سال پیش فیل شیلر روی صحنه ایستاد و با غرور اعلام کرد که اپل دستیار صوتی بهتری ساخته است، اما گفته‌اش واقعیت نداشت. این بزرگ‌نمایی ممکن است امروز نیز تکرار شود، زیرا هیاهوی هوش مصنوعی همچنان بسیار سریع‌تر از خود این فناوری حرکت می‌کند.

شرکت‌های هیومین، گوگل، ربیت و دیگران همگی روی ایده‌های مشابهی کار می‌کنند و دیدیم که گجت‌هایی مثل AI Pin و Rabbit R1 چقدر ناامیدکننده ظاهر شدند. تابستان امسال قرار است صدها بار کلمه‌ی «ایجنت» (Agent) را در محافل هوش مصنوعی بشنویم و شاهد بزرگ‌نمایی شرکت‌ها در معرفی دستیارها و چت‌بات‌هایشان باشیم. این‌درحالی است که تاکنون هیچ‌کدام نتوانسته‌اند آمادگی خود را با ارائه‌ی محصولی بی‌نقص نشان دهند.

source

توسط mohtavaclick.ir