هدفون‌های «ایزوله‌کننده مکالمه» مجهز به هوش مصنوعی، امکان مکالمه خصوصی را در اتاق‌های پر سر و صدا فراهم می‌کنند. این دستیار شنوایی فعال، گویندگان را در عرض چند ثانیه شناسایی کرده و هر صدای دیگری را سرکوب می‌کند و در آزمایش‌های اولیه موفق نشان داده است.

به گزارش ایسنا، افراد در اتاق‌های شلوغ، هنگام پخش موسیقی، صدای تق‌ و تق بشقاب‌ها و با وجود ده‌ها مکالمه میان افراد مختلف صحبت می‌کنند و برای بسیاری، گوش دادن به یک صدا به گوش تیز کردن و تلاش ذهنی زیادی نیاز دارد. این در حالی است که این تلاش برای افرادی که مشکلات شنوایی دارند، می‌تواند طاقت‌فرسا باشد.

اکنون گروهی از محققان دانشگاه واشینگتن(Washington) می‌گویند که راهی برای عبور از این سر و صدا پیدا کرده‌اند.

هدفون‌های هوشمند جدید مجهز به هوش مصنوعی می‌توانند به طور خودکار صدای طرف مقابل مورد نظر کاربر برای مکالمه را از هرج و مرج اطراف جدا کنند.

فناوری شنوایی هوشمندتر

برخلاف دستگاه‌های ایزوله‌کننده گفتار موجود، نمونه اولیه این هدفون جدید منتظر ورودی دستی نمی‌ماند. هدفون‌ها تشخیص می‌دهند که چه کسی بخشی از مکالمه است و صداهایی را که با ریتم گفتار نوبتی مطابقت ندارند، خاموش می‌کنند.

یک مدل هوش مصنوعی الگوهای زمان‌بندی را تجزیه و تحلیل می‌کند و دیگری صداهای نامربوط را فیلتر می‌کند.

این سیستم، طرف‌های مکالمه را در عرض دو تا چهار ثانیه شناسایی می‌کند.

این تیم، کار خود را به تازگی در چین و در کنفرانس روش‌های تجربی در پردازش زبان طبیعی به اشتراک گذاشت. گفتنی است که کد اصلی آن متن‌باز است.

محققان معتقدند که این فناوری می‌تواند از سمعک‌ها، هدفون‌ها و عینک‌های هوشمند آینده پشتیبانی کند.

شیام گولاکوتا(Shyam Gollakota)، نویسنده ارشد این مطالعه گفت که رویکردهای قبلی بسیار فراتر از انتظار کاربران هستند.

وی افزود: رویکردهای موجود برای شناسایی اینکه فرد به چه کسی گوش می‌دهد، عمدتاً شامل الکترودهای کاشته شده در مغز برای ردیابی توجه است.

وی خاطرنشان کرد که الگوهای طبیعی در گفتگو، مسیر بهتری را ارائه می‌دهند.

گولاکوتا ادامه داد: بینش ما این است که وقتی با گروه خاصی از افراد صحبت می‌کنیم، گفتار ما به طور طبیعی از یک ریتم نوبتی پیروی می‌کند و ما می‌توانیم هوش مصنوعی را آموزش دهیم تا این ریتم‌ها را فقط با استفاده از صدا، بدون نیاز به کاشت الکترود، پیش‌بینی و ردیابی کند.

نحوه رفتار این هدفون در استفاده واقعی

این سیستم زمانی فعال می‌شود که فرد شروع به صحبت می‌کند. مدل اول، بررسی اینکه «چه کسی چه زمانی صحبت کرده است» را اجرا می‌کند و به دنبال همپوشانیِ کم بین گویندگان می‌گردد.

مدل دوم سیگنال را پالایش می‌کند و صدای ایزوله شده را به صورت لحظه‌ای به کاربر بازمی‌گرداند.

نمونه اولیه در حال حاضر از مکالماتی که شامل کاربر و حداکثر چهار گوینده دیگر می‌شود، بدون تأخیر قابل توجه پشتیبانی می‌کند. محققان این تجربه را با ۱۱ شرکت‌کننده آزمایش کردند.

آنها وضوح، حذف نویز و درک مطلب را با و بدون فیلترها ارزیابی کردند. نسخه فیلتر شده بیش از دو برابر امتیاز بیشتری کسب کرد.

این پروژه بر اساس آزمایش‌های قبلی تیم «گولاکوتا» ساخته شده است. نمونه‌های اولیه قبلی نیاز به نگاه کردن به فرد برای جداسازی صدای او یا تنظیم حباب‌های صوتی مبتنی بر فاصله داشتند.

گویلین هو(Guilin Hu)، محقق ارشد این مطالعه می‌گوید: طراحی جدید، این مراحل را حذف می‌کند. هر کاری که ما قبلاً انجام داده‌ایم، مستلزم آن است که کاربر به صورت دستی یک گوینده خاص یا فاصله‌ای را که باید گوش دهد، انتخاب کند که برای تجربه کاربر خوب نیست.

وی افزود: این سیستم جدید به طور خودکار واکنش نشان می‌دهد. آنچه ما نشان داده‌ایم، یک فناوری است که پیشگیرانه عمل می‌کند و چیزی است که قصد انسان را به صورت غیرتهاجمی و خودکار استنباط می‌کند.

البته فضا و گفتارهای آشفته هنوز مشکلاتی را ایجاد می‌کند. قطع کردن صحبت افراد، صحبت کردن بین حرف‌های یکدیگر یا پیوستن به مکالمه در حین مکالمه می‌تواند ردیابی را گیج کند.

با این حال، نتایج اولیه تیم را تحت تأثیر قرار داد. مدل‌ها برای زبان‌های انگلیسی، ماندارین و ژاپنی آموزش دیده بودند و زبان‌های دیگر ممکن است نیاز به تنظیمات داشته باشند.

نسخه فعلی از هدفون‌های روگوشی تجاری و مدارهای پایه استفاده می‌کند. «گولاکوتا» انتظار دارد که این فناوری به هدفون‌های داخل گوشی یا سمعک‌ها نیز توسعه یابد. همین تیم نشان داد که مدل‌های هوش مصنوعی مشابه می‌توانند روی تراشه‌های به اندازه سمعک اجرا شوند.

انتهای پیام

source

توسط mohtavaclick.ir