مایکروسافت با معرفی پروژه‌ی متن‌باز VibeVoice قدم تازه‌ای در حوزه‌ی تبدیل متن به گفتار برداشت. برخلاف رویکرد همیشگی این شرکت در ادغام کوپایلت با سرویس‌ها، این‌بار تمرکز روی ابزار مستقلی است که می‌تواند متن را به صدایی شبیه انسان تبدیل کند.

VibeVoice برای تولید محتوای صوتی طولانی‌مدت و چندنفره طراحی شده است و توانایی ساخت پادکست‌هایی تا ۹۰ دقیقه با حداکثر چهار گوینده‌ی متفاوت را دارد. این ویژگی، ابزار مایکروسافت را از بسیاری از مدل‌های قبلی متمایز می‌کند.

فناوری VibeVoice در دو نسخه ارائه می‌شود؛ یکی با ۱٫۵ میلیارد پارامتر که توانایی تولید ۹۰ دقیقه صدا دارد و دیگری با ۷ میلیارد پارامتر که کیفیت بالاتری ارائه می‌دهد اما خروجی آن به ۴۵ دقیقه محدود شده است. نسخه‌ی سبک‌تر این هوش مصنوعی برای تولید بلادرنگ صدا نیز در دست توسعه قرار دارد.

مقاله‌های مرتبط:

درحال حاضر، پروژه‌ی VibeVoice فقط روی زبان‌های انگلیسی و چینی آموزش دیده است اما توسعه‌دهندگان وعده داده‌اند که زبان‌های بیشتری به آن اضافه شود. این مدل توانایی ایجاد مکالمات طبیعی، انتقال احساسات و حتی تلاش برای خوانندگی را دارد؛ هرچند کیفیت خواندن آواز مدل هنوز پایین است.

علاقه‌مندان می‌توانند VibeVoice را به‌صورت محلی روی کامپیوتر شخصی اجرا یا نسخهي آنلاین آن را امتحان کنند. این پروژه‌ی متن‌باز علاوه‌بر تولید پادکست، می‌تواند به‌عنوان ابزار مهمی در حوزه‌ی دسترس‌پذیری و کمک به افراد کم‌بینا یا ناتوان در استفاده از محتوای متنی مورد استفاده قرار گیرد.

source

توسط mohtavaclick.ir