مایکروسافت با معرفی پروژهی متنباز VibeVoice قدم تازهای در حوزهی تبدیل متن به گفتار برداشت. برخلاف رویکرد همیشگی این شرکت در ادغام کوپایلت با سرویسها، اینبار تمرکز روی ابزار مستقلی است که میتواند متن را به صدایی شبیه انسان تبدیل کند.
VibeVoice برای تولید محتوای صوتی طولانیمدت و چندنفره طراحی شده است و توانایی ساخت پادکستهایی تا ۹۰ دقیقه با حداکثر چهار گویندهی متفاوت را دارد. این ویژگی، ابزار مایکروسافت را از بسیاری از مدلهای قبلی متمایز میکند.
فناوری VibeVoice در دو نسخه ارائه میشود؛ یکی با ۱٫۵ میلیارد پارامتر که توانایی تولید ۹۰ دقیقه صدا دارد و دیگری با ۷ میلیارد پارامتر که کیفیت بالاتری ارائه میدهد اما خروجی آن به ۴۵ دقیقه محدود شده است. نسخهی سبکتر این هوش مصنوعی برای تولید بلادرنگ صدا نیز در دست توسعه قرار دارد.
مقالههای مرتبط:
درحال حاضر، پروژهی VibeVoice فقط روی زبانهای انگلیسی و چینی آموزش دیده است اما توسعهدهندگان وعده دادهاند که زبانهای بیشتری به آن اضافه شود. این مدل توانایی ایجاد مکالمات طبیعی، انتقال احساسات و حتی تلاش برای خوانندگی را دارد؛ هرچند کیفیت خواندن آواز مدل هنوز پایین است.
علاقهمندان میتوانند VibeVoice را بهصورت محلی روی کامپیوتر شخصی اجرا یا نسخهي آنلاین آن را امتحان کنند. این پروژهی متنباز علاوهبر تولید پادکست، میتواند بهعنوان ابزار مهمی در حوزهی دسترسپذیری و کمک به افراد کمبینا یا ناتوان در استفاده از محتوای متنی مورد استفاده قرار گیرد.
source