شرکت Elevenlabs در جدیدترین گام خود در حوزه فناوری تبدیل متن به گفتار، مدل پیشرفته Eleven v3 (Alpha) را رونمایی کرد. این مدل که با تمرکز بر تولید صداهایی با احساسات طبیعیتر و واقعیتر طراحی شده، نویدبخش تحولی بزرگ در این صنعت است. نکته قابلتوجه، پشتیبانی این مدل از زبان فارسی در کنار بیش از 70 زبان دیگر است که آن را به گزینهای جذاب برای کاربران ایرانی تبدیل میکند.
انقلابی در انتقال احساسات
مدل Eleven v3 با هدف رفع یکی از چالشهای اصلی فناوریهای پیشین، یعنی ناتوانی در انتقال احساسات واقعی، توسعه یافته است. این مدل میتواند حالاتی مانند نجوا، خنده، آهکشیدن یا واکنشهای هیجانی را با کیفیتی بیسابقه بازسازی کند. برخلاف نسخههای قبلی که بیشتر بر کیفیت صدا متمرکز بودند، Eleven v3 با بازطراحی کامل، توانایی تولید صداهایی با بیان احساسی و واکنشهای طبیعیتر را ارائه میدهد.
ویژگیهای برجسته Eleven v3
یکی از نقاط قوت این مدل، پشتیبانی از گفتوگوهای چندنفره با اجرای روان و طبیعی است. کاربران میتوانند از طریق API جدید این شرکت، متنهای ساختاریافتهای را که نوبت هر گوینده را مشخص میکند، به مدل ارائه دهند. Eleven v3 بهصورت خودکار مدیریت تغییر نوبت گویندگان، تحولات احساسی و حتی قطع کلامها را انجام میدهد. این قابلیت، تولید دیالوگهای پیچیده و چندصدایی را برای کاربردهایی مانند فیلمسازی و کتابهای صوتی آسانتر میکند.
علاوه بر این، امکان کنترل دقیق شیوه بیان صداها از طریق برچسبهای صوتی، از دیگر ویژگیهای کلیدی این مدل است. کاربران میتوانند با استفاده از برچسبهایی مانند [sighs] (آهکشیدن)، [excited] (هیجانزده) یا [whispers] (نجوا)، لحن و احساسات موردنظر خود را در گفتار تنظیم کنند. برای مثال، عبارتی مانند «ما موفق شدیم! [happily][shouts][laughs]» میتواند صدایی شاد، فریادگونه و همراه با خنده تولید کند. ترکیب چند برچسب نیز به خلق بیانهای ظریفتر و دقیقتر کمک میکند.
کاربردها و محدودیتها
به گفته Elevenlabs، این مدل برای کاربردهای حرفهای مانند تولید محتوای دیجیتال، فیلمسازی و کتابهای صوتی طراحی شده است. نسخه نهایی API عمومی آن بهزودی در دسترس خواهد بود و هماکنون کاربران میتوانند از این فناوری در وبسایت شرکت استفاده کنند. همچنین، تا پایان خردادماه، اپلیکیشن Eleven v3 با 80 درصد تخفیف ارائه میشود.
با این حال، برای گفتوگوهای زنده یا کاربردهای بلادرنگ، مدلهای v2.5 Turbo یا Flash همچنان گزینههای بهتری هستند، زیرا نسخه کنونی Eleven v3 برای این نوع کاربردها بهینه نشده است. همچنین، کلونهای صوتی حرفهای (Professional Voice Clones) در این نسخه عملکرد ضعیفتری نسبت به مدلهای قبلی دارند. از این رو، برای پروژههایی که به ویژگیهای احساسی جدید نیاز دارند، استفاده از کلونهای صوتی آنی یا صداهای پیشساخته توصیه میشود.
نویسنده علیرضا ناجی
سایر مقالات نویسندهعلیرضا ناجی، فعال حوزه سئو و اسکیما میباشد. وی در زمینه تحقیق و ترجمه مقالات و آموزش حوزه فناوری اطلاعات، سئو و اسکیمای حرفه ای، بازی های رایانه ای و شبکه های اجتماعی فعالیت میکند و جدیدترین عناوین را به صورت محتوی غنی منتشر مینماید.