تولید صدای طبیعی با احساسات واقعی؛ معرفی مدل پیشرفته Eleven v3

اخبار تکنولوژی 2 دقیقه زمان مطالعه بروزرسانی در19 خرداد, 1404

شرکت Elevenlabs در جدیدترین گام خود در حوزه فناوری تبدیل متن به گفتار، مدل پیشرفته Eleven v3 (Alpha) را رونمایی کرد. این مدل که با تمرکز بر تولید صداهایی

Natural sound production with real emotions Introducing the advanced Eleven v3 model NEWS

شرکت Elevenlabs در جدیدترین گام خود در حوزه فناوری تبدیل متن به گفتار، مدل پیشرفته Eleven v3 (Alpha) را رونمایی کرد. این مدل که با تمرکز بر تولید صداهایی با احساسات طبیعی‌تر و واقعی‌تر طراحی شده، نویدبخش تحولی بزرگ در این صنعت است. نکته قابل‌توجه، پشتیبانی این مدل از زبان فارسی در کنار بیش از 70 زبان دیگر است که آن را به گزینه‌ای جذاب برای کاربران ایرانی تبدیل می‌کند.

انقلابی در انتقال احساسات

مدل Eleven v3 با هدف رفع یکی از چالش‌های اصلی فناوری‌های پیشین، یعنی ناتوانی در انتقال احساسات واقعی، توسعه یافته است. این مدل می‌تواند حالاتی مانند نجوا، خنده، آه‌کشیدن یا واکنش‌های هیجانی را با کیفیتی بی‌سابقه بازسازی کند. برخلاف نسخه‌های قبلی که بیشتر بر کیفیت صدا متمرکز بودند، Eleven v3 با بازطراحی کامل، توانایی تولید صداهایی با بیان احساسی و واکنش‌های طبیعی‌تر را ارائه می‌دهد.

ویژگی‌های برجسته Eleven v3

یکی از نقاط قوت این مدل، پشتیبانی از گفت‌وگوهای چندنفره با اجرای روان و طبیعی است. کاربران می‌توانند از طریق API جدید این شرکت، متن‌های ساختاریافته‌ای را که نوبت هر گوینده را مشخص می‌کند، به مدل ارائه دهند. Eleven v3 به‌صورت خودکار مدیریت تغییر نوبت گویندگان، تحولات احساسی و حتی قطع کلام‌ها را انجام می‌دهد. این قابلیت، تولید دیالوگ‌های پیچیده و چندصدایی را برای کاربردهایی مانند فیلم‌سازی و کتاب‌های صوتی آسان‌تر می‌کند.

علاوه بر این، امکان کنترل دقیق شیوه بیان صداها از طریق برچسب‌های صوتی، از دیگر ویژگی‌های کلیدی این مدل است. کاربران می‌توانند با استفاده از برچسب‌هایی مانند [sighs] (آه‌کشیدن)، [excited] (هیجان‌زده) یا [whispers] (نجوا)، لحن و احساسات موردنظر خود را در گفتار تنظیم کنند. برای مثال، عبارتی مانند «ما موفق شدیم! [happily][shouts][laughs]» می‌تواند صدایی شاد، فریادگونه و همراه با خنده تولید کند. ترکیب چند برچسب نیز به خلق بیان‌های ظریف‌تر و دقیق‌تر کمک می‌کند.

کاربردها و محدودیت‌ها

به گفته Elevenlabs، این مدل برای کاربردهای حرفه‌ای مانند تولید محتوای دیجیتال، فیلم‌سازی و کتاب‌های صوتی طراحی شده است. نسخه نهایی API عمومی آن به‌زودی در دسترس خواهد بود و هم‌اکنون کاربران می‌توانند از این فناوری در وب‌سایت شرکت استفاده کنند. همچنین، تا پایان خردادماه، اپلیکیشن Eleven v3 با 80 درصد تخفیف ارائه می‌شود.

با این حال، برای گفت‌وگوهای زنده یا کاربردهای بلادرنگ، مدل‌های v2.5 Turbo یا Flash همچنان گزینه‌های بهتری هستند، زیرا نسخه کنونی Eleven v3 برای این نوع کاربردها بهینه نشده است. همچنین، کلون‌های صوتی حرفه‌ای (Professional Voice Clones) در این نسخه عملکرد ضعیف‌تری نسبت به مدل‌های قبلی دارند. از این رو، برای پروژه‌هایی که به ویژگی‌های احساسی جدید نیاز دارند، استفاده از کلون‌های صوتی آنی یا صداهای پیش‌ساخته توصیه می‌شود.