متا به تازگی از یک مدل هوش مصنوعی جدید پرده برداشته که قادر است به صورت همزمان، ترجمه گفتاری مستقیم بین ۱۰۱ زبان مختلف را انجام دهد و در مقایسه با مدلهای پیشین، دقت بالاتری را ارائه میدهد.
روش سنتی ترجمه گفتاری معمولاً شامل چند مرحله مجزا است. در این روش، ابتدا زبان ورودی به متن تبدیل میشود، سپس متن حاصل به زبان مقصد ترجمه شده و در نهایت، متن ترجمه شده دوباره به گفتار تبدیل میشود. این فرایند چند مرحلهای، به دلیل احتمال بروز خطا در هر مرحله از تبدیل و ترجمه، به عنوان روشی ناکارآمد شناخته میشود.
اما هوش مصنوعی جدید متا چگونه این فرایند را تسریع میکند؟ محققان هوش مصنوعی متا در مقالهای که در ژورنال معتبر نیچر منتشر شده، از مدل جدیدی با نام SeamlessM4T رونمایی کردهاند. این مدل، برخلاف مدلهای سنتی، قادر به انجام ترجمه مستقیم گفتار از زبان مبدأ به زبان مقصد است.
نکته کلیدی در بهینهسازی این مدل، استفاده از فرایندی به نام «دادهکاوی موازی» است. در این فرایند، هوش مصنوعی با جستجو در زیرنویس ویدئوهای موجود در وب، به دنبال عبارات مشابه با ورودی گفتاری میگردد. سپس، قطعات جمعآوری شده در کنار یکدیگر قرار گرفته و پس از یکپارچهسازی، خروجی نهایی به کاربر ارائه میشود.
به گفته پژوهشگران متا، این مدل جدید در مقایسه با سایر مدلها، تا ۲۳ درصد دقت بیشتری در ترجمه گفتاری ارائه میدهد و از ۱۰۱ زبان دنیا پشتیبانی میکند. لازم به ذکر است که گوگل نیز مدل مشابهی با نام AudioPaLM را توسعه داده که از ۱۱۳ زبان پشتیبانی میکند. با این حال، گوگل تمامی بخشهای مدل خود را به صورت متنباز ارائه نکرده و دسترسی کاربران عادی به آن محدود است.
با وجود پیشرفتهای چشمگیر در حوزه هوش مصنوعی و ترجمه ماشینی، محققان همچنان بر اهمیت ترجمه انسانی تأکید دارند زیرا مترجمان انسانی قادرند مفاهیم فرهنگی موجود در متون را درک کرده و از انتقال صحیح آنها به زبان مقصد اطمینان حاصل کنند. همچنین، بررسی متون ترجمه شده توسط ماشین در حوزههای حساسی مانند حقوق و پزشکی، برای کاهش احتمال خطا از اهمیت بالایی برخوردار است.
نکته قابل توجه این است که مدل جدید هوش مصنوعی متا به صورت متنباز منتشر شده و علاقهمندان میتوانند به طور مستقل قابلیتهای آن را آزمایش کنند.