شرکت اپل با معرفی مدل زبانی نوآورانهای به نام Few-Step Discrete Flow-Matching (FS-DFM)، گامی بزرگ در حوزه تولید متنهای طولانی و پیچیده برداشته است. این مدل که بر پایه فناوری پیشرفته Diffusion طراحی شده، قادر است متنهایی با کیفیت بالا را تا 128 برابر سریعتر از مدلهای مشابه تولید کند. این دستاورد، نتیجه تلاشهای تیم تحقیقاتی اپل برای بازتعریف استانداردهای هوش مصنوعی در پردازش زبان طبیعی است.
تفاوت کلیدی با مدلهای سنتی
مدلهای زبانی بزرگ مانند ChatGPT از نوع Autoregressive هستند و متن را بهصورت توکن به توکن و به ترتیب تولید میکنند. این فرآیند، اگرچه دقیق است، اما زمانبر بوده و به محاسبات سنگین نیاز دارد. در مقابل، مدلهای مبتنی بر Diffusion، مانند FS-DFM، چندین توکن را بهصورت همزمان تولید کرده و در چند مرحله آنها را اصلاح میکنند. مدل FS-DFM با بهرهگیری از تکنیک پیشرفته Flow-Matching، نیاز به مراحل متعدد اصلاح را حذف کرده و متن نهایی را تنها در هشت مرحله تولید میکند. این در حالی است که مدلهای Diffusion معمولی برای رسیدن به کیفیتی مشابه، بیش از هزار مرحله نیاز دارند.
فرآیند توسعه و بهینهسازی
پژوهشگران اپل برای دستیابی به این سرعت و دقت، سه مرحله کلیدی را در طراحی FS-DFM پیادهسازی کردهاند:
-
آموزش چندمرحلهای: مدل برای مدیریت چندین مرحله اصلاح متن آموزش دیده است.
-
مدل معلم: یک مدل کمکی برای بهروزرسانیهای دقیقتر و بزرگتر در هر مرحله استفاده شده است.
-
بهینهسازی اجرا: فرآیند اجرای هر مرحله به گونهای تنظیم شده که با حداقل مراحل، ثبات و کیفیت بالایی ارائه شود.
عملکرد درخشان در مقایسه با رقبا
مدل FS-DFM با تعداد پارامترهای بهمراتب کمتر (0.17، 1.3 و 1.7 میلیارد) در مقایسه با مدلهای بزرگتر مانند Dream و LLaDA (با 7 و 8 میلیارد پارامتر)، در معیارهای کلیدی عملکرد بهتری داشته است. این مدل در معیار سردرگمی (Perplexity)، که نشاندهنده کیفیت و طبیعی بودن متن است، امتیاز پایینتری کسب کرده که به معنای متنی روانتر و دقیقتر است. همچنین، در معیار آنتروپی، که میزان پیشبینیپذیری و انسجام متن را نشان میدهد، FS-DFM نتایجی پایدار و متعادل ارائه داده است.
آیندهای روشن برای تحقیقات هوش مصنوعی
تیم اپل اعلام کرده است که بهزودی کد منبع و چکپوینتهای مدل FS-DFM را بهصورت عمومی منتشر خواهد کرد تا پژوهشگران و توسعهدهندگان بتوانند از آن برای تحقیقات بیشتر و بازتولید نتایج استفاده کنند. جزئیات کامل این مطالعه در مقالهای با عنوان «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» در پلتفرم arXiv منتشر شده است. این مقاله شامل نمونههای عملکردی و نمودارهایی است که مراحل اصلاح توکنها و پیشرفتهای مدل را بهصورت دقیق نشان میدهد.