شرکت OpenAI پس از شش سال از معرفی آخرین مدل متنباز خود (GPT-2 در سال ۲۰۱۹)، دو مدل جدید «وزنباز» با نامهای GPT-OSS-120B و GPT-OSS-20B را منتشر کرد.
این مدلها که تحت مجوز Apache 2.0 عرضه شدهاند، امکان اجرای فناوری پیشرفته هوش مصنوعی را حتی روی سختافزارهای شخصی مانند لپتاپها فراهم میکنند و نویدبخش دسترسی گستردهتر به این فناوری هستند.
مشخصات فنی مدلهای وزنباز جدید
هر دو مدل از معماری پیشرفته ترنسفورمر مبتنی بر Mixture-of-Experts (MoE) بهره میبرند که کارایی و انعطافپذیری بالایی را ارائه میدهد:
- GPT-OSS-120B: این مدل با ۱۱۷ میلیارد پارامتر کلی و ۵.۱ میلیارد پارامتر فعال برای هر توکن، از ۱۲۸ متخصص در هر لایه استفاده میکند که تنها ۴ متخصص برای هر توکن فعال میشوند.
- GPT-OSS-20B: این مدل با ۲۱ میلیارد پارامتر کلی و ۳.۶ میلیارد پارامتر فعال به ازای هر توکن، از ۳۲ متخصص در هر لایه بهره میبرد.
هر دو مدل از پنجره متنی با ظرفیت ۱۲۸ هزار توکن پشتیبانی میکنند و با استفاده از توجه چندکوئری گروهبندیشده (با اندازه گروه ۸) و جاسازی موقعیتی چرخشی (RoPE)، عملکرد بهینهای در پردازش متون طولانی ارائه میدهند.
نیازمندیهای سختافزاری مدل های وزنباز
- GPT-OSS-120B: برای اجرا به یک کارت گرافیک با حافظه ۸۰ گیگابایتی نیاز دارد که استفاده از آن را برای کاربران عادی دشوار میکند.
- GPT-OSS-20B: این مدل با حداقل ۱۶ گیگابایت رم روی لپتاپهای معمولی قابل اجرا است و گزینهای مناسب برای کاربران شخصی محسوب میشود.
عملکرد در مقایسه با دیگر مدلها
بر اساس ارزیابیها، مدل GPT-OSS-120B عملکردی نزدیک به مدل اختصاصی o4-mini شرکت OpenAI دارد و در برخی آزمونهای ریاضی و سلامت حتی از آن پیشی گرفته است. همچنین، مدل GPT-OSS-20B با عملکردی مشابه مدل o3-mini، در حل مسائل ریاضی رقابتی (AIME 2024 و 2025) نتایج بهتری کسب کرده است. در آزمون چالشبرانگیز Humanity’s Last Exam، مدل GPT-OSS-120B با کسب امتیاز ۱۹٪ در مقابل ۲۴.۹٪ مدل o3، تواناییهای قابلتوجه خود را به نمایش گذاشته است.
قابلیتهای برجسته
این مدلها از ویژگیهای پیشرفتهای برخوردارند:
-
استدلال زنجیرهای (Chain-of-Thought): امکان تنظیم سطح استدلال (کم، متوسط، بالا) برای تعادل بین دقت و مصرف منابع.
-
استفاده از ابزارها: توانایی انجام جستجوی وب، اجرای کد پایتون و فراخوانی توابع.
-
خروجیهای ساختاریافته: پشتیبانی از فرمتهای استاندارد برای یکپارچگی با سیستمهای دیگر.
محدودیتها
با وجود قابلیتهای چشمگیر، این مدلها محدودیتهایی نیز دارند:
-
تکحالته بودن: تنها از ورودیهای متنی پشتیبانی میکنند و توانایی پردازش تصویر، ویدئو یا صدا را ندارند.
-
عدم انتشار کد منبع: این مدلها صرفاً «وزنباز» هستند و جزئیات معماری یا دادههای آموزشی آنها منتشر نشده است.

دسترسی عمومی
این مدلها بهصورت رایگان از طریق پلتفرمهای معتبر مانند Hugging Face، Databricks، Microsoft Azure و AWS در دسترس هستند. به گفته بنجامین سی. لی، استاد دانشگاه پنسیلوانیا، این اقدام OpenAI به افراد و سازمانهایی که به زیرساختهای عظیم محاسباتی دسترسی ندارند، امکان بهرهمندی از فناوری پیشرفته را میدهد.