انتشار مدل های هوش مصنوعی وزن‌باز توسط OpenAI

اخبار اینترنت 2 دقیقه زمان مطالعه بروزرسانی در15 مرداد, 1404

شرکت OpenAI پس از شش سال از معرفی آخرین مدل متن‌باز خود (GPT-2 در سال ۲۰۱۹)، دو مدل جدید «وزن‌باز» با نام‌های GPT-OSS-120B و GPT-OSS-20B را منتشر کرد. این

شرکت OpenAI پس از شش سال از معرفی آخرین مدل متن‌باز خود (GPT-2 در سال ۲۰۱۹)، دو مدل جدید «وزن‌باز» با نام‌های GPT-OSS-120B و GPT-OSS-20B را منتشر کرد.

این مدل‌ها که تحت مجوز Apache 2.0 عرضه شده‌اند، امکان اجرای فناوری پیشرفته هوش مصنوعی را حتی روی سخت‌افزارهای شخصی مانند لپ‌تاپ‌ها فراهم می‌کنند و نویدبخش دسترسی گسترده‌تر به این فناوری هستند.

مشخصات فنی مدل‌های وزن‌باز جدید

هر دو مدل از معماری پیشرفته ترنسفورمر مبتنی بر Mixture-of-Experts (MoE) بهره می‌برند که کارایی و انعطاف‌پذیری بالایی را ارائه می‌دهد:

GPT-OSS-120B: این مدل با ۱۱۷ میلیارد پارامتر کلی و ۵.۱ میلیارد پارامتر فعال برای هر توکن، از ۱۲۸ متخصص در هر لایه استفاده می‌کند که تنها ۴ متخصص برای هر توکن فعال می‌شوند.
GPT-OSS-20B: این مدل با ۲۱ میلیارد پارامتر کلی و ۳.۶ میلیارد پارامتر فعال به ازای هر توکن، از ۳۲ متخصص در هر لایه بهره می‌برد.

هر دو مدل از پنجره متنی با ظرفیت ۱۲۸ هزار توکن پشتیبانی می‌کنند و با استفاده از توجه چندکوئری گروه‌بندی‌شده (با اندازه گروه ۸) و جاسازی موقعیتی چرخشی (RoPE)، عملکرد بهینه‌ای در پردازش متون طولانی ارائه می‌دهند.

نیازمندی‌های سخت‌افزاری مدل های وزن‌باز

GPT-OSS-120B: برای اجرا به یک کارت گرافیک با حافظه ۸۰ گیگابایتی نیاز دارد که استفاده از آن را برای کاربران عادی دشوار می‌کند.
GPT-OSS-20B: این مدل با حداقل ۱۶ گیگابایت رم روی لپ‌تاپ‌های معمولی قابل اجرا است و گزینه‌ای مناسب برای کاربران شخصی محسوب می‌شود.

عملکرد در مقایسه با دیگر مدل‌ها

بر اساس ارزیابی‌ها، مدل GPT-OSS-120B عملکردی نزدیک به مدل اختصاصی o4-mini شرکت OpenAI دارد و در برخی آزمون‌های ریاضی و سلامت حتی از آن پیشی گرفته است. همچنین، مدل GPT-OSS-20B با عملکردی مشابه مدل o3-mini، در حل مسائل ریاضی رقابتی (AIME 2024 و 2025) نتایج بهتری کسب کرده است. در آزمون چالش‌برانگیز Humanity’s Last Exam، مدل GPT-OSS-120B با کسب امتیاز ۱۹٪ در مقابل ۲۴.۹٪ مدل o3، توانایی‌های قابل‌توجه خود را به نمایش گذاشته است.

قابلیت‌های برجسته

این مدل‌ها از ویژگی‌های پیشرفته‌ای برخوردارند:

استدلال زنجیره‌ای (Chain-of-Thought): امکان تنظیم سطح استدلال (کم، متوسط، بالا) برای تعادل بین دقت و مصرف منابع.
استفاده از ابزارها: توانایی انجام جستجوی وب، اجرای کد پایتون و فراخوانی توابع.
خروجی‌های ساختاریافته: پشتیبانی از فرمت‌های استاندارد برای یکپارچگی با سیستم‌های دیگر.

محدودیت‌ها

با وجود قابلیت‌های چشمگیر، این مدل‌ها محدودیت‌هایی نیز دارند:

تک‌حالته بودن: تنها از ورودی‌های متنی پشتیبانی می‌کنند و توانایی پردازش تصویر، ویدئو یا صدا را ندارند.
عدم انتشار کد منبع: این مدل‌ها صرفاً «وزن‌باز» هستند و جزئیات معماری یا داده‌های آموزشی آن‌ها منتشر نشده است.

gpt oss playground

دسترسی عمومی

این مدل‌ها به‌صورت رایگان از طریق پلتفرم‌های معتبر مانند Hugging Face، Databricks، Microsoft Azure و AWS در دسترس هستند. به گفته بنجامین سی. لی، استاد دانشگاه پنسیلوانیا، این اقدام OpenAI به افراد و سازمان‌هایی که به زیرساخت‌های عظیم محاسباتی دسترسی ندارند، امکان بهره‌مندی از فناوری پیشرفته را می‌دهد.