در واپسین روز از رویداد ۱۲ روزه معرفی محصولات و قابلیتهای نوین هوش مصنوعی OpenAI، این شرکت، مدل استدلالگر o3 را به عنوان جانشین مدل o1 معرفی کرد.
به گزارش تککرانچ، مدل هوش مصنوعی o3 در واقع خانوادهای متشکل از مدلهای o3 و o3-mini است. مدل مینی، با ابعاد کوچکتر و عملکرد سبکتر، برای انجام وظایف خاص بهینهسازی شده است. OpenAI مدعی است که خانواده o3، حداقل در شرایط خاص، به سطح هوش مصنوعی عمومی (AGI) نزدیک میشود. با این حال، باید توجه داشت که هنوز کاستیهای فراوانی وجود دارد و راه درازی تا دستیابی به یک مدل AGI واقعی در پیش است.
یکی از نکات جالب توجه، نامگذاری این مدل به جای o2، با o3 است. به نظر میرسد مسائل حقوقی در این تصمیم نقش داشتهاند. طبق گزارش نشریه اینفورمیشن، OpenAI برای جلوگیری از هرگونه تداخل و درگیری حقوقی احتمالی با اپراتور مخابراتی بریتانیایی O2، از نام o2 صرف نظر کرده است. «سم آلتمن»، مدیرعامل OpenAI، این موضوع را به طور ضمنی در جریان یک پخش زنده از سوی شرکت تأیید کرد.
عرضه پیشنمایش و بنچمارکهای مدل o3
در حال حاضر، مدلهای o3 و o3-mini به صورت گسترده در دسترس عموم قرار نگرفتهاند. با این وجود، متخصصان حوزه ایمنی میتوانند از امروز برای دسترسی به پیشنمایش o3-mini ثبتنام کنند. عرضه پیشنمایش o3 نیز در آیندهای نزدیک صورت خواهد گرفت، اما OpenAI هنوز تاریخ دقیقی برای آن اعلام نکرده است. آلتمن اظهار داشته که برنامه فعلی آنها، عرضه o3-mini در اواخر ژانویه و به دنبال آن، عرضه o3 است.
مدل هوش مصنوعی o3 با استفاده از روشی موسوم به «یادگیری تقویتی» آموزش دیده است تا پیش از ارائه پاسخ، در فرایندی که OpenAI آن را «زنجیره خصوصی تفکر» مینامد، به تحلیل و بررسی بپردازد. این مدل قادر است در حین انجام وظایف، استدلال کند و گامهای بعدی را از پیش برنامهریزی کند؛ در نتیجه، میتواند با برداشتن مجموعهای از گامهای منطقی، مسائل را حل کند.

یکی از ویژگیهای متمایز o3 نسبت به o1، قابلیت تنظیم زمان استدلال در مدل جدید است. این مدلها را میتوان به گونهای تنظیم کرد که زمان محاسبات (یا به اصطلاح «تفکر») کوتاه، متوسط یا طولانی داشته باشند. هرچه مدل o3 زمان بیشتری برای پردازش و تفکر داشته باشد، عملکرد بهتری از خود نشان میدهد.
در مورد ادعای نزدیک شدن o3 به سطح AGI، این مدل در بنچمارک ARC-AGI، که میزان توانایی یک سیستم هوش مصنوعی در یادگیری مهارتهای جدید خارج از دادههای آموزشی خود را میسنجد، به امتیاز قابل توجه ۸۷.۵ درصد دست یافته است. لازم به ذکر است که این امتیاز در حالت «تفکر طولانی» به دست آمده است. در بدترین حالت (با زمان تفکر کوتاه)، o3 سه برابر عملکرد بهتری نسبت به o1 ارائه میدهد.