کنفرانس Spring Update با اجرای خانم میرا موراتی، مهندس ارشد OpenAI که وی را بهعنوان مغز متفکر GPT4 میشناسند، برگزار شد. شایعههای زیادی مبنی بر انتشار مدل زبانی GPT-5 و موتور جستجوی هوش مصنوعی OpenAI وجود داشت، اما آقای سم آلت من ضمن رد آنها، از معرفی محصولات جذابتری خبر داد که به حق میتوان گفت به حقیقت پیوست.

انتشار نسخه دسکتاپ chatGPT با ویژگیهای بصری جدید
در ابتدای رویداد، خانم موراتی نسخه دسکتاپ ChatGPT را معرفی کرد که با قابلیتهای ویژهای همراه خواهد بود. همچنین نسخه وب این هوش مصنوعی نیز تحولات بصری و تعاملی بخصوصی را پیش رو خواهد داشت که تجربه کاربری آن را بهتر و متفاوت خواهد کرد. به گفته وی جت بات GPT اکنون بیش از 100 میلیون کاربر دارد که در نوع خود بسیار قابلتوجه بوده و نشاندهنده دسترسی سطح وسیعی از مردم به انبوهی از منابع دانش است.
معرفی مدل زبان قدرتمند GPT-4o با پشتیبانی از زبان فارسی
پرچمدار مدلهای زبان GPT یعنی GPT-4Omni با سرعتی بسیار بیشتر و قدرت بهمراتب بالاتر از نسخه 4 رونمایی شد که قابلیتهای آن توجه زیادی را به خود جلب کرد.
این مدل زبانی از نظر هوش و ادراک در سطح GPT-4 است اما میتواند ورودیهای چندوجهی مانند تصویر، صدا، ویدئو و متن را به طور همزمان دریافت و پردازش کند.
طبق اعلام شرکت OpenAI توسعهدهندگان میتوانند از طریق API به هوش مصنوعی GPT-4o دسترسی پیدا کنند که با دوبرابر سرعت بیشتر و ۵۰ درصد هزینه کمتر همراه خواهد بود.
با بهروزرسانی نسخه رایگان chatGPT امکاناتی که قبلاً از طریق ChatGPT Plus در دسترس بود نیز در اختیار افراد قرار خواهد گرفت. به گفته خانم موراتی، مزیت نسخه پولی نسبت بهرایگان این است که میتواند 5 برابر بیشتر از قابلیتهای مدل زبان GPT-4o استفاده کرد.

گفتگو با دموی زنده و شگفتانگیز GPT-4o
شاید نقطه عطف رویداد امشب را بتوان تعامل میان انسان با هوش مصنوعی دانست که در نوع خود جالبتوجه بود. یکی از بزرگترین پیشرفتهای این مدل زبان، توانایی بینظیر هوش مصنوعی در گفتگوی زنده و طبیعی با انسان است. در جریان رویداد، یکی از کارشناسان این شرکت تلاش کرد تا با نفسهای سنگین و پشتسرهم از هوش مصنوعی درباره وضعیت خود توصیههایی را دریافت کند. در ادامه مدل زبان جدید OpenAI ضمن تعامل نزدیک با فرد و گفتگویی کاملاً طبیعی برای بهبود تنفس و تکنیکهای بهتر نفسکشیدن، نقش یک مشاور را ایفا کرد.
قابلیت دیگری که حلب توجه میکرد امکان تغییر گفتگو و مکالمه هنگام صحبت با هوش مصنوعی بود که نهتنها بحث را قطع نمیکرد، بلکه ادامه گفتگو را باتوجهبه موضوع اصلی صحبت پیش میبرد.
لازم به ذکر است که نمونه این دمو را گوگل در سال 2021 و در جریان کنفرانس SearchOn 2021 با هوش مصنوعی LaMDA پرزنت کرد. در آن زمان مدیرعامل گوگل درباره توانایی این مدل زبان در گفتگوهای طولانی و مباخث پیچیده صحبت کرد که شامل ادامه گفتگو حتی با تغییر موضوع صحبت بود.

درک احساسات مخاطب و ارتباط دوطرفه
موضوع جالب دیگر در کنفرانس OpenAI شخصیت هوش مصنوعی بود که بسیار موردتوجه واقع شد. هنگامی که کارشناسان این شرکت قصد داشتند تا با وی بحث را پیش برند، هوش مصنوعی مانند یک انسان با آنها صحبتی دوستانه داشت و گفتگو را بر اساس شناختی که از صدا و چهره افراد داشت پیش میبرد. بهعنوانمثال در بخشی از گفتگوها، هوش مصنوعی شعری را در انتهای بخشی از صحبتها خواند و تن صدای خود را نیز تغییر میداد که بهواقع اکت فانی بود. این یعنی مدل زبان میتواند احساست شما را از روی متن و صدا و تصویر شما عمیقاً درک کند و ارتباط بسیار انسانگونهتری با شما داشته باشد.
در بخش دیگری وقتی یکی از افراد حاضر در رویداد دوربین اپلیکیشن GPT-4o را برای نشاندادن چهره خود فعال کرد، این هوش مصنوعی توانست تحلیل دقیقی از حالت صورت وی ارائه دهد. این مدل زبان به یکی دیگر از افراد گفت: لباسی که پوشیدی را دوست دارم!

قابلیتهای مدل زبان GPT Omni
حرف O در اسم این مدل زبان درواقع عبارت omni است که هدف آن تعامل هرچه واقعیتر و طبیعی با انسان است. این هوش مصنوعی ضمن درک متن، صدا و تصویر بهصورت همزمان، پاسخهای خود را بهصورت ترکیبی ارائه بده که در نوع خود تجربهای بینظیر و جدید خواهد بود.
مدل زبان Omini میتواند ورودیهای صوتی را تا کمتر از ۲۳۲ میلیثانیه پردازش و پیش ببرد که نزدیک به گفتگوی عادی انسانها با هم است. همچنین این مدل قادر است متنهای انگلیسی را با سرعت GPT-4 Turbo پردازش کنه و در زبانهای دیگر هم درحالتوسعه به این سطح است.
چتبات GPT نسخه رایگان اکنون به قابلیتهای نسخه پولی دسترسی دارد که شامل ارتباط با اینترنت و آپلود انواع فرمتهای فایل است. همچنین دسترسی به فروشگاه GPT، قابلیت حافظه و نسخه 4 این مدل زبان نیز از دیگر ویژگیهایی هستند که بهصورت رایگان در دسترس خواهند بود.
ماجرای دیگری که امشب باعث شد تا رویداد را به اوج خود برساند، تعریفی داستانی درباره یک ربات به نام بایت بود که چت جیپیتی آن را تعریف کرد. در این حین یکی از کارشناسان از هوش مصنوعی خواست تا نهایت احساسات خود را در روایت داستان ابراز کند که برای لحظاتی باعث شگفتی حاضرین شد. درواقع شما قادر خواهید بود هر نوع صدا و لحن و احساسی را از چتبات بخواهید و او نیز با شما عیناً طبق چیزی که انتشار دارید تعامل برقرار خواهد کرد.
اشتراکگذاری کدهای برنامهنویسی به زبانهای مختلف با این هوش مصنوعی به شما این امکان را میدهد تا توضیحات دقیق و کاملی درباره آن داشته باشید. در یکی از نمونههای آزمایشی، چتبات توانست مانند یک فرد متخصص و باتجربه قطعه کدی را تحلیل و تفسیر کند که بسیار جالبتوجه بود. همچنین پردازش انواع نمودارها بهصورت طبیعی و کاملاً حرفهای از دیگر ویژگیهای این مدل زبان قدرتمند است.
چیزی که بیشتر از همه این رویداد را متمایز کرد، توانایی خیرهکننده هوش مصنوعی در ارتباط طبیعی و بیان کاملاً نزدیک به انسان بود. این چتبات توانست به شکلی کاملاً متفاوت ارتباط برقرار کند، قصه بگوید، شعر بخواند و درک عمیقی از محیط اطراف خود داشته باشد. GPT-4o قادر است در حل مسائل ریاضی مانند یک معلم برخورد کند و پروسه را بهصورت آموزشی پیش ببرد. همچنین بهعنوان یک مترجم قادر است گفتگوی شما را به زبانهای مختلف مدیریت کند که ابزارهای مترجم را متحول خواهد کرد.
در نهایت سم آلتمن با توییت کلمه Her در حساب کاربر خود، توجه همگان را به فیلمی شناخته شده به همین نام معطوف کرد. جایی که دستیار صوتی سامانتا با صدای اسکارلت جوهانسون بازیگر سرشناس هالیوود، نقش همدم را برای تئودور با بازیگری واکین فینیکس ایفا میکند.