حتی با پیشرفتهای بسیاری که هوش مصنوعی مولد تاکنون داشته، همچنان نقصهایی وجود دارد که یکی از آنها توهم متقاعد کننده یا هذیان گویی است. حال شرکت دیپمایند گوگل راهحلی به نام “Search Augmented Factuality Evaluator” یا SAFE ارائه کرده که به نظر می رسد این مشکل اساسی را حل کرده است.
طبق مقاله دیپمایند و دانشگاه استنفورد، سیستم جدیدی به نام SAFE به منظور بررسی و صحتسنجی پاسخهای طولانی تولیدشده توسط چتباتهای هوش مصنوعی طراحی شده است. SAFE پاسخهای هوش مصنوعی را در چهار مرحله تجزیهوتحلیل، پردازش و ارزیابی میکند تا صحت و واقعیبودن آنها را بسنجد. در این فرآیند ابتدا پاسخ هوش مصنوعی به گزارههای مجزا تقسیم و پس از بازبینی، با نتایج جستجوی گوگل مقایسه شده و ارتباط هر گزاره را با سؤال اصلی مورد سنجش قرار می گیرد.
محققان برای ارزیابی عملکرد SAFE، یک دیتاسنتر به نام LongFact ایجاد کردهاند که شامل تقریباً 16 هزار گزاره است. در آزمایش این سیستم با 13 مدل زبانی بزرگ از چهار خانواده مختلف، که شامل GPT، جمینای، کلود و PaLM-2 بود، استفاده شده است.
نتایج نشان میدهند که در 72 درصد موارد، سیستم SAFE نتایج مشابه با حاشیهنویسان و مصححهای انسانی ارائه کرده و در 76 درصد موارد به درستی عمل کرده است. علاوهبراین، استفاده از این سیستم 20 برابر ارزانتر از مصححهای انسانی و میتوان از آن بهعنوان یک راهحل مقرونبهصرفه در مقیاس بزرگ استفاده کرد.