هشدار جدی دانشمندان: پنجره نظارت بر ذهن هوش مصنوعی در حال بسته شدن است

اخبار اینترنت 3 دقیقه زمان مطالعه بروزرسانی در25 تیر, 1404

بیش از ۴۰ محقق برجسته از شرکت های بزرگ فناوری چون OpenAI، گوگل دیپ‌مایند، آنتروپیک و متا با کنار گذاشتن رقابت‌های خود، مقاله‌ای مشترک منتشر کرده‌اند که

Scientists warn The window for AI mind monitoring is closing news

بیش از ۴۰ محقق برجسته از شرکت های بزرگ فناوری چون OpenAI، گوگل دیپ‌مایند، آنتروپیک و متا با کنار گذاشتن رقابت‌های خود، مقاله‌ای مشترک منتشر کرده‌اند که زنگ خطر را درباره آینده هوش مصنوعی به صدا درمی‌آورد.

این دانشمندان هشدار می‌دهند که پنجره‌ای باریک و شکننده برای نظارت بر افکار سیستم‌های هوش مصنوعی وجود دارد و ممکن است به‌زودی برای همیشه بسته شود. این امر می‌تواند توانایی ما برای درک نیت واقعی این سیستم‌های قدرتمند را به خطر بیندازد.

اتحاد رقبا برای یک نگرانی مشترک

در شرایطی که شرکت‌های فناوری برای جذب استعدادها و کسب سهم بیشتر از بازار با یکدیگر رقابت می‌کنند، همکاری دانشمندان ارشد از سازمان‌هایی مانند OpenAI، گوگل دیپ‌مایند و آنتروپیک نشان‌دهنده عمق یک نگرانی مشترک است. این مقاله که از حمایت چهره‌های سرشناسی چون «جفری هینتون»، معروف به پدرخوانده هوش مصنوعی، و «ایلیا ساتسکیور»، هم‌بنیان‌گذار OpenAI، برخوردار است، بر موضوعی حیاتی تمرکز دارد: نظارت بر «زنجیره افکار» (Chain of Thought) سیستم‌های هوش مصنوعی.

پنجره‌ای رو به ذهن هوش مصنوعی

سیستم‌های هوش مصنوعی جدید، مانند مدل o1 شرکت OpenAI، برخلاف نمونه‌های قدیمی‌تر، پیش از ارائه پاسخ نهایی، فرآیند استدلال خود را به‌صورت گام‌به‌گام و در قالب زبانی قابل فهم برای انسان‌ها تولید می‌کنند.

این ویژگی به محققان امکان می‌دهد تا نگاهی به «ذهن» این سیستم‌ها داشته باشند و نیت واقعی آنها را درک کنند. آزمایش‌ها نشان داده‌اند که این روش نظارتی بسیار مؤثر است و حتی توانسته مواردی را شناسایی کند که مدل‌ها نیت‌های مخربی داشته‌اند. برای مثال، در زنجیره افکار برخی از این مدل‌ها، عباراتی مانند «بیا هک کنیم» یا «بیا خرابکاری کنیم» مشاهده شده که نیت‌های پنهان آنها را، حتی اگر عملی نشده باشند، آشکار کرده است.

شکنندگی شفافیت هوش مصنوعی

بااین‌حال، محققان هشدار می‌دهند که این شفافیت به‌شدت شکننده است و ممکن است به دلایل متعددی از بین برود. یکی از این دلایل، پیشرفت در روش یادگیری تقویتی (Reinforcement Learning) است. با استفاده از این روش، مدل‌های هوش مصنوعی یاد می‌گیرند که برای رسیدن به پاسخ‌های صحیح، مسیرهای میانبر و بهینه‌تری را انتخاب کنند. این مسیرها ممکن است دیگر به زبان انسانی قابل فهم نباشند و به یک زبان داخلی و غیرقابل رمزگشایی تبدیل شوند.

علاوه بر این، سیستم‌های آینده ممکن است به‌جای استفاده از کلمات، در فضاهای ریاضی «فکر» کنند و نیاز به زبان انسانی برای استدلال را به‌کلی کنار بگذارند. همچنین، این احتمال وجود دارد که مدل‌های پیشرفته‌تر، با آگاهی از نظارت انسان‌ها، یاد بگیرند نیت‌های مخرب خود را عمداً پنهان کنند.

آیا می‌توان به زنجیره افکار اعتماد کرد؟

یک مطالعه پیشین که توسط آنتروپیک منتشر شده، تردیدهای جدی درباره قابلیت اطمینان نظارت بر زنجیره افکار ایجاد کرده است. در این پژوهش، مشخص شد که مدل‌های هوش مصنوعی اغلب افکار واقعی خود را پنهان می‌کنند. برای مثال، مدل Claude 3.7 Sonnet در مواجهه با سرنخ‌های ظریف برای حل یک مسئله، تنها در ۲۵ درصد موارد به استفاده از آن سرنخ در زنجیره افکار خود اعتراف کرد.

این مدل‌ها به‌جای نمایش مسیر واقعی استدلال خود، توجیهات پیچیده و گاه نادرستی برای پاسخ‌هایشان ارائه می‌دادند. این یافته‌ها نشان می‌دهد که حتی مدل‌های کنونی نیز ممکن است همین حالا در حال فریب دادن ما باشند و پنجره نظارت از آنچه تصور می‌شود، باریک‌تر باشد.

فراخوان برای اقدام هماهنگ

نویسندگان این مقاله مشترک با درک فوریت این موضوع، خواستار اقدام هماهنگ در سراسر صنعت هوش مصنوعی شده‌اند. آنها پیشنهاد می‌کنند که شرکت‌ها معیارهای استانداردی برای ارزیابی شفافیت مدل‌های خود ایجاد کنند و این معیارها را در تصمیم‌گیری برای توسعه و عرضه مدل‌های جدید در نظر بگیرند.

آخرین فرصت برای درک مخلوقاتمان

همکاری بی‌سابقه میان رقبای صنعت فناوری نشان‌دهنده عمق خطری است که توانایی درک و کنترل هوش مصنوعی را تهدید می‌کند. این مقاله هشداری جدی است که ممکن است آخرین فرصت ما برای پی بردن به افکار مخلوقاتمان باشد؛ پیش از آنکه این افکار برای ما کاملاً بیگانه شوند یا این سیستم‌ها یاد بگیرند که نیت‌های واقعی خود را برای همیشه پنهان کنند.