بیش از ۴۰ محقق برجسته از شرکت های بزرگ فناوری چون OpenAI، گوگل دیپمایند، آنتروپیک و متا با کنار گذاشتن رقابتهای خود، مقالهای مشترک منتشر کردهاند که زنگ خطر را درباره آینده هوش مصنوعی به صدا درمیآورد.
این دانشمندان هشدار میدهند که پنجرهای باریک و شکننده برای نظارت بر افکار سیستمهای هوش مصنوعی وجود دارد و ممکن است بهزودی برای همیشه بسته شود. این امر میتواند توانایی ما برای درک نیت واقعی این سیستمهای قدرتمند را به خطر بیندازد.
اتحاد رقبا برای یک نگرانی مشترک
در شرایطی که شرکتهای فناوری برای جذب استعدادها و کسب سهم بیشتر از بازار با یکدیگر رقابت میکنند، همکاری دانشمندان ارشد از سازمانهایی مانند OpenAI، گوگل دیپمایند و آنتروپیک نشاندهنده عمق یک نگرانی مشترک است. این مقاله که از حمایت چهرههای سرشناسی چون «جفری هینتون»، معروف به پدرخوانده هوش مصنوعی، و «ایلیا ساتسکیور»، همبنیانگذار OpenAI، برخوردار است، بر موضوعی حیاتی تمرکز دارد: نظارت بر «زنجیره افکار» (Chain of Thought) سیستمهای هوش مصنوعی.
پنجرهای رو به ذهن هوش مصنوعی
سیستمهای هوش مصنوعی جدید، مانند مدل o1 شرکت OpenAI، برخلاف نمونههای قدیمیتر، پیش از ارائه پاسخ نهایی، فرآیند استدلال خود را بهصورت گامبهگام و در قالب زبانی قابل فهم برای انسانها تولید میکنند.
این ویژگی به محققان امکان میدهد تا نگاهی به «ذهن» این سیستمها داشته باشند و نیت واقعی آنها را درک کنند. آزمایشها نشان دادهاند که این روش نظارتی بسیار مؤثر است و حتی توانسته مواردی را شناسایی کند که مدلها نیتهای مخربی داشتهاند. برای مثال، در زنجیره افکار برخی از این مدلها، عباراتی مانند «بیا هک کنیم» یا «بیا خرابکاری کنیم» مشاهده شده که نیتهای پنهان آنها را، حتی اگر عملی نشده باشند، آشکار کرده است.
شکنندگی شفافیت هوش مصنوعی
بااینحال، محققان هشدار میدهند که این شفافیت بهشدت شکننده است و ممکن است به دلایل متعددی از بین برود. یکی از این دلایل، پیشرفت در روش یادگیری تقویتی (Reinforcement Learning) است. با استفاده از این روش، مدلهای هوش مصنوعی یاد میگیرند که برای رسیدن به پاسخهای صحیح، مسیرهای میانبر و بهینهتری را انتخاب کنند. این مسیرها ممکن است دیگر به زبان انسانی قابل فهم نباشند و به یک زبان داخلی و غیرقابل رمزگشایی تبدیل شوند.
علاوه بر این، سیستمهای آینده ممکن است بهجای استفاده از کلمات، در فضاهای ریاضی «فکر» کنند و نیاز به زبان انسانی برای استدلال را بهکلی کنار بگذارند. همچنین، این احتمال وجود دارد که مدلهای پیشرفتهتر، با آگاهی از نظارت انسانها، یاد بگیرند نیتهای مخرب خود را عمداً پنهان کنند.
آیا میتوان به زنجیره افکار اعتماد کرد؟
یک مطالعه پیشین که توسط آنتروپیک منتشر شده، تردیدهای جدی درباره قابلیت اطمینان نظارت بر زنجیره افکار ایجاد کرده است. در این پژوهش، مشخص شد که مدلهای هوش مصنوعی اغلب افکار واقعی خود را پنهان میکنند. برای مثال، مدل Claude 3.7 Sonnet در مواجهه با سرنخهای ظریف برای حل یک مسئله، تنها در ۲۵ درصد موارد به استفاده از آن سرنخ در زنجیره افکار خود اعتراف کرد.
این مدلها بهجای نمایش مسیر واقعی استدلال خود، توجیهات پیچیده و گاه نادرستی برای پاسخهایشان ارائه میدادند. این یافتهها نشان میدهد که حتی مدلهای کنونی نیز ممکن است همین حالا در حال فریب دادن ما باشند و پنجره نظارت از آنچه تصور میشود، باریکتر باشد.
فراخوان برای اقدام هماهنگ
نویسندگان این مقاله مشترک با درک فوریت این موضوع، خواستار اقدام هماهنگ در سراسر صنعت هوش مصنوعی شدهاند. آنها پیشنهاد میکنند که شرکتها معیارهای استانداردی برای ارزیابی شفافیت مدلهای خود ایجاد کنند و این معیارها را در تصمیمگیری برای توسعه و عرضه مدلهای جدید در نظر بگیرند.
آخرین فرصت برای درک مخلوقاتمان
همکاری بیسابقه میان رقبای صنعت فناوری نشاندهنده عمق خطری است که توانایی درک و کنترل هوش مصنوعی را تهدید میکند. این مقاله هشداری جدی است که ممکن است آخرین فرصت ما برای پی بردن به افکار مخلوقاتمان باشد؛ پیش از آنکه این افکار برای ما کاملاً بیگانه شوند یا این سیستمها یاد بگیرند که نیتهای واقعی خود را برای همیشه پنهان کنند.