گوگل با معرفی مدل زبان جمینای 2.0، نسل جدیدی از هوش مصنوعی را به نمایش گذاشت که با قابلیتهای چندرسانهای پیشرفته و تواناییهای چندعاملی، تحولی بزرگ در این حوزه ایجاد میکند.
رویدادی مهم بر روی دو مفهوم کلیدی native multimodal capabilities و Agentic Era، تصورات ما از تعامل با فناوری های AI را وارد عصر جدیدی می کند که تا پیش از این تصور نمی شد به این زودی ها محقق شود.
جمینای 2.0 را بشناسید
جمینای 2.0 جدیدترین عضو خانواده مدلهای زبان گوگل است که با استفاده از قابلیتهای پیشرفتهای مانند ورودی و خروجیهای چندرسانهای (تصویر، صدا، متن و ویدئو)، بهره وری از ابزارهای بومی و توانایی درک و پردازش موضوعات پیچیده، توانسته است مرزهای فناوری صنعت AI را گسترش دهد.
این توامندی ها عبارتند از:
1. قابلیتهای چندرسانهای پیشرفته
ورودی و خروجی چندرسانهای: جمینای 2.0 میتواند تصاویر و ویدئوها را تحلیل کرده و خروجیهایی مانند تصاویر و صداهای چندزبانه را تولید کند.
توسعه APIهای جدید: با معرفی API جدید “Multimodal Live API”، امکان ورودیهای زنده و ترکیبی (مانند صدا و ویدئو) برای توسعهدهندگان فراهم شده است.
2. مدل جمینای 2.0 فلش
نسخه فلش 2.0 با تأکید بر سرعت و عملکرد بهتر، عملکردی بالاتر از نسخههای قبلی دارد. این مدل میتواند ابزارهای مختلفی مانند جستجوی گوگل، اجرای کد و توابع تعریفشده توسط کاربران را بهصورت بومی فراخوانی و بر روی انها اقدامات لازم را انجام دهد.
3. قابلیت Deep Research
جمینای 2.0 با استفاده از توانایی استدلال پیشرفته و درک زمینههای طولانی، به کاربران امکان میدهد موضوعات پیچیده را بررسی و گزارشهایی جامع تهیه کنند. این قابلیت برای تحقیقهای علمی و دانشگاهی مفید بوده و گامی مهم برای تولید محتوای باکیفیت در سطح انسان به حساب می آید.
4. استفاده در محصولات گوگل
جمینای 2.0 در محصولات متعددی از جمله جستجوی گوگل و اپلیکیشن جمینای استفاده خواهد شد. این مدل بهویژه در حل مسائل پیچیده ریاضی، برنامهنویسی و پاسخ به پرسشهای چندمرحلهای نقشآفرینی میکند و انتظار می رود سال آینده جستجوی گوگل را متحول کند.
تأثیر جمینای بر جستجوی گوگل
با معرفی جمینای 2.0، جستجوی گوگل دستخوش تغییرات گستردهای خواهد شد. این مدل در تولید پاسخهای “AI Overviews” نقش بسزایی ایفا میکند و به گوگل امکان میدهد تا:
- موضوعات پیچیده و پرسشهای چندمرحلهای را بهتر مدیریت کند.
- مسائل پیچیده ریاضی و کدنویسی را حل کند.
- پرسشهایی که به دادههای چندرسانهای نیاز دارند (مانند تصویر یا ویدئو) را پاسخ دهد.
گوگل اعلام کرده است که آزمایش محدود این قابلیت آغاز و عرضه گستردهتر آن برای اوایل سال آینده میلادی برنامهریزی شده است.
پروژههای تحقیقاتی مرتبط با جمینای 2.0
پروژه آسترا:
دستیار هوشمند یونیورسال که قابلیتهایی مانند مکالمه چندزبانه، استفاده از ابزارهای گوگل لنز و نقشه و حافظه شخصیسازیشده را ارائه میدهد. آسترا همچنین توانایی مکالمه با درک بهتر لهجهها و کلمات نادر را دارد و می تواند با محیط پیرامون شما ارتباط زنده برقرار کند.
پروژه مارینر:
ایجنت هوش مصنوعی برای تعامل از طریق مرورگر که با درک اطلاعات از صفحات وب میتواند وظایف پیچیدهای مانند پر کردن فرمها یا یافتن اطلاعات خاص را انجام دهد. مارینر در حال حاضر توسط گروهی از کاربران منتخب در حال آزمایش است.
پروژه جولز:
دستیار برنامهنویسان که با تحلیل و برنامهریزی، وظایف کدنویسی را مدیریت کرده و بهطور مستقیم در جریان کاری گیتهاب یکپارچه میشود.
کاربرد جمینای در بازیها
جمینای 2.0 میتواند بهعنوان یک ایجنت مجازی در بازیهای ویدئویی عمل کند و با تحلیل محیط بازی، پیشنهاداتی در زمان واقعی ارائه دهد. همکاری با شرکتهایی مانند سوپرسل (Supercell) بخشی از این تلاش است.
توسعه سختافزاری و امنیتی جمینای
جمینای 2.0 با استفاده از نسل ششم TPUهای گوگل (Trillium) آموزش داده شده که این سختافزارها برای مشتریان گوگل نیز قابلدسترسی هستند. این مدل از روشهای پیشرفتهای برای کاهش خطرات احتمالی استفاده میکند که نمونهای از این اقدامات، توانایی شناسایی و جلوگیری از سوءاستفاده از طریق تزریق دستورات مخرب است.


