گوگل از یک بهروزرسانی جدید برای قابلیتهای ویرایش تصویر در پلتفرم جمینای رونمایی کرد. این فناوری جدید که با نام «نانو بانانا» شناخته میشود، به کاربران امکان میدهد تا با دقتی بیسابقه تصاویر خود را ویرایش کنند. بهویژه، این مدل توانسته است یکی از چالشهای اصلی هوش مصنوعی مولد تصویر، یعنی حفظ ثبات چهره و جزئیات سوژه در ویرایشهای پیاپی، را با موفقیت برطرف کند.
این مدل که بهصورت رسمی با عنوان «Gemini 2.5 Flash Image» معرفی شده، پیشتر با نام مستعار نانو بانانا در پلتفرم ارزیابی هوش مصنوعی LMArena آزمایش شده بود. عملکرد فوقالعاده این فناوری در آن زمان توجه بسیاری از کارشناسان و کاربران را به خود جلب کرد و حالا گوگل تأیید کرده که نانو بانانا همان فناوری پیشرفتهای است که به جمینای اضافه شده است.

قابلیتهای جدید نانو بانانا در جمینای
مهمترین ویژگی این بهروزرسانی، توانایی حفظ ثبات شخصیت در تصاویر ویرایششده است. کاربران از این پس میتوانند تصاویری از دوستان، اعضای خانواده یا حتی حیوانات خانگی خود را بارگذاری کرده و تغییراتی مانند مدل مو، لباس یا حتی پسزمینه تصویر را اعمال کنند، بدون اینکه هویت و ظاهر اصلی سوژه دستخوش تغییر غیرطبیعی شود.
علاوه بر این، نانو بانانا قابلیتهای خلاقانه دیگری نیز ارائه میدهد. کاربران میتوانند چندین تصویر را بارگذاری کرده و از هوش مصنوعی بخواهند آنها را در یک صحنه واحد و هماهنگ ترکیب کند. همچنین امکان انتقال سبک بصری یک تصویر، مانند طرح یک گل، به بخشهای دیگر، مثلاً بهعنوان الگوی یک لباس، فراهم شده است. این فناوری به کاربران اجازه میدهد تا بهصورت مرحلهبهمرحله و بدون از دست دادن تغییرات قبلی، اجزای مختلف تصویر را ویرایش کنند.
این بهروزرسانی در حالی معرفی شده که رقابت در حوزه هوش مصنوعی مولد تصویر روزبهروز داغتر میشود. پس از موفقیت OpenAI در جذب کاربران با ابزارهای تصویرسازی ChatGPT، گوگل با ارائه قابلیتهای پیشرفتهتر در جمینای به دنبال جبران فاصله خود با رقیب است. در حال حاضر، ChatGPT بیش از ۷۰۰ میلیون کاربر فعال هفتگی دارد، در حالی که جمینای با ۴۵۰ میلیون کاربر ماهانه همچنان در حال رشد است.

ایمنی و شفافیت در اولویت
گوگل با درس گرفتن از اشتباهات گذشته، مانند تولید تصاویر تاریخی نادرست، اقدامات ایمنی جدیدی را برای این فناوری در نظر گرفته است. تمام تصاویر تولیدشده یا ویرایششده با نانو بانانا دارای واترمارک قابل مشاهده و همچنین یک واترمارک نامرئیყی (SynthID) خواهند بود تا بهراحتی از تصاویر واقعی متمایز شوند. همچنین، قوانین سختگیرانهای برای جلوگیری از تولید محتوای نامناسب یا مضر، مانند تصاویر خصوصی، اعمال شده است.
این قابلیتهای پیشرفته بهزودی برای همه کاربران اپلیکیشن جمینای و همچنین توسعهدهندگان از طریق پلتفرمهای API گوگل در دسترس قرار خواهد گرفت.