اكتشاف یک نقص امنیتی در مدل هوش مصنوعی گوگل جمینا
هیچ کمترین برداشت برایUnderstanding توسعههای اخیر در حوزه هوش مصنوعی و هشدار به مهارتهای جدید در زمینه هک و امنیت الإنترنتاز بازبینی نمادین نیارد.
مهارت هکری جدیدی در هک مدلهای هوش مصنوعی گوگل جمینا کشف شده است. این مهارت بهنام Fun-Tuning شناخته میشود و به طرز چشمگیری مزایای هکهای تزریق پرامپت (Prompt Injection) را افزایش میدهد. محققان دانشگاه کالیفرنیا سن دیگو و دانشگاه ویسکانسین از ابزاری به نام Fine-Tuning برای بهینهسازی خودکار این حملات استفاده کردهاند.
یادآوری: این موضوع در مورد هک مدلهای زبانی بزرگ (LLM) صدق میکند و میتوان گفت با استفاده از قابلیت Fine-Tuning در گوگل، محققان نسبت به پیشرفت در زمینه هک شدن مدلهای هوش مصنوعی پیش رفتهاند.
در این نوع هک، محققان به جمینای یاد دادند که چطور خودش را فریب دهد. این مهارت نشان میدهد که چگونه کاربران میتوانند با اضافه کردن عبارات نامتعارف به پرامپتهای معمولی، شانس موفقیت هکها را به شدت افزایش دهند.
نتایج آزمایشها نشان میدهد که مدلهای مختلف جمینا نیز در برابر این نوع هک حساسیت دارند. در یک نمونه، مدل Gemini 1.5 Flash با موفقیت ۶۵ درصدی این نوع هک در회 شد. در نمونه دیگری، مدل Gemini 1.0 Pro این میزان به ۸۲ درصد رسید که gấp دو برابر نرخ موفقیت معمولی بود.
مدلهای مختلفی از جمینا نیز در برابر این نوع هک حساسیت نشان دادند. این یعنی تزریق پرامپتی که روی یک نسخه کار میکرد، اغلب روی نسخههای دیگر نیز مؤثر بود.
عملکرد روش Fun-Tuning به دلیل نحوهی کارکرد تنظیم دقیق (Fine-Tuning) ناشی میشود. در این روش، مدلهای هوش مصنوعی از یک سیستم به نام Loss Score برای ارزیابی میزان خطای خود هنگام آموزش استفاده میکنند. هکرها میتوانند از همین مکانیزم بازخوردی برای بهینهسازی حملات خود بهره ببرند و روش موفقی برای فریب سیستم بیابند.
گوگل هنوز واکنش مستقیمی به این روش جدید نشان نداده است، اما سخنگوی این شرکت اعلام کرده است که مقابله با این نوع حملات همواره یکی از اولویتها بهحساب میآید و مدلهای جمینا بهطور مداوم در برابر حملات تزریق پرامپت و سایر تهدیدها آزمایش میشوند.
پاسخ محققان بر این دیدگاه است که جلوگیری از Fun-Tuning آسان نخواهد بود زیرا بازخوردی که استفاده از این روش را ممکن میکند، بخش مهم و اساسی فرایند تنظیم دقیق مدلها است. در نتیجه، مسدودکردن این نوع حمله میتواند به قیمت کاهش کارایی کلی Fine-Tuning تمام شود.
اطمینان حاصل کنید که مطمئن به اپلیکیشن Jammin هستید یا ایجاد یک حساب کاربری جدید برای دسترسی به این اپلیکیشن نکنید.