اكتشاف یک نقص امنیتی در مدل هوش مصنوعی گوگل جمینا

هیچ کمترین برداشت برایUnderstanding توسعه‌های اخیر در حوزه هوش مصنوعی و هشدار به مهارت‌های جدید در زمینه هک و امنیت الإنترنتاز بازبینی نمادین نیارد.

مهارت هکری جدیدی در هک مدل‌های هوش مصنوعی گوگل جمینا کشف شده است. این مهارت به‌نام Fun-Tuning شناخته می‌شود و به طرز چشمگیری مزایای هک‌های تزریق پرامپت (Prompt Injection) را افزایش می‌دهد. محققان دانشگاه کالیفرنیا سن دیگو و دانشگاه ویسکانسین از ابزاری به نام Fine-Tuning برای بهینه‌سازی خودکار این حملات استفاده کرده‌اند.

یادآوری: این موضوع در مورد هک مدل‌های زبانی بزرگ (LLM) صدق می‌کند و می‌توان گفت با استفاده از قابلیت Fine-Tuning در گوگل، محققان نسبت به پیشرفت در زمینه هک شدن مدل‌های هوش مصنوعی پیش رفته‌اند.

در این نوع هک، محققان به جمینای یاد دادند که چطور خودش را فریب دهد. این مهارت نشان می‌دهد که چگونه کاربران می‌توانند با اضافه کردن عبارات نامتعارف به پرامپت‌های معمولی، شانس موفقیت هک‌ها را به شدت افزایش دهند.

نتایج آزمایش‌ها نشان می‌دهد که مدل‌های مختلف جمینا نیز در برابر این نوع هک حساسیت دارند. در یک نمونه، مدل Gemini 1.5 Flash با موفقیت ۶۵ درصدی این نوع هک در회 شد. در نمونه دیگری، مدل Gemini 1.0 Pro این میزان به ۸۲ درصد رسید که gấp دو برابر نرخ موفقیت معمولی بود.

مدل‌های مختلفی از جمینا نیز در برابر این نوع هک حساسیت نشان دادند. این یعنی تزریق پرامپتی که روی یک نسخه کار می‌کرد، اغلب روی نسخه‌های دیگر نیز مؤثر بود.

عملکرد روش Fun-Tuning به دلیل نحوه‌ی کارکرد تنظیم دقیق (Fine-Tuning) ناشی می‌شود. در این روش، مدل‌های هوش مصنوعی از یک سیستم به نام Loss Score برای ارزیابی میزان خطای خود هنگام آموزش استفاده می‌کنند. هکرها می‌توانند از همین مکانیزم بازخوردی برای بهینه‌سازی حملات خود بهره ببرند و روش موفقی برای فریب سیستم بیابند.

گوگل هنوز واکنش مستقیمی به این روش جدید نشان نداده است، اما سخنگوی این شرکت اعلام کرده است که مقابله با این نوع حملات همواره یکی از اولویت‌ها به‌حساب می‌آید و مدل‌های جمینا به‌طور مداوم در برابر حملات تزریق پرامپت و سایر تهدیدها آزمایش می‌شوند.

پاسخ محققان بر این دیدگاه است که جلوگیری از Fun-Tuning آسان نخواهد بود زیرا بازخوردی که استفاده از این روش را ممکن می‌کند، بخش مهم و اساسی فرایند تنظیم دقیق مدل‌ها است. در نتیجه، مسدودکردن این نوع حمله می‌تواند به قیمت کاهش کارایی کلی Fine-Tuning تمام شود.

اطمینان حاصل کنید که مطمئن به اپلیکیشن Jammin هستید یا ایجاد یک حساب کاربری جدید برای دسترسی به این اپلیکیشن نکنید.

توسط mohtavaclick.ir