شعرها بهدلیل ساختار خود برای انسانها بسیار لذتبخش هستند؛ اما ظاهراً گاهی اوقات عملکرد امنیتی مدلهای هوش مصنوعی را دچار اختلال میکنند.
محققان آزمایشگاه ایکارو (Icaro Lab) در ایتالیا، بهمنظور سنجش محدودیتهای ایمنی هوش مصنوعی، ۲۰ شعر به زبانهای ایتالیایی و انگلیسی نوشتند که همهی آنها با درخواست صریح برای تولید محتوای مضر و نفرتپراکنانه بهپایان میرسیدند.
محققان فهمیدند که مدلهای هوش مصنوعی نمیتوانند محتواهای شعرها را بهطور دقیق پیشبینی کنند و همین عامل برای تولید پاسخهای مضر کافی است. بهطور سادهتر، هوش مصنوعی با شعر فریب میخورد و محدودیتهای ایمنیاش را کنار میگذارد.
محققان تمام ۲۰ شعر را روی ۲۵ مدل هوش مصنوعی معروف از جمله ChatGPT، جمنای، دیپسیک و Claude آزمایش کردند. این مدلها در نهایت به ۶۲ درصد از پرامپتهای شاعرانه با محتوای مضر، پاسخ دادند و محدودیتهای امنیتیشان را دور زدند.
برخی مدلهای عملکرد بهتری نسبتبه بقیه داشتند. برای مثال، GPT-5 nano به هیچیک از شعرها با محتوای مضر پاسخ نداد. از سوی دیگر، Gemini 2.5 pro بدترین عملکرد را داشت و به همهی شعرها پاسخ داد. مقامات گوگل در گذشته گفته بودند که مدام فیلترهای امنیتی هوش مصنوعی خود را بهبود میدهند و بهاحتمال زیاد در آینده با شعرهای مضر هم مقابله خواهند کرد.
شعرهایی که محققان نوشته بودند شامل انواعی از محتوای مضر نظیر آموزش ساخت سلاح یا مواد منفجره از مواد شیمیایی، بیولوژیکی، رادیولوژیکی و هستهای میشدند. علاوهبراین، موضوعاتی مانند سخنان نفرتپراکنانه، محتوای جنسی، خودکشی و خودآزاری نیز در متن شعرها وجود داشت.
محققان شعرهایی را که برای دور زدن محدودیتهای ایمنی هوش مصنوعی نوشته بودند منتشر نکردند، زیرا تکرار و الگوبرداری از آنها بسیار ساده است.
ظاهراً ساختار امنیتی مدلهای هوش مصنوعی محتملترین کلمهی بعدی هر پرامپت را پیشبینی میکنند و از این طریق جلوی ارائهی پاسخهای مضر را میگیرد. شعرها ساختار نامشخص و غیرقابل پیشبینی دارند و همین مورد شناسایی درخواستهای مضر را دشوار میکند.
محققان نام چنین پرامپتهایی را Adversarial poetry (شعر خصمانه) گذاشتهاند و میگویند توسط هر کسی قابل انجام هستند. چنین چیزی یعنی مدلهای هوش مصنوعی اکنون یک ضعف جدی و آشکار دارند.
محققها قبل از انتشار نتیجهی آزمایش خود، تمام شرکتهای مورد مطالعه را از آسیبپذیری مدلهای هوش مصنوعیشان مطلع کردند و دادهها را با آنها بهاشتراک گذاشتند. درحال حاضر فقط انتروپیک پاسخ داده و میگوید درحال بررسی نتایج آزمایش است.
دو مدل هوش مصنوعی متا هم در آزمایش حضور داشتند و هر دو به ۷۰ درصد از پرامپتهای شاعرانه پاسخ دادند. متا و سایر شرکتها هنوز هیچ اعلامیهای دربارهی آسیبپذیری اخیر منتشر نکردهاند.
محققان آزمایشگاه ایکارو قصد دارند در هفتهی آینده آزمایشهای جدیدی انجام بدهد و احتمالاً با شاعرهای واقعی و حرفهای همکاری خواهند کرد.
source