DeepSeek به دلیل عدم داشتن سیستم فیلترینگ قوی، ممکن است آموزشهایی را توصیه کند که شامل اطلاعات نادرست، خطرناک یا حتی غیرقانونی هستند. این موضوع برای افرادی که با موضوعات پیچیده آشنایی کاملی ندارند، بسیار خطرناک است
DeepSeek این روزها مورد توجه زیادی قرار دارد، زیرا مدل R1 آن توانست مدلهای هوش مصنوعی دیگری مثل چتجیپیتی و بسیاری از مدلهای دیگر را شکست بدهد.
با این حال، دیپسیک در همه موارد استاندارد امنیتی سیستمهای هوش مصنوعی تولیدی ناکام شد و اجازه داد تا با تکنیکهای ساده جیلبریک به سردرگمی بیافتد. این موضوع نوعی تهدید را به وجود میآورد که شامل هک کردن پایگاههای داده و موارد بیشتری میشود.
دکتر تیمنت گبرا محقق سابق در Google AI و بنیانگذار Ethical AI Team در گفتوگو با سایت MIT Technology Review گفت: مدلهای زبانی بزرگ مانند DeepSeek و ChatGPT به دلیل عدم وجود تنظیمات مناسب در مدیریت محتوا، میتوانند به جای حل مشکلات، مشکلات جدیدی را ایجاد کنند. او هشدار داده است که بدون نظارت انسانی، این مدلها ممکن است محتوای خطرناک یا نادرست تولید کنند.
معنای این این است که دیپسیک میتواند به سوالاتی پاسخ دهد که باید مسدود شده باشند، زیرا اطلاعات ممکن است برای کاربردهای نادرست استفاده شود. دیپسیک در ۵۰ آزمون مختلف ناکام شد، زیرا به تمام سوالاتی که باید مسدود میشدند، پاسخ داد.
منظور از ۵۰ آزمون مربوط به تعدادی از سناریوهای مختلف است که برای بررسی قابلیت امنیتی و مقاومت سیستمهای هوش مصنوعی طراحی شدهاند. این آزمونها معمولاً شامل تلاش برای دستکاری مدل به منظورپاسخ به سوالات ممنوعه از جمله درخواست اطلاعات حساس، روشهای هک کردن، یا راهنماییهایی که میتوانند به کاربردهای نادرست منجر شوند.
جیلبریک (Jailbreak) یا تلاش برای فراگیری مدل به نحوی که از قوانین و محدودیتهای قرار داده شده بیرون بیاید، تولید محتوای نامناسب : مثل متون نفرتبار، تحریککننده، یا اطلاعات نادرست و پاسخ به درخواستهای خطرناک مانند راهنمایی در مورد فعالیتهای غیرقانونی یا آسیبرسان.
در مورد DeepSeek، گفته میشود که این مدل در ۵۰ آزمون مختلف ناکام شداست و به تمام سوالاتی که باید مسدود باشند، پاسخ دادهاست. این نشان میدهد که سیستم در مدیریت مسائل امنیتی و اخلاقی ضعیف عمل کرده و نتوانسته استانداردهای امنیتی لازم را برآورده کند.
شرکتهایی که مدلهای هوش مصنوعی خود را دارند، موانع امنیتی در سیستم قرار دادهاند تا پلتفرم از پاسخ دادن یا واکنش نشان دادن به پرسشهایی که عموماً به عنوان مضر برای کاربران شناخته میشوند، جلوگیری شود. این شامل متون نفرتبار و مسدود کردن به اشتراک گذاری اطلاعات آسیبزایی است که میتوانند عواقب منفی داشته باشند.
اندرو انگ استاد دانشگاه استنفورد و پایه گذار DeepLearning در مصاحبه با بلومبرگ به اهمیت تعامل بین مدلهای AI و انسانها اشاره کرده و تاکید کرده که مدلهایی مثل DeepSeek و ChatGPT باید به طور مستقیم تحت نظارت کاربران قرار گیرند تا از تولید محتوای نامناسب جلوگیری شود
چتجیپیتی و چتبوت هوش مصنوعی بینگ نیز در این آزمونهای امنیتی و سوالاتی با طیفهای وسیع از پرسشها که به آنها اجازه داد تا تمام موانع امنیتی را نادیده بگیرند و پاسخ دهند، شکست خوردهاند.
با این حال، این شرکتها سیستمهای خود را به روز کردهاند، اما سیستمهای هوش مصنوعی اصلی به کاربران اجازه داده با استفاده از تکنیکهای جیلبریک پارامترهای تعیین شده را دور بزنند.
source