تولید آثار خلاقانه با کمک هوش مصنوعی، بدون داده ممکن نیست. اما این داده‌ها چگونه گردآوری، پالایش و دسته‌بندی می‌شوند؟ در پرونده «پشت صحنه هوش مصنوعی و صنایع خلاق» چت‌جی‌پی‌تی، به بررسی زیرساخت داده‌ای در پروژه‌های خلاقانه مبتنی بر AI می‌پردازد؛ جایی که کلان‌داده نه یک ابزار جانبی، بلکه قلب تپنده‌ فرآیند خلاقیت هوشمند است.

 

مواد خام خلاقیت: داده‌ها از کجا می‌آیند؟

به گزارش خبرگزاری سینا، در نگاه نخست، هوش مصنوعی مولد تصویری از ذهنی ماشینی را تداعی می‌کند که می‌تواند بنویسد، بسازد، طراحی کند یا آهنگ بسازد. اما واقعیت این است که این توانمندی، برخاسته از آموزش‌های وسیع و مکرری است که بر بستر داده انجام می‌گیرد. آنچه به عنوان خروجی هوش مصنوعی مشاهده می‌کنیم، در حقیقت بازآفرینی الگوهایی است که از داده‌های موجود آموخته شده‌اند.

داده‌های مورد استفاده در پروژه‌های خلاقانه، گستره وسیعی از منابع را شامل می‌شوند؛ از کتاب‌ها و فیلم‌نامه‌ها گرفته تا تصاویر هنری، قطعات موسیقی، آثار گرافیکی، پست‌های شبکه‌های اجتماعی و حتی گفت‌وگوهای روزمره. این منابع، اغلب به‌صورت خودکار از بستر اینترنت جمع‌آوری می‌شوند؛ فرایندی که در اصطلاح «خزنده‌های وب» (web crawlers) انجام می‌دهند.

اما صرف گردآوری داده کافی نیست. یک اثر هنری یا محتوای فرهنگی نیاز به فهم زمینه‌ای، ظرافت‌های سبکی و زمینه‌های فرهنگی دارد. به همین دلیل، توسعه‌دهندگان مدل‌های خلاقانه معمولاً داده‌ها را در دسته‌بندی‌های موضوعی و زبانی، برچسب‌گذاری شده و در مواردی به‌صورت دستی پالایش می‌کنند تا کیفیت آموزش مدل افزایش یابد.

 

ساختار نامرئی: پالایش، نرمال‌سازی و تنظیم تعادل داده‌ها

در بسیاری از پروژه‌های هوش مصنوعی، به‌ویژه آن‌هایی که در حوزه خلق محتوا فعالیت می‌کنند، اهمیت داده نه تنها به کمیت، بلکه به کیفیت آن نیز وابسته است. داده‌های خام، سرشار از خطا، سوگیری، تکرار و نویز هستند. بنابراین، گام بعدی پس از گردآوری، پاک‌سازی و نرمال‌سازی داده‌ها است.

برای مثال، در مدل‌های زبانی مانند GPT، جملات تکراری، غلط‌های املایی، داده‌های توهین‌آمیز یا بی‌ارتباط باید حذف شوند. در مدل‌های تصویری، کیفیت رزولوشن، وضوح سوژه و برچسب‌گذاری صحیح اهمیت حیاتی دارد. پالایش داده‌ها از طریق الگوریتم‌های پردازش زبان طبیعی، تشخیص تصویر و در برخی موارد، داوری انسانی انجام می‌گیرد.

از سوی دیگر، تعادل داده‌ها نیز بسیار مهم است. اگر یک مدل تنها با داده‌های مربوط به یک سبک خاص (مثلاً موسیقی غربی یا نقاشی کلاسیک) آموزش ببیند، در بازتولید سایر سبک‌ها دچار ضعف یا سوگیری می‌شود. این مسئله به‌ویژه در پروژه‌هایی که به فرهنگ‌های بومی، زبان‌های اقلیت یا خرده‌روایت‌ها می‌پردازند، اهمیت بیشتری پیدا می‌کند.

به همین دلیل، بسیاری از شرکت‌ها و پژوهشگران به سمت ایجاد مجموعه‌داده‌های متنوع و متوازن حرکت کرده‌اند؛ مجموعه‌هایی که نماینده طیف گسترده‌ای از فرهنگ‌ها، زبان‌ها، جنسیت‌ها و سبک‌های هنری باشند. این اقدام نه تنها از منظر اخلاقی حائز اهمیت است، بلکه کیفیت خروجی مدل را نیز به‌طور محسوسی افزایش می‌دهد.

 

مرزهای اخلاقی و حقوقی داده‌ها در صنایع خلاق

استفاده از داده‌ها در پروژه‌های خلاقانه، تنها یک چالش فنی نیست؛ بلکه با مسائل حقوقی، اخلاقی و فرهنگی نیز گره خورده است. بسیاری از آثار هنری، متونی که دارای حق مؤلف‌اند، و تصاویر ثبت‌شده توسط افراد، ممکن است بدون رضایت صاحبان اثر در داده‌کاوی مدل‌های هوش مصنوعی استفاده شوند. این مسئله منجر به شکل‌گیری پرونده‌های حقوقی در سطح جهانی شده است.

برای مثال، چندین هنرمند تصویری در سال‌های اخیر علیه شرکت‌هایی که از آثارشان برای آموزش مدل‌های تولید تصویر استفاده کرده بودند، اقامه دعوا کرده‌اند. دغدغه اصلی این است که خروجی مدل‌ها، از نظر سبک و فرم، به‌قدری به آثار اصلی شبیه است که می‌تواند نقش آن‌ها در بازار را کم‌رنگ کند.

افزون بر مسائل حقوقی، موضوع شفافیت نیز مطرح است. بسیاری از پروژه‌های بزرگ هوش مصنوعی، اطلاعات دقیقی درباره مجموعه‌داده‌های آموزشی خود منتشر نمی‌کنند؛ این امر موجب نگرانی درباره سوگیری پنهان، استفاده بدون رضایت و نقض حریم خصوصی شده است.

در واکنش به این وضعیت، برخی جوامع فناورانه و دانشگاهی به سمت «داده‌های باز و اخلاق‌محور» حرکت کرده‌اند. پروژه‌هایی مانند LAION، HuggingFace Datasets یا Common Crawl نمونه‌هایی از تلاش برای ایجاد منابع داده‌ای شفاف، قابل ممیزی و قابل استفاده برای عموم‌اند. با این حال، چالش‌های حقوقی همچنان پابرجا هستند و نیازمند تدوین قوانین تازه در سطح ملی و بین‌المللی‌اند.

 

وقتی داده به سرمایه خلاق بدل می‌شود

آنچه در نگاه نخست به‌عنوان خلاقیت هوش مصنوعی جلوه‌گر می‌شود، در واقع ثمره‌ای از یک زیرساخت عظیم داده‌ای است. این زیرساخت، از مرحله گردآوری تا پالایش، نرمال‌سازی، دسته‌بندی و آموزش مدل‌ها، بر دوش داده‌هایی است که بخش عمده‌ای از آن‌ها از تولیدات فرهنگی انسان‌ها نشأت می‌گیرند.

در صنایع خلاق، داده نه تنها منبع تغذیه مدل‌های هوشمند، بلکه بستری برای شکل‌گیری فرم‌های جدید خلاقیت است. در این میان، توجه به تنوع فرهنگی، حقوق مؤلف، شفافیت و کیفیت داده‌ها، نقشی تعیین‌کننده در آینده این صنعت فناورانه و هنری ایفا خواهد کرد.

پیش‌بینی می‌شود که در سال‌های آینده، بازیگران فرهنگی برای ورود به عرصه خلق هوشمند، ناگزیر از شناخت و حتی طراحی زیرساخت‌های داده‌ای باشند. در چنین چشم‌اندازی، سواد داده نه‌فقط یک مهارت فنی، بلکه بنیانی برای قدرت خلاقه در جهان جدید خواهد بود.

 

 

*این گزارش برگرفته از توضیحات ارائه‌شده توسط ChatGPT است.

*تصویر این گزارش توسط هوش مصنوعی Copilot طراحی و اجرا شده است.

 

source

توسط mohtavaclick.ir