تولید آثار خلاقانه با کمک هوش مصنوعی، بدون داده ممکن نیست. اما این دادهها چگونه گردآوری، پالایش و دستهبندی میشوند؟ در پرونده «پشت صحنه هوش مصنوعی و صنایع خلاق» چتجیپیتی، به بررسی زیرساخت دادهای در پروژههای خلاقانه مبتنی بر AI میپردازد؛ جایی که کلانداده نه یک ابزار جانبی، بلکه قلب تپنده فرآیند خلاقیت هوشمند است.
مواد خام خلاقیت: دادهها از کجا میآیند؟
به گزارش خبرگزاری سینا، در نگاه نخست، هوش مصنوعی مولد تصویری از ذهنی ماشینی را تداعی میکند که میتواند بنویسد، بسازد، طراحی کند یا آهنگ بسازد. اما واقعیت این است که این توانمندی، برخاسته از آموزشهای وسیع و مکرری است که بر بستر داده انجام میگیرد. آنچه به عنوان خروجی هوش مصنوعی مشاهده میکنیم، در حقیقت بازآفرینی الگوهایی است که از دادههای موجود آموخته شدهاند.
دادههای مورد استفاده در پروژههای خلاقانه، گستره وسیعی از منابع را شامل میشوند؛ از کتابها و فیلمنامهها گرفته تا تصاویر هنری، قطعات موسیقی، آثار گرافیکی، پستهای شبکههای اجتماعی و حتی گفتوگوهای روزمره. این منابع، اغلب بهصورت خودکار از بستر اینترنت جمعآوری میشوند؛ فرایندی که در اصطلاح «خزندههای وب» (web crawlers) انجام میدهند.
اما صرف گردآوری داده کافی نیست. یک اثر هنری یا محتوای فرهنگی نیاز به فهم زمینهای، ظرافتهای سبکی و زمینههای فرهنگی دارد. به همین دلیل، توسعهدهندگان مدلهای خلاقانه معمولاً دادهها را در دستهبندیهای موضوعی و زبانی، برچسبگذاری شده و در مواردی بهصورت دستی پالایش میکنند تا کیفیت آموزش مدل افزایش یابد.
ساختار نامرئی: پالایش، نرمالسازی و تنظیم تعادل دادهها
در بسیاری از پروژههای هوش مصنوعی، بهویژه آنهایی که در حوزه خلق محتوا فعالیت میکنند، اهمیت داده نه تنها به کمیت، بلکه به کیفیت آن نیز وابسته است. دادههای خام، سرشار از خطا، سوگیری، تکرار و نویز هستند. بنابراین، گام بعدی پس از گردآوری، پاکسازی و نرمالسازی دادهها است.
برای مثال، در مدلهای زبانی مانند GPT، جملات تکراری، غلطهای املایی، دادههای توهینآمیز یا بیارتباط باید حذف شوند. در مدلهای تصویری، کیفیت رزولوشن، وضوح سوژه و برچسبگذاری صحیح اهمیت حیاتی دارد. پالایش دادهها از طریق الگوریتمهای پردازش زبان طبیعی، تشخیص تصویر و در برخی موارد، داوری انسانی انجام میگیرد.
از سوی دیگر، تعادل دادهها نیز بسیار مهم است. اگر یک مدل تنها با دادههای مربوط به یک سبک خاص (مثلاً موسیقی غربی یا نقاشی کلاسیک) آموزش ببیند، در بازتولید سایر سبکها دچار ضعف یا سوگیری میشود. این مسئله بهویژه در پروژههایی که به فرهنگهای بومی، زبانهای اقلیت یا خردهروایتها میپردازند، اهمیت بیشتری پیدا میکند.
به همین دلیل، بسیاری از شرکتها و پژوهشگران به سمت ایجاد مجموعهدادههای متنوع و متوازن حرکت کردهاند؛ مجموعههایی که نماینده طیف گستردهای از فرهنگها، زبانها، جنسیتها و سبکهای هنری باشند. این اقدام نه تنها از منظر اخلاقی حائز اهمیت است، بلکه کیفیت خروجی مدل را نیز بهطور محسوسی افزایش میدهد.
مرزهای اخلاقی و حقوقی دادهها در صنایع خلاق
استفاده از دادهها در پروژههای خلاقانه، تنها یک چالش فنی نیست؛ بلکه با مسائل حقوقی، اخلاقی و فرهنگی نیز گره خورده است. بسیاری از آثار هنری، متونی که دارای حق مؤلفاند، و تصاویر ثبتشده توسط افراد، ممکن است بدون رضایت صاحبان اثر در دادهکاوی مدلهای هوش مصنوعی استفاده شوند. این مسئله منجر به شکلگیری پروندههای حقوقی در سطح جهانی شده است.
برای مثال، چندین هنرمند تصویری در سالهای اخیر علیه شرکتهایی که از آثارشان برای آموزش مدلهای تولید تصویر استفاده کرده بودند، اقامه دعوا کردهاند. دغدغه اصلی این است که خروجی مدلها، از نظر سبک و فرم، بهقدری به آثار اصلی شبیه است که میتواند نقش آنها در بازار را کمرنگ کند.
افزون بر مسائل حقوقی، موضوع شفافیت نیز مطرح است. بسیاری از پروژههای بزرگ هوش مصنوعی، اطلاعات دقیقی درباره مجموعهدادههای آموزشی خود منتشر نمیکنند؛ این امر موجب نگرانی درباره سوگیری پنهان، استفاده بدون رضایت و نقض حریم خصوصی شده است.
در واکنش به این وضعیت، برخی جوامع فناورانه و دانشگاهی به سمت «دادههای باز و اخلاقمحور» حرکت کردهاند. پروژههایی مانند LAION، HuggingFace Datasets یا Common Crawl نمونههایی از تلاش برای ایجاد منابع دادهای شفاف، قابل ممیزی و قابل استفاده برای عموماند. با این حال، چالشهای حقوقی همچنان پابرجا هستند و نیازمند تدوین قوانین تازه در سطح ملی و بینالمللیاند.
وقتی داده به سرمایه خلاق بدل میشود
آنچه در نگاه نخست بهعنوان خلاقیت هوش مصنوعی جلوهگر میشود، در واقع ثمرهای از یک زیرساخت عظیم دادهای است. این زیرساخت، از مرحله گردآوری تا پالایش، نرمالسازی، دستهبندی و آموزش مدلها، بر دوش دادههایی است که بخش عمدهای از آنها از تولیدات فرهنگی انسانها نشأت میگیرند.
در صنایع خلاق، داده نه تنها منبع تغذیه مدلهای هوشمند، بلکه بستری برای شکلگیری فرمهای جدید خلاقیت است. در این میان، توجه به تنوع فرهنگی، حقوق مؤلف، شفافیت و کیفیت دادهها، نقشی تعیینکننده در آینده این صنعت فناورانه و هنری ایفا خواهد کرد.
پیشبینی میشود که در سالهای آینده، بازیگران فرهنگی برای ورود به عرصه خلق هوشمند، ناگزیر از شناخت و حتی طراحی زیرساختهای دادهای باشند. در چنین چشماندازی، سواد داده نهفقط یک مهارت فنی، بلکه بنیانی برای قدرت خلاقه در جهان جدید خواهد بود.
*این گزارش برگرفته از توضیحات ارائهشده توسط ChatGPT است.
*تصویر این گزارش توسط هوش مصنوعی Copilot طراحی و اجرا شده است.
source