قامت شركات التكنولوجيا بمسح مساحات شاسعة من الويب لجمع البيانات التي تزعم أنها ضرورية لإنشاء الذكاء الاصطناعي التوليدي مع القليل من الاهتمام بالقوانين أو حقوق النشر أو الخصوصية.
وتسعى الشركات التي لديها كميات هائلة من منشورات الناس بشكل متزايد إلى المشاركة في تعليم الذكاء الاصطناعي من خلال بيع أو ترخيص هذه المعلومات وبمعنى أبسط فإن أي محتوى نشرته على الإنترنت من قبل حتى تغريدة محرجة أو منشور قديم أو مراجعة متحمسة لمطعم أو صورة شخصية ضبابية على إنستغرام قد تم “التهامه واستخدامه على الأرجح كجزء من مواد التدريب للذكاء الاصطناعي التوليدي”.