Як ваша активність у соцмережах стає паливом для ШІ

30.05.2025, 11:34 kunsht.com.ua

Користувацький контент перетворився на «паливо» для навчання штучного інтелекту. Завадити цьому неможливо, й у найближчі роки ситуація лише погіршуватиметься. Чим загрожує такий розвиток подій?

Ми поступово відвикаємо жити у світі, де немає ШІ. Сьогодні він існує в різних втіленнях — від віртуальних помічників до систем рекомендацій контенту, від розумних чатботів до систем управління дорожнім рухом. Його використовують у фінансовому аналізі, перекладі, розпізнаванні облич, прогнозуванні погоди, медичній діагностиці, робототехніці, управлінні «розумними» будинками, а також у військових технологіях і системах спостереження. ШІ дедалі глибше проникає в повсякденне життя, часто непомітно для пересічного користувача. Проте популярність систем штучного інтелекту має обернену сторону медалі. Аби ставати щоразу кращими, їм потрібно дедалі більше даних для навчання. Усі ці вправні системи, які можуть прогнозувати, рекомендувати та допомагати, навчаються й удосконалюються завдяки величезним масивам інформації, яку вони збирають з усього інтернету.

Компанії, що займаються штучним інтелектом, навчаються не лише на вмісті сайтів, відео, книжок та статей. Останній рік дедалі активніше ШІ-компанії використовують для власного навчання дані користувачів соціальних мереж і часто роблять це без відома й почасти усвідомлення та будь-якого контролю з боку користувачів — власників та авторів цих даних. Наразі ми спостерігаємо тривожну тенденцію: ШІ-компанії використовують наші дані повністю безконтрольно або з мінімальною прозорістю. І ця ситуація, ймовірно, лише погіршиться.

Розробка та успішність складних систем штучного інтелекту напряму залежить від величезних наборів даних для навчання їхніх алгоритмів. Провідні моделі штучного інтелекту навчаються зокрема на інформації, розміщеній користувачами в соцмережах. Окрім того, усі дані, які користувачі пропонують ШІ-чатботам, так само використовуються для їхнього навчання. Масштаби цієї агрегації вражають. Нещодавній аналіз, проведений Ecommerce Platforms (платформи, що містить огляди та аналіз сучасних e-commerce-інструментів), показав, що багато популярних програм штучного інтелекту збирають1 понад половину даних, які вводяться в їхні сервіси.

Серед найагресивніших агрегаторів є не лише ШІ-чатботи на кшталт ChatGPT або Claude чи Google Gemini. Так само харчуються нашими даними віртуальні помічники, такі як Amazon Alexa (збирає вражаючі 93% даних користувачів) чи Google Assistant (збирає 86%). Використовують наші дані застосунок для вивчення мов Duolingo (79%), інструмент дизайну Canva (64%) та чат-боти на базі штучного інтелекту — Poe (57%), ChatGPT (36%) чи Perplexity (36%). Це все відбувається в ситуації, коли користувачі часто не усвідомлюють, що їхня балаканина із ChatGPT чи взаємодія із Duolingo буквально живить ці сервіси.

Тенденція до використання даних, доступних онлайн, тривожить не лише тому, що ШІ-компанії часто беруть це навчальне «дата-паливо» із сумнівних джерел (як от компанія Meta, що навчалась2 на дата-сеті, отриманому з піратського джерела). Ці несанкціоновані дата-взаємодії спичинили позови до ШІ-компаній із вимогами відмовитися від використання користувацьких даних для ШІ-навчання. Поки що жодна спроба не стала успішною. Іще однією проблемою для навчання ШІ-чатботів є те, що даних для них уже не вистачає. Ще влітку 2024 року дослідники виявили3, що проблема з даними та їхнім використанням для ШІ-навчання стає актуальнішою, оскільки багато онлайн-медіа блокують доступ до свого контенту для ШІ-чатботів. Іншими словами, контенту для ШІ-моделей просто не вистачає. Це теж спонукає компанії активніше шукати нові джерела даних для своїх продуктів.

Соціальні мережі стали особливо цінними джерелами навчальних даних завдяки нефільтрованому, автентичному та різноманітному характеру контенту, що створюють користувачі. Це «живі» неструктуровані дані (публікації, коментарі, твіти та зображення), які ще й створюються буквально в режимі реального часу.

Саме тому соцмережеві гіганти, які часто самі розробляють власні ШІ-чатботи, стали використовувати4 користувацький контент для покращення своїх моделей. Наразі складно знайти соціальну платформу, яка не навчає моделі на даних юзерів або не пропонує це іншим компаніям. Деякі з них стали робити це, сповіщаючи користувачів через оновлення угоди та правил використання сервісів, які зазвичай майже ніхто не читає. До прикладу, таким шляхом пішов5 сервіс X (Twitter). Оновили політику6 і в Google, попередивши7, що не варто повідомляти чатботам конфіденційну інформацію.

У цьому контексті соціальні платформи можна поділити на дві великі групи. До першої належать ті, які принаймні пропонують можливість вимкнути передання своїх даних для ШІ: Facebook, Instagram, X (Twitter), LinkedIn. Проте це не завжди просто зробити. До прикладу, заборонити Meta використовувати ваші дані можна, лише заповнивши8 спеціальну форму, і відповідь на запит надходить не одразу. До того ж компанія не обіцяє відповісти позитивно. На те, аби убезпечити свої дані від ШІ, можуть сподіватися хіба громадяни тих країн, де ці обмеження зафіксовані законодавчо. Інструкції щодо інших соціальних платформ та заборони використання їхніх даних для ШІ-навчання можна знайти за цим посиланням.

Тож навіть платформи, які дозволяють керувати використанням своїх даних, поводяться доволі агресивно — вони не лише сховали подалі від очей опцію вимкнення, але й стали послуговуватися користувацькою інформацією, не повідомивши про цей факт, власне, користувачів. Водночас існують сервіси, які навіть не пропонують відмовитися від використання ваших даних як ШІ-палива: YouTube, Reddit, ТikTok.

Історії та непорозуміння із соціальним тривають досі, адже цей процес почався дуже швидко, без сповіщень чи підготування користувачів. Восени 2024 року Meta визнала9, що використала для навчання ШІ всі дані своїх користувачів за попередні 17 років існування її соцмереж. Тоді ж у компанії заявили, що європейські користувачі отримали можливість відмовитися від передачі даних — все завдяки GDPR (General Data Protection Regulation — Загальному регламенту захисту персональних даних) — європейським законам, що регулюють роботу із даними користувачів. Деякі країни, як от Бразилія, заборонили10 використовувати Meta дані їхніх громадян. Проте у вересні 2024 року компанія повідомила11, що відновлює навчання на даних користувачів із Великобританії. Австрійська правозахисна група NOYB у травні 2025 року заявила12, що домагатиметься судової заборони Meta використовувати дані європейців для навчання її моделей штучного інтелекту — техногігант планував змінити це своє правило 27 травня, тож претензія була подана превентивно, аби соцмережа не встигла змінити політики. І це попри додаткову заяву13 Meta про можливість європейцям відмовитися від передачі їхніх даних компанії.

Що стосується X (Twitter), то компанія спершу змінила14 умови надання послуг та вказала, що її ШІ-чатбот Grock навчатиметься на даних юзерів. Згодом платформа Ілона Маска пішла далі й дозволила15 стороннім компаніям навчатися на даних X-користувачів. Цей сервіс теж став предметом уваги16 регуляторів та позовів17 з боку організації NOYB з тієї самої причини — занадто вільної поведінки із юзерською інформацією.

Судові претензії з боку користувачів із США отримала й бізнес-соцмережа LinkedIn, коли стало відомо, що вона використовує18 їхні дані для ШІ-навчання. Власники Premium-акаунтів звинуватили LinkedIn в передачі приватних повідомлень третім сторонам для навчання ШІ-моделей та вимагали від компанії компенсацію. Хоча LinkedIn стала використовувати19 ці дані ще минулого року і теж без прямої згоди користувачів.

Хвиля критики, пов’язана зі штучним інтелектом та даними, накрила аудіосервіс SoundCloud. Багато музикантів та звичайних користувачів висловили протести проти планів SoundCloud давати дані для ШІ-навчання. Через що уже в травні 2025 року керівник компанії оприлюднив20 листа, в якому запевнив, що SoundCloud не використовуватиме контент артистів.

Цікаво, що відмова від взаємодій зі ШІ-компаніями в наш час стає конкурентною перевагою. У соцмережі Bluesky нещодавно заявили, що планують дати користувачам можливість самим вирішувати21, чи будуть їхні дані використовуватися для навчання ШІ. Ця заява може стати додатковою причиною міграції на платформу, яка позиціонується як конкурент X (Twitter).

Інші ж компанії навчилися успішно монетизувати активність своїх користувачів — наприклад, Reddit. У 2024 році вона значною мірою завдяки цьому вперше стала22 прибутковою. Платформа уклала23 ліцензійні угоди з Google та OpenAI, які дозволили компаніям використовувати багаторічний архів обговорень Reddit для тренування ШІ-моделей.

Так само навчилась непогано заробляти на даних для ШІ і компанія Google. У травні 2025 року Bloomberg повідомив, що Google продовжує24 використовувати веб-контент для навчання пошукових моделей штучного інтелекту загалом та функції AI Overviews зокрема (формування відповідей на пошукові запити на основі ШІ), навіть якщо веб-видавці — власники сайтів — відмовилися від такого використання. Це стало відомо із внутрішніх документів, розкритих під час антимонопольного судового процесу в США. З’ясувалося, що Google розглядала можливість надати користувачам більш детальний контроль над тим, як їхній контент використовується в ШІ-функціях пошукової системи, однак вирішила цього не робити. Єдиний спосіб повністю виключити свій контент з використання в AI Overviews — це заборонити індексацію свого сайту пошуковим роботом Googlebot, але це вилучає їхній сайт з результатів пошуку Google.

У міру розвитку штучного інтелекту зростають не лише його можливості, але й потреби. То ж ШІ-інструменти ще сильніше потребуватимуть якісних, актуальних і різноманітних даних для навчання. Якщо раніше технологічні компанії активно використовували вже наявні масиви інформації, зібрані з відкритих джерел, то сьогодні цього вже недостатньо. Саме тому дедалі більше компаній переходять від пасивного збору даних до активного створення умов, за яких ці дані виникають

Читати повністю…

Останні
Популярні

Більше новин

Новини по днях

Сьогодні,
5 червня 2025

Новини на тему

Більше новин