Нейросеть Google обучают контентом с сайта «Раша Тудей» — и искусственный интеллект распространяет пропаганду дальше?
Огромная статья в The Washington Post, в которой авторы на практике исследуют то, как происходит процесс обучения нейросетей, задает очень неприятные вопросы создателям искусственного интеллекта. Если кратко: процесс обучения нейросетей стал скрытным, а источники информации, которые «скармливаются» искусственному интеллекту, не всегда можно назвать авторитетными и правдивыми — например, ИИ обучают в том числе и на основе статей российского пропагандистского сайта rt.com. Не говоря уже о том, что скоро нейросети заберут у вас вашу работу!
Что изучали и как
Исследование, проведенное The Washington Post и Институтом искусственного интеллекта Аллена, проанализировало огромный общедоступный набор данных Google C4, который применяется для обучения больших языковых моделей. Таких, как Google T5 Text-to-Text Transfer Transformer и Facebook’s Large Language Model Meta AI (LLaMA).
Аналитики изучили рейтинг 10 миллионов лучших веб-сайтов, включенных в Google C4 (потратив на это невероятно много времени — но оно, очевидно, того стоило), и обнаружили, что там есть расистские и прочие очень токсичные сайты с контентом различных форм ненависти.
Ваш чат-бо врёт вам (пусть и неосознанно)
Выяснилось, что языковые модели, основанные на сомнительных материалах, могут генерировать неприемлемый контент, говорить о теориях заговора, поддерживать сомнительные идеологии и религиозные течения или просто стравливать различные социальные группы людей.
Много проблем создает и «всеядность» нейросети. В погоне за обучением нейросеть Google C4 получила доступ к тысячам личных блогов, информация в которых порой не выдерживает никакой критики, но в «переваренном» виде — т.е. усвоенная искусственным интеллектом и отданная пользователям — принимающая академический статус. Одно хорошо — что пока нейросети не получают контент из соцсетей, вероятно, ввиду его иногда откровенного безумия.
И вишенка на торте — Google C4 также берет контент с сайтов, на которых размещена личная информация, например, базы данных регистрации избирателей.
Фильтры, которые (не) работают
Да, вся информация, которая поступает нейросетям, тщательно фильтруется — на тарабарщину, мат, прямые оскорбления или угрозы. Но нейросеть все равно почему-то пользуется контентом с откровенно пропагандистских или лживых сайтов — и непонятно, зачем ей в принципе это разрешили делать?
Проблема еще и в том, что этот гигантский массив данных Google C4 используется далеко не только для корректного перевода, но и много где еще. Содержимое 15 миллионов сайтов после обработки задействуется во многих англоязычных моделях искусственного интеллекта — например, в чат-ботах (ChatGPT).
Мы вам ничего не расскажем
И создатели коммерческих моделей ИИ, таких как упомянутый ChatGPT от OpenAI, новый Bing от Microsoft или чат Google Bard, уже далеко не всегда раскрывают, как они получали, очищали и обрабатывали обучающие данные для собственных нейросетей. Не документируется это — даже внутри компаний — из-за боязни найти там личную информацию о реально существующих людях, материалы, защищенные авторским правом, и другие данные, полученные без чьего-либо согласия.
В итоге получается так, что данные для нейросетей — это огромный черный ящик, в котором всё перемешано, и который фактически бездумно используется искусственным интеллектом.
Ящик, который может быстро стать ящиком Пандоры — и которым уже сейчас невозможно управлять, что очень беспокоит знаменитостей.
P.S. Эксперимент редакции «Рубика»
Естественно, мы тут же побежали задавать провокационные вопросы чат-боту ChatGPT. Но на все наши запросы а-ля «Чей Крым?», «Является ли Путин военным преступником» и что он думает о том, что «Международный суд в Гааге выдал ордер на арест Владимира Путина» искусственный интеллект вилял как уж на сковородке, приводя мнения разных сторон. Насчет ареста Путина ChatGPT и вовсе сказал, что это неправда, потому что, дескать, его предел знаний ограничен 2021 годом — а ордер на арест российского лидера был выдан в марте 2023-го года.