26 апреля 2023

Нейросеть Google обучают контентом с сайта «Раша Тудей» — и искусственный интеллект распространяет пропаганду дальше?

Как мы можем спрашивать советы у искусственного разума, если он в своих выводах в том числе опирается на статьи «Раша Тудей»? Коллаж Rubic.us
Как мы можем спрашивать советы у искусственного разума, если он в своих выводах в том числе опирается на статьи «Раша Тудей»? Коллаж Rubic.us

Огромная статья в The Washington Post, в которой авторы на практике исследуют то, как происходит процесс обучения нейросетей, задает очень неприятные вопросы создателям искусственного интеллекта. Если кратко: процесс обучения нейросетей стал скрытным, а источники информации, которые «скармливаются» искусственному интеллекту, не всегда можно назвать авторитетными и правдивыми — например, ИИ обучают в том числе и на основе статей российского пропагандистского сайта rt.com. Не говоря уже о том, что скоро нейросети заберут у вас вашу работу!

Что изучали и как

Исследование, проведенное The Washington Post и Институтом искусственного интеллекта Аллена, проанализировало огромный общедоступный набор данных Google C4, который применяется для обучения больших языковых моделей. Таких, как Google T5 Text-to-Text Transfer Transformer и Facebook’s Large Language Model Meta AI (LLaMA).

Аналитики изучили рейтинг 10 миллионов лучших веб-сайтов, включенных в Google C4 (потратив на это невероятно много времени — но оно, очевидно, того стоило), и обнаружили, что там есть расистские и прочие очень токсичные сайты с контентом различных форм ненависти.

Ваш чат-бо врёт вам (пусть и неосознанно)

Выяснилось, что языковые модели, основанные на сомнительных материалах, могут генерировать неприемлемый контент, говорить о теориях заговора, поддерживать сомнительные идеологии и религиозные течения или просто стравливать различные социальные группы людей.

Много проблем создает и «всеядность» нейросети. В погоне за обучением нейросеть Google C4 получила доступ к тысячам личных блогов, информация в которых порой не выдерживает никакой критики, но в «переваренном» виде — т.е. усвоенная искусственным интеллектом и отданная пользователям — принимающая академический статус. Одно хорошо — что пока нейросети не получают контент из соцсетей, вероятно, ввиду его иногда откровенного безумия.

И вишенка на торте — Google C4 также берет контент с сайтов, на которых размещена личная информация, например, базы данных регистрации избирателей.

Фильтры, которые (не) работают

Да, вся информация, которая поступает нейросетям, тщательно фильтруется — на тарабарщину, мат, прямые оскорбления или угрозы. Но нейросеть все равно почему-то пользуется контентом с откровенно пропагандистских или лживых сайтов — и непонятно, зачем ей в принципе это разрешили делать?

Проблема еще и в том, что этот гигантский массив данных Google C4 используется далеко не только для корректного перевода, но и много где еще. Содержимое 15 миллионов сайтов после обработки задействуется во многих англоязычных моделях искусственного интеллекта — например, в чат-ботах (ChatGPT).

Мы вам ничего не расскажем

И создатели коммерческих моделей ИИ, таких как упомянутый ChatGPT от OpenAI, новый Bing от Microsoft или чат Google Bard, уже далеко не всегда раскрывают, как они получали, очищали и обрабатывали обучающие данные для собственных нейросетей. Не документируется это  — даже внутри компаний — из-за боязни найти там личную информацию о реально существующих людях, материалы, защищенные авторским правом, и другие данные, полученные без чьего-либо согласия.

В итоге получается так, что данные для нейросетей — это огромный черный ящик, в котором всё перемешано, и который фактически бездумно используется искусственным интеллектом.

Ящик, который может быстро стать ящиком Пандоры — и которым уже сейчас невозможно управлять, что очень беспокоит знаменитостей.

P.S. Эксперимент редакции «Рубика»

Естественно, мы тут же побежали задавать провокационные вопросы чат-боту ChatGPT. Но на все наши запросы а-ля «Чей Крым?», «Является ли Путин военным преступником» и что он думает о том, что «Международный суд в Гааге выдал ордер на арест Владимира Путина» искусственный интеллект вилял как уж на сковородке, приводя мнения разных сторон. Насчет ареста Путина ChatGPT и вовсе сказал, что это неправда, потому что, дескать, его предел знаний ограничен 2021 годом — а ордер на арест российского лидера был выдан в марте 2023-го года.

Еще на эту тему

Получил грин-карту и гражданство в один день, подав Mandamus: опыт иммигранта

Иммигрант сделал сам Mandamus. Ускорил интервью по убежищу без адвоката

В этих штатах дают водительские права иммигрантам без документов

Начинать новую жизнь в иммиграции сложно. “Рубик” облегчает этот путь. Наша цель – помочь иммигрантам достичь успеха в США. Для этого мы пишем статьи, снимаем видео, отвечаем на ваши вопросы, организовываем семинары, создаем среду общения без агрессии и осуждения.

Над “Рубиком” работает более десяти человек, и у нас много затрат – зарплаты, хостинг и так далее. У нас нет внешних инвесторов со скрытыми мотивами. Проект основан и принадлежит журналисту и иммигрантке Катерине Пановой. “Рубик”  живет исключительно за счет рекламных доходов и поддержки аудитории.

Пожалуйста, поучаствуйте в нашей миссии помощи иммигрантам. Ваш взнос пойдет на подготовку материалов, которые помогут конкретным людям – найти работу, избежать депортации, распознать мошенников.

Поддержать Рубик