В наборы данных, которыми “кормят” искусственный интеллект, входят сайты с российской пропагандой — WP

30 апреля 2023, 14:52

За последние месяцы популярность чат-ботов с искусственным интеллектом стремительно возросла. В то же время, несмотря на очевидные преимущества технологий, это может угрожать распространением пропаганды и дезинформации.

Об этом пишет The Washington Post.

Указано, что чат-боты не могут думать, как люди. Они могут имитировать человеческую речь, потому что искусственный интеллект, который их питает, “проглотил” гигантское количество текста, в основном взятого из интернета.

Сейчас смотрят

Технологические компании стали скрывать информацию о том, чем они “кормят” искусственный интеллект. Поэтому The Washington Post решила проанализировать один из таких наборов данных, чтобы полностью раскрыть типы веб-сайтов, которые попадают в учебные данные искусственного интеллекта.

Так, WP проанализировала набор данных C4 от Google — массивный снимок содержимого 15 миллионов веб-сайтов, которые были использованы для обучения некоторых известных англоязычных ИИ, в частности T5 от Google и LLaMA от Facebook.

Около трети веб-сайтов не удалось классифицировать, в основном потому, что они больше не появляются в интернете.

Затем ранжировали оставшиеся 10 миллионов сайтов на основе того, сколько токенов появилось от каждого из них в наборе данных. Токены — это небольшие фрагменты текста, которые используются для обработки неорганизованной информации, обычно это слово или фраза.

В наборе данных преобладали веб-сайты из таких областей, как журналистика, развлечения, разработка программного обеспечения, медицина и создание контента.

Тремя крупнейшими сайтами стали patents.google.com, который содержит тексты патентов, выданных во всем мире; wikipedia.org – бесплатная онлайн-энциклопедия; и scribd.com – цифровая библиотека, доступ к которой осуществляется только по подписке.

Также в список попали сайты, определенные американским правительством как рынки пиратской и контрафактной продукции. Кроме того, некоторые источники вызывают значительные опасения относительно конфиденциальности.

Наибольшую категорию (16% категоризированных токенов) составили веб-сайты для бизнеса и промышленности. Они, в частности, предоставляют инвестиционные советы, позволяют пользователям собирать средства на творческие проекты и получать ежемесячную плату с подписчиков за эксклюзивный контент.

В то же время такие сайты, отмечают в материале, могут предоставить ИИ доступ к идеям художников и маркетинговым копиям, что вызывает беспокойство, что технология может копировать эту работу в предложениях для пользователей, что приведет к еще большим проблемам с авторским правом.

Категория Новости и медиа занимает третье место среди всех категорий. Так, половина из 10 самых употребляемых сайтов в целом были новостными изданиями.

Однако журналисты нашли в наборе данных несколько СМИ, которые нельзя назвать надежным источником информации. Так, в список попал российский пропагандистский сайт RT, который продвигает нарративы Кремля; также breitbart.com – известный источник ультраправых новостей и мнений; и vdare.com – антииммиграционный сайт, который пропагандирует дискриминацию.

— Чат-боты уверенно распространяют ложную информацию, но не всегда предлагают ссылки на источники. Ненадежные учебные данные могут привести к распространению предвзятости, пропаганды и дезинформации, — предупреждает WP.

Отмечено, что, как и большинство компаний, Google тщательно фильтрует данные перед тем, как передать их искусственному интеллекту. Кроме того, компании обычно используют высококачественные наборы данных для точной настройки моделей, защищая пользователей от нежелательного контента. Однако, даже несмотря на это, можно найти сотни примеров использования ИИ запрещенных веб-сайтов и терминов.