Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
02 июня 2025 Украина нанесла серьезные повреждения аэродрому Белая в Иркутской области
02 июня 2025 Сергей Франк выступил в качестве главного свидетеля по делу о кражах в компаниях, занимающихся лизингом
02 июня 2025 Нового президента Польши, Кароля Навроцкого, раскритиковали в Израиле
02 июня 2025 В Стамбуле Россия и Украина обменялись документами для урегулирования конфликта
02 июня 2025 "Я недальновидная": Татьяна Буланова объяснила, почему не помогала детям с домашними заданиями
02 июня 2025 По заявлению Дональда Трампа, Байден скончался в 2020 году и был заменён «клоном»
02 июня 2025 Мединский охарактеризовал призыв Киева вернуть детей как «шоу для европейских дам преклонного возраста»
02 июня 2025 Российский «убийца Steam Deck» оказался копией китайской приставки
02 июня 2025 Саранский ЛВЗ наращивает объемы производства, несмотря на уголовные дела в отношении акционеров
02 июня 2025 Объявлено о третьем раунде переговоров между Россией и Украиной
02 июня 2025 Трамп перепостил теорию о "двойнике Байдена", что вызвало шквал комментариев
02 июня 2025 В социальных сетях сравнили атаку дронов с миссией из игры Call of Duty, где используются грузовики
02 июня 2025 Сотрудники правоохранительных органов задержали работников склада в Челябинске после нападения дронов
02 июня 2025 Лавров провел телефонный разговор с Рубио
02 июня 2025 Трамп заявил, что в США может произойти экономический коллапс, если суды аннулируют введённые им пошлины
02 июня 2025 Беспилотные летательные аппараты атаковали Курск
02 июня 2025 Генерал Гурулёв предложил уволить и привлечь к ответственности руководство Генштаба за атаки на аэродромы
02 июня 2025 В Варшаве представители комиссии превысили полномочия, установленные законодательством
02 июня 2025 Жители Липецка сообщили о взрывах в районе металлургического завода
02 июня 2025 В России может быть сформирована единая либеральная платформа