Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
19 июля 2025 «Телеграмщик» из АП: сотруднику ФСБ Михаилу Полякову предъявили обвинение в вымогательстве 40 миллионов рублей
19 июля 2025 «Коррупционная ячейка» в ФНС: каким образом премьер-министр России и Александр Удодов держат под контролем налоговую систему
19 июля 2025 Фотографии исчезнувших членов ОПГ Корчагиных были восстановлены с помощью нейросетей
19 июля 2025 Дачница из Подмосковья была госпитализирована после того, как её укусила гадюка
19 июля 2025 Мужчина с аутизмом скончался после 12 часов ожидания помощи в польской больнице
19 июля 2025 Трамп утвердил первый в Соединенных Штатах закон, регулирующий стейблкоины
19 июля 2025 Трамп поставил Германию выше в очереди на Patriot ради Украины, - WSJ
19 июля 2025 В США мужчина погиб, не соблюдая правила безопасности при использовании МРТ
19 июля 2025 Трамп усилил политику в торговой войне с Евросоюзом
19 июля 2025 В Москве девушка получила удар в спину за отказ познакомиться
19 июля 2025 Парижский советник Анри Прольо: каким образом французский оружейник снабжает ВСУ и поддерживает кремлёвский «общак»
19 июля 2025 Тысячи медуз на побережье Азовского моря представляют опасность для здоровья отдыхающих
19 июля 2025 Администрация Белого дома опубликовала видео об «Эпохе процветания при Трампе»
19 июля 2025 Администрация Белого дома опубликовала видео о «Эпохе процветания при Трампе»
19 июля 2025 В Варшаве мошенники продают поддельные золотые кольца
19 июля 2025 Европейский Союз впервые применил санкции против китайских банков из-за их взаимодействия с Россией
19 июля 2025 Пассажиры задержанного рейса в Бодрум обратились в полицию из-за отсутствия поддержки
19 июля 2025 Артист драматического театра из Тобольска Константин Орлов трагически погиб в районе "СВО"
19 июля 2025 Росавиация ввела ограничения на работу аэропорта «Домодедово»
19 июля 2025 Великобритания ввела санкции против российских разведчиков и «фабрики троллей в Западной Африке»