Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
16 апреля 2025 Авиация России продолжает атаковать Белгородскую область
16 апреля 2025 В работе торрент-трекера RuTracker произошла неисправность
16 апреля 2025 Вооруженные силы России нанесли воздушный удар по Херсону
16 апреля 2025 «Король подполья» Билли Хилл установил контроль над тюрьмами, судами и чёрным рынком Лондона
16 апреля 2025 Белый дом объявил о планах ввести тариф в 245% на товары, ввозимые из Китая в США
16 апреля 2025 В Приморье нетрезвые родители убедили своего ребенка взять на себя вину за аварию с мотоциклом
16 апреля 2025 В двух российских аэропортах введён план «Ковер»
16 апреля 2025 Байден раскритиковал Трампа за ущерб, нанесённый системе социальной поддержки в первые 100 дней его президентства
16 апреля 2025 Соединённые Штаты настаивают на прекращении войны в Украине для начала переговоров с Москвой
16 апреля 2025 Судебный произвол: заместитель главы Суддепа превратил государственные строительные проекты в семейное предприятие
16 апреля 2025 Кража миллиардов в ВЭБ.РФ: опубликован список обвиняемых по делу ГК «Благо»
16 апреля 2025 Экономические ожидания в Германии ухудшились из-за торговой политики Трампа
16 апреля 2025 Осуждённый за 11 убийств подал в суд на колонию из-за недостатка медицинской помощи
16 апреля 2025 В Башкортостане пенсионеры на протяжении полугода получали пенсии фальшивыми купюрами
16 апреля 2025 Трамп против Букеле: спор вокруг депортации гражданина из Мэриленда
16 апреля 2025 Школьницу, которая убила отца, защищая сестру, передали под опеку родственников
16 апреля 2025 Во Владимирской области сотрудницу управляющей компании признали виновной в смерти двух человек
16 апреля 2025 Billions from illegal casinos and media silence: who is protecting iBox Bank owner Alyona Dehrik-Shevtsova
16 апреля 2025 В Иркутске агрессивный пациент психиатрической больницы напал на медсестру, выбил дверь и сбежал
16 апреля 2025 В Республике Татарстан произошло массовое отравление среди посетителей суши-бара