Технологии

Искусственный интеллект в ловушке: как хакеры объявили войну веб-скрейперам 

30.01.2025 2 мин. чтение

Война против бесконтрольного сбора данных искусственным интеллектом перешла в новую фазу. Разработчики, возмущённые агрессивной деятельностью AI-скрейперов, взялись за оружие — вредоносное ПО, способное заманивать алгоритмы в «бесконечные лабиринты» и даже «отравлять» их данные. Одним из таких инструментов стало Nepenthes — коварная программа, названная в честь плотоядного растения, переваривающего любые попавшиеся в его ловушку жертвы. 

«Зубы» для robots.txt: как работает Nepenthes

Идея создания Nepenthes родилась у разработчика, скрывающегося под псевдонимом Аарон. Он наблюдал, как веб-скрейперы Facebook за сутки совершили более 30 миллионов обращений к его сайту, игнорируя стандартный файл robots.txt, запрещающий сбор данных. Тогда Аарон решил действовать. 

Основа Nepenthes — принцип tarpitting, используемый в кибербезопасности для борьбы со спамом. Однако Аарон адаптировал его под новую цель: заманивать AI-скрейперы в бесконечный лабиринт статичных файлов без выходов, вынуждая их «барахтаться» там месяцами. Вдобавок программа может выдавать им бессмысленный набор данных — «марковскую абракадабру», загрязняя тренировки нейросетей. 

Новые цифровые капканы: Iocaine и Quixotic

Популярность Nepenthes всколыхнула IT-сообщество. Программист Гергей Надь, недовольный тем, что боты поглощали почти весь трафик его сервера, создал собственную ловушку — Iocaine. Этот инструмент не только заманивает скрейперы в бесконечную петлю, но и целенаправленно отравляет их данные, заставляя ИИ обучаться на бессмысленных наборах информации. 

Интерес к тактике «AI-отравления» нарастает: всего за несколько дней после выхода Nepenthes независимый разработчик Маркус Батлер представил Quixotic, ещё один инструмент для дестабилизации скрейперов. 

Реакция AI-индустрии: кто сможет выбраться?

И хотя AI-компании, включая OpenAI, уже разрабатывают защитные механизмы против tarpitting-атак, успех Nepenthes и его последователей показывает: интернет-сообщество не готово мириться с бесконтрольным сбором данных. 

«Пусть AI-компании научатся спрашивать разрешение, прежде чем использовать чужой контент», — утверждает Аарон. Он надеется, что такие инструменты, как Nepenthes, увеличат затраты на обучение ИИ, замедляя их развитие и вынуждая техногигантов договариваться с владельцами сайтов. 

Будет ли это цифровое сопротивление успешным — вопрос открытый. Но одно ясно уже сейчас: эпоха безнаказанного веб-скрейпинга подходит к концу.