В марте 2025 года было опубликовано исследование, в котором выявили масштабную активность ботнетов в комментариях под белорусскими и международными видео на YouTube. Тогда было проанализировано 85 736 комментариев к 1 132 видео, оставленных 32 326 уникальными авторами, и обнаружили, что менее 1% аккаунтов генерировали почти 12% всех комментариев, а 39% видео подвергались атакам ботнетов.
В новом исследовании был расширен масштаб анализа, обработав почти 100 000 комментариев за апрель 2025 года. Для повышения эффективности и точности детекции ботов был внедрен гибридный подход RAG (Retrieval Augmented Generation), который позволяет совмещать нейросетевой анализ с логикой поиска по собственной базе знаний.
Этот подход учитывает различные аспекты поведения ботов, включая:
- Поведенческие паттерны (частота комментирования);
- Шаблонные фразы и повторяющиеся комментарии;
- Структуру имен аккаунтов;
- Временные паттерны активности;
- Сетевые взаимосвязи между ботами.
Использование RAG позволило создать базу знаний этих паттернов и более эффективно идентифицировать ботов без зависаний, характерных для прямых запросов к API LLM. Это обеспечило более устойчивый и масштабируемый подход к анализу комментариев, что особенно важно при работе с большими массивами данных.
В результате нового анализа было выявлено более 13 000 комментариев, классифицированных как боты, и более 3 600 авторов-ботов. Эти данные подтверждают продолжающуюся активность ботнетов в белорусском YouTube и необходимость дальнейшего мониторинга и противодействия таким информационным атакам.
Методология
Методология представляет собой гибридную систему, сочетающую в себе:
- локальные эвристики (паттерны, спам-индикаторы и тональность),
- векторный поиск (поиск схожих комментариев),
- LLM-анализ с использованием RAG (обогащённый контекстом и примерами),
- кэширование (для ускорения повторных вызовов),
- двухфазную обработку (выборка + массовая проверка),
- автоматическую генерацию отчётов и визуализаций.
1. Предобработка и локальные эвристики
Каждый комментарий очищается:
-
удаляются URL, спецсимволы, эмодзи;
-
проводится определение языка (ru, ua, by);
-
убираются стоп-слова.
Затем применяется паттерн-анализ:
-
ищутся шаблонные фразы, подозрительные имена, индикаторы спама;
-
каждому комментарию присваивается
bot_score
от 0.0 до 0.9; -
если
bot_score >= 0.6
, комментарий считается «очевидным ботом» и помечается без LLM.
Примеры паттернов:
-
Фразы: «жыве беларусь», «дзякуй за працу»
-
Имена:
user-947
,Ivan_1987
-
Спам: слова типа «заработок», «биткоин», «telegram»
2. Векторизация и RAG-поиск схожих комментариев
Оставшиеся подозрительные комментарии:
- преобразуются в эмбеддинги с помощью SentenceTransformer;
- на каждый создаётся поиск ближайших соседей (top-k похожих комментов) на основе косинусного сходства;
- эти примеры включаются в prompt для LLM, усиливая качество анализа (это и есть RAG).
3. Анализ LLM (GPT) с RAG
Каждый комментарий анализируется через prompt, включающий:
- метаинформацию: автор, текст, эвристики (тональность, паттерны, спам),
- топ-3 похожих комментария и их классификации,
- инструкция: на что обращать внимание (шаблонность, эмоции, релевантность, мнение),
- чёткий формат ответа в JSON
Если GPT не отвечает или выдаёт ошибку — используется взвешенная эвристическая оценка (паттерны + спам + тональность).
4. Архитектура и оптимизация
-
Многопоточность (
ThreadPoolExecutor
) и batch-обработка (по 25 комментов) ускоряют анализ. -
Кэш (
diskcache
) используется на уровне: эмбеддингов, GPT-ответов, эвристических анализов. -
В начале применяется выборочная обучающая фаза (10% комментариев), чтобы ускорить фазу массового анализа.
-
Все результаты сохраняются в
.csv
, а также генерируется интерактивный дашборд с визуализациями
Особенности и новизна подхода
-
Использование RAG с GPT для оценки комментариев на кириллических языках;
-
Автоматическое обогащение базы паттернов, извлечённых из
bot_indicators
; -
Гибридная логика: сначала максимально быстрые фильтры, затем точный LLM-анализ;
-
Отчёты для фактчекеров и аналитиков, пригодные для публикаций и презентаций.
Исходные данные
Используя YouTube API v3, у 2607 видео относящихся к более чем 100 продемократическим каналам было собрано более 104 000 комментариев. После очистки было проанализировано 97 870 комментариев.
Результаты классификации:
Созданы ботами: 13777 (14.1%)
Созданы людьми: 84093 (85.9%)
Создана таблица статусов авторов: 32293 авторов из них ботов — 6729, а людей — 25564. Среднее количество комментариев на автора: 3.03
Распределение по источникам классификации:
api: 95218 комментариев, из них ботов: 12942 (13.6%)
cache: 2640 комментариев, из них ботов: 823 (31.2%)
pattern: 12 комментариев, из них ботов: 12 (100.0%)
Анализ скоров ботов (порог = 0.5):
Средний скор: 0.208
Медианный скор: 0.100
Комментариев с высоким скором (>=0.6): 12809 (13.1%)
Распределение скоров:
Данный график демонстрирует бимодальное распределение оценок ботов (bot_score). Основная масса комментариев имеет низкий bot_score (около 0.1), что соответствует обычным пользователям. Однако заметны значительные пики в диапазоне 0.6-0.9, что указывает на наличие ботов с высокой степенью уверенности. Красная пунктирная линия на отметке 0.5 обозначает порог классификации, выше которого комментарий считается созданным ботом. Такое распределение подтверждает эффективность алгоритма классификации, четко разделяющего обычных пользователей и ботов.
Ключевые визуализации
Количество комментариев vs Оценки ботов:
На этом графике визуализирована зависимость между количеством комментариев автора и его оценкой бота. Оранжевые точки представляют аккаунты, классифицированные как боты (bot_score >= 0.5), синие — как обычные пользователи. Размер точки соответствует количеству комментариев. Видно, что большинство ботов оставляет небольшое количество комментариев (до 100), но имеет высокий bot_score (0.6-1.0). Однако есть и боты, оставившие сотни комментариев. Красная пунктирная линия отмечает порог классификации (0.5). График показывает, что настоящие пользователи могут быть очень активными (до 500+ комментариев), но их bot_score остается низким, что подтверждает надежность метода детекции.
Распределение ботов по скорам и числу комментариев:
Данный график показывает частотное распределение значений bot_score только для комментариев, классифицированных как боты (bot_score >= 0.5). Заметно, что наибольшее количество бот-комментариев имеет оценки около 0.7 и 0.85, что формирует два выраженных пика. Это может указывать на два разных типа ботнетов или автоматизированных систем с различными характеристиками поведения. Наличие комментариев со значениями bot_score, близкими к 1.0, говорит о том, что система выявила комментарии с очень высокой вероятностью принадлежности к ботам, что подтверждает точность классификации.
Боты-авторы, которые сделали больше всего комментариев:
График иллюстрирует 20 аккаунтов, оставивших наибольшее количество комментариев, классифицированных как ботские. Лидирует аккаунт @NataliaPetrova с приблизительно 250 комментариями, что значительно превышает активность следующего по списку аккаунта (@Dushman) с примерно 100 комментариями. Заметна явная градация цветов, что позволяет визуально оценить разницу в активности. Топ-3 аккаунта (@NataliaPetrova, @Dushman и @АЗЪФРСССР) демонстрируют особенно высокую активность, что может указывать на их приоритетную роль в ботнет-инфраструктуре и необходимость особого мониторинга их деятельности.
Взаимосвязь между количеством комментариев и процентом ботов:
Этот график показывает взаимосвязь между общим количеством комментариев под видео и процентом комментариев от ботов. Цветовая шкала отражает количество ботов. Красная пунктирная линия указывает средний процент ботов (62.1%) по всей выборке. Интересно, что видео с меньшим количеством комментариев (до 500) подвержены большему проценту ботов (до 90%), в то время как популярные видео с большим количеством комментариев (1500+) обычно имеют меньший процент ботов (около 20-35%). Это может указывать на стратегию ботнетов: они стремятся доминировать в обсуждениях менее популярных видео, где их влияние будет более заметным, и где им легче «перекричать» настоящих пользователей.
Видео наиболее подвергшиеся атакам ботнетов
График в этом разделе представляет распределение комментариев между ботами (красные столбцы) и людьми (бирюзовые столбцы) для различных видео. Наиболее подверженными атакам ботнетов являются видео с политическим содержанием, особенно те, где фигурирует Лукашенко («Лукашенко подал в суд…», «Лукашенко СОРВАЛСЯ на чиновников…», «Лукашенко будет в трибунале…» и т.д.).
Интересно отметить, что сильнее всего атакам ботов подверглись видео с критическим или негативным содержанием о Лукашенко, где процент бот-комментариев достигает 40-50% от общего числа. Это указывает на целенаправленную стратегию управления общественным мнением — боты концентрируются на видео с потенциально негативным для властей нарративом.
Примечательно также видео «Беларусы спорят: зачем работать…», которое имеет наибольшее абсолютное количество комментариев и высокую долю комментариев от реальных людей. Это может указывать на то, что социально-экономические темы вызывают наибольший естественный интерес аудитории, потому ботам сложнее доминировать в таких обсуждениях.
Видео «Что теперь будет с Прибалтикой…» также привлекло значительное внимание как ботов, так и реальных пользователей, что говорит о высоком интересе к геополитическим вопросам региона.
В целом, график наглядно показывает, что боты сконцентрированы на политически чувствительных темах, связанных с белорусской властью, что подтверждает гипотезу о целенаправленном использовании ботнетов для манипуляции общественным мнением в белорусском сегменте YouTube.
Визуализация сети ботов
Найдено 7 сообществ
Топ-5 крупнейших сообществ:
1. Сообщество 3: 847 ботов
2. Сообщество 1: 542 ботов
3. Сообщество 0: 424 ботов
4. Сообщество 4: 313 ботов
5. Сообщество 2: 292 ботов
Анализ выявил умеренное, но значимое присутствие ботов (14.1%) в выборке комментариев. Боты используются в основном для распространения политических сообщений и спама. Большинство активных авторов являются реальными людьми.
Система RAG-Bot Detector показала высокую эффективность, успешно проанализировав почти 98,000 комментариев с четким разделением на ботов и людей. Дальнейшее расширение базы паттернов может ускорить будущие анализы.
Результаты свидетельствуют о значительном, но не критическом уровне манипуляции общественным мнением через комментарии YouTube, что требует продолжения мониторинга и анализа.