Цифровые солдаты дезинформации: ботнеты в белорусском YouTube

В марте 2025 года было опубликовано исследование, в котором выявили масштабную активность ботнетов в комментариях под белорусскими и международными видео на YouTube. Тогда было проанализировано 85 736 комментариев к 1 132 видео, оставленных 32 326 уникальными авторами, и обнаружили, что менее 1% аккаунтов генерировали почти 12% всех комментариев, а 39% видео подвергались атакам ботнетов.

В новом исследовании был расширен масштаб анализа, обработав почти 100 000 комментариев за апрель 2025 года. Для повышения эффективности и точности детекции ботов был внедрен гибридный подход RAG (Retrieval Augmented Generation), который позволяет совмещать нейросетевой анализ с логикой поиска по собственной базе знаний.

Этот подход учитывает различные аспекты поведения ботов, включая:

Поведенческие паттерны (частота комментирования);
Шаблонные фразы и повторяющиеся комментарии;
Структуру имен аккаунтов;
Временные паттерны активности;
Сетевые взаимосвязи между ботами.

Использование RAG позволило создать базу знаний этих паттернов и более эффективно идентифицировать ботов без зависаний, характерных для прямых запросов к API LLM. Это обеспечило более устойчивый и масштабируемый подход к анализу комментариев, что особенно важно при работе с большими массивами данных.

В результате нового анализа было выявлено более 13 000 комментариев, классифицированных как боты, и более 3 600 авторов-ботов. Эти данные подтверждают продолжающуюся активность ботнетов в белорусском YouTube и необходимость дальнейшего мониторинга и противодействия таким информационным атакам.

Методология
Методология представляет собой гибридную систему, сочетающую в себе:

локальные эвристики (паттерны, спам-индикаторы и тональность),
векторный поиск (поиск схожих комментариев),
LLM-анализ с использованием RAG (обогащённый контекстом и примерами),
кэширование (для ускорения повторных вызовов),
двухфазную обработку (выборка + массовая проверка),
автоматическую генерацию отчётов и визуализаций.

1. Предобработка и локальные эвристики

Каждый комментарий очищается:

удаляются URL, спецсимволы, эмодзи;
проводится определение языка (ru, ua, by);
убираются стоп-слова.

Затем применяется паттерн-анализ:

ищутся шаблонные фразы, подозрительные имена, индикаторы спама;
каждому комментарию присваивается bot_score от 0.0 до 0.9;
если bot_score >= 0.6, комментарий считается «очевидным ботом» и помечается без LLM.

Примеры паттернов:

Фразы: «жыве беларусь», «дзякуй за працу»
Имена: user-947, Ivan_1987
Спам: слова типа «заработок», «биткоин», «telegram»

2. Векторизация и RAG-поиск схожих комментариев
Оставшиеся подозрительные комментарии:

преобразуются в эмбеддинги с помощью SentenceTransformer;
на каждый создаётся поиск ближайших соседей (top-k похожих комментов) на основе косинусного сходства;
эти примеры включаются в prompt для LLM, усиливая качество анализа (это и есть RAG).

3. Анализ LLM (GPT) с RAG
Каждый комментарий анализируется через prompt, включающий:

метаинформацию: автор, текст, эвристики (тональность, паттерны, спам),
топ-3 похожих комментария и их классификации,
инструкция: на что обращать внимание (шаблонность, эмоции, релевантность, мнение),
чёткий формат ответа в JSON

Если GPT не отвечает или выдаёт ошибку — используется взвешенная эвристическая оценка (паттерны + спам + тональность).

4. Архитектура и оптимизация

Многопоточность (ThreadPoolExecutor) и batch-обработка (по 25 комментов) ускоряют анализ.
Кэш (diskcache) используется на уровне: эмбеддингов, GPT-ответов, эвристических анализов.
В начале применяется выборочная обучающая фаза (10% комментариев), чтобы ускорить фазу массового анализа.
Все результаты сохраняются в .csv, а также генерируется интерактивный дашборд с визуализациями

Особенности и новизна подхода

Использование RAG с GPT для оценки комментариев на кириллических языках;
Автоматическое обогащение базы паттернов, извлечённых из bot_indicators;
Гибридная логика: сначала максимально быстрые фильтры, затем точный LLM-анализ;
Отчёты для фактчекеров и аналитиков, пригодные для публикаций и презентаций.

Исходные данные
Используя YouTube API v3, у 2607 видео относящихся к более чем 100 продемократическим каналам было собрано более 104 000 комментариев. После очистки было проанализировано 97 870 комментариев.

Результаты классификации:
Созданы ботами: 13777 (14.1%)
Созданы людьми: 84093 (85.9%)

Создана таблица статусов авторов: 32293 авторов из них ботов — 6729, а людей — 25564. Среднее количество комментариев на автора: 3.03

Распределение по источникам классификации:
api: 95218 комментариев, из них ботов: 12942 (13.6%)
cache: 2640 комментариев, из них ботов: 823 (31.2%)
pattern: 12 комментариев, из них ботов: 12 (100.0%)
Анализ скоров ботов (порог = 0.5):
Средний скор: 0.208
Медианный скор: 0.100
Комментариев с высоким скором (>=0.6): 12809 (13.1%)

Распределение скоров:

Данный график демонстрирует бимодальное распределение оценок ботов (bot_score). Основная масса комментариев имеет низкий bot_score (около 0.1), что соответствует обычным пользователям. Однако заметны значительные пики в диапазоне 0.6-0.9, что указывает на наличие ботов с высокой степенью уверенности. Красная пунктирная линия на отметке 0.5 обозначает порог классификации, выше которого комментарий считается созданным ботом. Такое распределение подтверждает эффективность алгоритма классификации, четко разделяющего обычных пользователей и ботов.

Ключевые визуализации

Количество комментариев vs Оценки ботов:

На этом графике визуализирована зависимость между количеством комментариев автора и его оценкой бота. Оранжевые точки представляют аккаунты, классифицированные как боты (bot_score >= 0.5), синие — как обычные пользователи. Размер точки соответствует количеству комментариев. Видно, что большинство ботов оставляет небольшое количество комментариев (до 100), но имеет высокий bot_score (0.6-1.0). Однако есть и боты, оставившие сотни комментариев. Красная пунктирная линия отмечает порог классификации (0.5). График показывает, что настоящие пользователи могут быть очень активными (до 500+ комментариев), но их bot_score остается низким, что подтверждает надежность метода детекции.

Распределение ботов по скорам и числу комментариев:

Данный график показывает частотное распределение значений bot_score только для комментариев, классифицированных как боты (bot_score >= 0.5). Заметно, что наибольшее количество бот-комментариев имеет оценки около 0.7 и 0.85, что формирует два выраженных пика. Это может указывать на два разных типа ботнетов или автоматизированных систем с различными характеристиками поведения. Наличие комментариев со значениями bot_score, близкими к 1.0, говорит о том, что система выявила комментарии с очень высокой вероятностью принадлежности к ботам, что подтверждает точность классификации.

Боты-авторы, которые сделали больше всего комментариев:

График иллюстрирует 20 аккаунтов, оставивших наибольшее количество комментариев, классифицированных как ботские. Лидирует аккаунт @NataliaPetrova с приблизительно 250 комментариями, что значительно превышает активность следующего по списку аккаунта (@Dushman) с примерно 100 комментариями. Заметна явная градация цветов, что позволяет визуально оценить разницу в активности. Топ-3 аккаунта (@NataliaPetrova, @Dushman и @АЗЪФРСССР) демонстрируют особенно высокую активность, что может указывать на их приоритетную роль в ботнет-инфраструктуре и необходимость особого мониторинга их деятельности.

Взаимосвязь между количеством комментариев и процентом ботов:

Этот график показывает взаимосвязь между общим количеством комментариев под видео и процентом комментариев от ботов. Цветовая шкала отражает количество ботов. Красная пунктирная линия указывает средний процент ботов (62.1%) по всей выборке. Интересно, что видео с меньшим количеством комментариев (до 500) подвержены большему проценту ботов (до 90%), в то время как популярные видео с большим количеством комментариев (1500+) обычно имеют меньший процент ботов (около 20-35%). Это может указывать на стратегию ботнетов: они стремятся доминировать в обсуждениях менее популярных видео, где их влияние будет более заметным, и где им легче «перекричать» настоящих пользователей.

Видео наиболее подвергшиеся атакам ботнетов

График в этом разделе представляет распределение комментариев между ботами (красные столбцы) и людьми (бирюзовые столбцы) для различных видео. Наиболее подверженными атакам ботнетов являются видео с политическим содержанием, особенно те, где фигурирует Лукашенко («Лукашенко подал в суд…», «Лукашенко СОРВАЛСЯ на чиновников…», «Лукашенко будет в трибунале…» и т.д.).
Интересно отметить, что сильнее всего атакам ботов подверглись видео с критическим или негативным содержанием о Лукашенко, где процент бот-комментариев достигает 40-50% от общего числа. Это указывает на целенаправленную стратегию управления общественным мнением — боты концентрируются на видео с потенциально негативным для властей нарративом.
Примечательно также видео «Беларусы спорят: зачем работать…», которое имеет наибольшее абсолютное количество комментариев и высокую долю комментариев от реальных людей. Это может указывать на то, что социально-экономические темы вызывают наибольший естественный интерес аудитории, потому ботам сложнее доминировать в таких обсуждениях.
Видео «Что теперь будет с Прибалтикой…» также привлекло значительное внимание как ботов, так и реальных пользователей, что говорит о высоком интересе к геополитическим вопросам региона.
В целом, график наглядно показывает, что боты сконцентрированы на политически чувствительных темах, связанных с белорусской властью, что подтверждает гипотезу о целенаправленном использовании ботнетов для манипуляции общественным мнением в белорусском сегменте YouTube.

Визуализация сети ботов
Найдено 7 сообществ

Топ-5 крупнейших сообществ:
1. Сообщество 3: 847 ботов
2. Сообщество 1: 542 ботов
3. Сообщество 0: 424 ботов
4. Сообщество 4: 313 ботов
5. Сообщество 2: 292 ботов

Анализ выявил умеренное, но значимое присутствие ботов (14.1%) в выборке комментариев. Боты используются в основном для распространения политических сообщений и спама. Большинство активных авторов являются реальными людьми.
Система RAG-Bot Detector показала высокую эффективность, успешно проанализировав почти 98,000 комментариев с четким разделением на ботов и людей. Дальнейшее расширение базы паттернов может ускорить будущие анализы.
Результаты свидетельствуют о значительном, но не критическом уровне манипуляции общественным мнением через комментарии YouTube, что требует продолжения мониторинга и анализа.

Subscribe to FactCheck.BY newsletter:

Цифровые солдаты дезинформации: ботнеты в белорусском YouTube