Лічбавыя салдаты дэзінфармацыі: ботнеты на беларускім YouTube

Аналітыка

У сакавіку 2025 года было апублікавана даследаванне, у якім выявілі маштабную актыўнасць ботнетаў у каментарыях пад беларускімі і міжнароднымі відэа на YouTube. Тады было прааналізавана 85 736 каментарыяў да 1 132 відэа, пакінутых 32 326 унікальнымі аўтарамі, і выявілі, што менш за 1% акаўнтаў генеравалі амаль 12% усіх каментарыяў, а 39% відэа падвяргаліся атакам ботнетаў.
У новым даследаванні быў пашыраны маштаб аналізу, апрацаваўшы амаль 100 000 каментарыяў за красавік 2025 года. Для павышэння эфектыўнасці і дакладнасці дэтэкцыі ботаў быў укаранёны гібрыдны падыход RAG (Retrieval Augmented Generation), які дазваляе спалучаць нейрасеткавы аналіз з логікай пошуку па ўласнай базе ведаў.
Гэты падыход улічвае розныя аспекты паводзін ботаў, уключаючы:

  • Паводзінскія патэрны (частата каментавання);
  • Шаблонныя фразы і паўтаральныя каментарыі;
  • Структуру імёнаў акаўнтаў;
  • Часавыя патэрны актыўнасці;
  • Сеткавыя ўзаемасувязі паміж ботамі.

Выкарыстанне RAG дазволіла стварыць базу ведаў гэтых патэрнаў і больш эфектыўна ідэнтыфікаваць ботаў без завісанняў, характэрных для прамых запытаў да API LLM. Гэта забяспечыла больш устойлівы і маштабаваны падыход да аналізу каментарыяў, што асабліва важна пры працы з вялікімі масівамі дадзеных.
У выніку новага аналізу было выяўлена больш за 13 000 каментарыяў, класіфікаваных як боты, і больш за 3 600 аўтараў-ботаў. Гэтыя дадзеныя пацвярджаюць працяглую актыўнасць ботнетаў у беларускім YouTube і неабходнасць далейшага маніторынгу і супрацьдзеяння такім інфармацыйным атакам.
Метадалогія
Метадалогія ўяўляе сабой гібрыдную сістэму, якая спалучае ў сабе:

  • лакальныя эўрыстыкі (патэрны, спам-індыкатары і танальнасць),
  • вектарны пошук (пошук падобных каментарыяў),
  • LLM-аналіз з выкарыстаннем RAG (узбагачаны кантэкстам і прыкладамі),
  • кэшаванне (для паскарэння паўторных выклікаў),
  • двухфазавую апрацоўку (выбарка + масавая праверка),
  • аўтаматычную генерацыю справаздач і візуалізацый.

1. Перадапрацоўка і лакальныя эўрыстыкі

Кожны каментарый ачышчаецца:

  • выдаляюцца URL, спецсімвалы, эмодзі;

  • праводзіцца вызначэнне мовы (ru, ua, by);

  • выдаляюцца стоп-словы.

Затым ужываецца патэрн-аналіз:

  • шукаюцца шаблонныя фразы, падазроныя імёны, індыкатары спаму;

  • кожнаму каментарыю прысвойваецца bot_score ад 0.0 да 0.9;

  • калі bot_score >= 0.6, каментарый лічыцца “відавочным ботам” і пазначаецца без LLM.

Прыклады патэрнаў:

  • Фразы: “жыве беларусь”, “дзякуй за працу”

  • Імёны: user-947, Ivan_1987

  • Спам: словы кшталту “заработок”, “биткоин”, “telegram”

2. Вектарызацыя і RAG-пошук падобных каментарыяў
Астатнія падазроныя каментарыі:

  • пераўтвараюцца ў эмбедынгі з дапамогай SentenceTransformer;
  • на кожны ствараецца пошук бліжэйшых суседзяў (top-k падобных каментаў) на аснове касінуснага падабенства;
  • гэтыя прыклады ўключаюцца ў prompt для LLM, узмацняючы якасць аналізу (гэта і ёсць RAG).

3. Аналіз LLM (GPT) з RAG
Кожны каментарый аналізуецца праз prompt, які ўключае:

  • метаінфармацыю: аўтар, тэкст, эўрыстыкі (танальнасць, патэрны, спам),
  • топ-3 падобных каментарыя і іх класіфікацыі,
  • інструкцыя: на што звяртаць увагу (шаблоннасць, эмоцыі, рэлевантнасць, меркаванне),
  • выразны фармат адказу ў JSON

Калі GPT не адказвае ці выдае памылку — выкарыстоўваецца ўзважаная эўрыстычная ацэнка (патэрны + спам + танальнасць).
4. Архітэктура і аптымізацыя

  • Шматпаточнасць (ThreadPoolExecutor) і batch-апрацоўка (па 25 каментаў) паскараюць аналіз.

  • Кэш (diskcache) выкарыстоўваецца на ўзроўні: эмбедынгаў, GPT-адказаў, эўрыстычных аналізаў.

  • У пачатку ўжываецца выбарачная навучальная фаза (10% каментарыяў), каб паскорыць фазу масавага аналізу.

  • Усе вынікі захоўваюцца ў .csv, а таксама генеруецца інтэрактыўны дашборд з візуалізацыямі

Асаблівасці і навізна падыходу

  • Выкарыстанне RAG з GPT для ацэнкі каментарыяў на кірылічных мовах;

  • Аўтаматычнае ўзбагачэнне базы патэрнаў, выцягнутых з bot_indicators;

  • Гібрыдная логіка: спачатку максімальна хуткія фільтры, затым дакладны LLM-аналіз;

  • Справаздачы для фактчэкераў і аналітыкаў, прыдатныя для публікацый і прэзентацый.

Зыходныя дадзеныя
Выкарыстоўваючы YouTube API v3, у 2607 відэа, якія адносяцца да больш чым 100 прадэмакратычных каналаў, было сабрана больш за 104 000 каментарыяў. Пасля ачысткі было прааналізавана 97 870 каментарыяў.
Вынікі класіфікацыі:
Створаны ботамі: 13777 (14.1%)
Створаны людзьмі: 84093 (85.9%)
Створана табліца статусаў аўтараў: 32293 аўтараў, з іх ботаў – 6729, а людзей – 25564. Сярэдняя колькасць каментарыяў на аўтара: 3.03
Размеркаванне па крыніцах класіфікацыі:
api: 95218 каментарыяў, з іх ботаў: 12942 (13.6%)
cache: 2640 каментарыяў, з іх ботаў: 823 (31.2%)
pattern: 12 каментарыяў, з іх ботаў: 12 (100.0%)
Аналіз скораў ботаў (парог = 0.5):
Сярэдні скор: 0.208
Медыянны скор: 0.100
Каментарыяў з высокім скорам (>=0.6): 12809 (13.1%)
Размеркаванне скораў:

Дадзены графік дэманструе бімадальнае размеркаванне ацэнак ботаў (bot_score). Асноўная маса каментарыяў мае нізкі bot_score (каля 0.1), што адпавядае звычайным карыстальнікам. Аднак заўважны значныя пікі ў дыяпазоне 0.6-0.9, што паказвае на наяўнасць ботаў з высокай ступенню ўпэўненасці. Чырвоная пункцірная лінія на адзнацы 0.5 пазначае парог класіфікацыі, вышэй якога каментарый лічыцца створаным ботам. Такое размеркаванне пацвярджае эфектыўнасць алгарытму класіфікацыі, які выразна падзяляе звычайных карыстальнікаў і ботаў.
Ключавыя візуалізацыі
Колькасць каментарыяў vs Ацэнкі ботаў:

На гэтым графіку візуалізавана залежнасць паміж колькасцю каментарыяў аўтара і яго ацэнкай бота. Аранжавыя кропкі ўяўляюць акаўнты, класіфікаваныя як боты (bot_score >= 0.5), сінія – як звычайныя карыстальнікі. Памер кропкі адпавядае колькасці каментарыяў. Відаць, што большасць ботаў пакідае невялікую колькасць каментарыяў (да 100), але мае высокі bot_score (0.6-1.0). Аднак ёсць і боты, якія пакінулі сотні каментарыяў. Чырвоная пункцірная лінія пазначае парог класіфікацыі (0.5). Графік паказвае, што сапраўдныя карыстальнікі могуць быць вельмі актыўнымі (да 500+ каментарыяў), але іх bot_score застаецца нізкім, што пацвярджае надзейнасць метаду дэтэкцыі.
Размеркаванне ботаў па скорах і ліку каментарыяў:

Дадзены графік паказвае частотнае размеркаванне значэнняў bot_score толькі для каментарыяў, класіфікаваных як боты (bot_score >= 0.5). Заўважна, што найбольшая колькасць бот-каментарыяў мае ацэнкі каля 0.7 і 0.85, што фарміруе два выяўленыя пікі. Гэта можа паказваць на два розныя тыпы ботнетаў або аўтаматызаваных сістэм з рознымі характарыстыкамі паводзін. Наяўнасць каментарыяў са значэннямі bot_score, блізкімі да 1.0, кажа пра тое, што сістэма выявіла каментарыі з вельмі высокай верагоднасцю прыналежнасці да ботаў, што пацвярджае дакладнасць класіфікацыі.
Боты-аўтары, якія зрабілі найбольш каментарыяў:

Графік ілюструе 20 акаўнтаў, якія пакінулі найбольшую колькасць каментарыяў, класіфікаваных як боцкія. Лідзіруе акаўнт @NataliaPetrova з прыблізна 250 каментарыямі, што значна перавышае актыўнасць наступнага па спісе акаўнта (@Dushman) з прыкладна 100 каментарыямі. Заўважна выразная градацыя колераў, што дазваляе візуальна ацаніць розніцу ў актыўнасці. Топ-3 акаўнты (@NataliaPetrova, @Dushman і @АЗЪФРСССР) дэманструюць асабліва высокую актыўнасць, што можа паказваць на іх прыярытэтную ролю ў ботнет-інфраструктуры і неабходнасць асаблівага маніторынгу іх дзейнасці.
Узаемасувязь паміж колькасцю каментарыяў і працэнтам ботаў:

Гэты графік паказвае ўзаемасувязь паміж агульнай колькасцю каментарыяў пад відэа і працэнтам каментарыяў ад ботаў. Каляровая шкала адлюстроўвае колькасць ботаў. Чырвоная пункцірная лінія паказвае сярэдні працэнт ботаў (62.1%) па ўсёй выбарцы. Цікава, што відэа з меншай колькасцю каментарыяў (да 500) схільныя да большага працэнту ботаў (да 90%), у той час як папулярныя відэа з вялікай колькасцю каментарыяў (1500+) звычайна маюць меншы працэнт ботаў (каля 20-35%). Гэта можа паказваць на стратэгію ботнетаў: яны імкнуцца дамінаваць у абмеркаваннях менш папулярных відэа, дзе іх уплыў будзе больш прыкметным, і дзе ім лягчэй “перакрычаць” сапраўдных карыстальнікаў.
Відэа, якія найбольш падвергліся атакам ботнетаў

Графік у гэтым раздзеле прадстаўляе размеркаванне каментарыяў паміж ботамі (чырвоныя слупкі) і людзьмі (бірузовыя слупкі) для розных відэа. Найбольш схільнымі да атак ботнетаў з’яўляюцца відэа з палітычным зместам, асабліва тыя, дзе фігуруе Лукашэнка (“Лукашэнка падаў у суд…”, “Лукашэнка САРВАЎСЯ на чыноўнікаў…”, “Лукашэнка будзе ў трыбунале…” і г.д.).
Цікава адзначыць, што мацней за ўсё атакам ботаў падвергліся відэа з крытычным або негатыўным зместам пра Лукашэнку, дзе працэнт бот-каментарыяў дасягае 40-50% ад агульнай колькасці. Гэта паказвае на мэтанакіраваную стратэгію кіравання грамадскай думкай – боты канцэнтруюцца на відэа з патэнцыйна негатыўным для ўладаў наратывам.
Заўважна таксама відэа “Беларусы спрачаюцца: навошта працаваць…”, якое мае найбольшую абсалютную колькасць каментарыяў і высокую долю каментарыяў ад рэальных людзей. Гэта можа паказваць на тое, што сацыяльна-эканамічныя тэмы выклікаюць найбольшую натуральную цікавасць аўдыторыі, таму ботам складаней дамінаваць у такіх абмеркаваннях.
Відэа “Што цяпер будзе з Прыбалтыкай…” таксама прыцягнула значную ўвагу як ботаў, так і рэальных карыстальнікаў, што кажа пра высокую цікавасць да геапалітычных пытанняў рэгіёна.
У цэлым, графік наглядна паказвае, што боты сканцэнтраваны на палітычна адчувальных тэмах, звязаных з беларускай уладай, што пацвярджае гіпотэзу пра мэтанакіраванае выкарыстанне ботнетаў для маніпуляцыі грамадскай думкай у беларускім сегменце YouTube.
Візуалізацыя сеткі ботаў
Знойдзена 7 супольнасцяў

Топ-5 найбуйнейшых супольнасцяў:

Супольнасць 3: 847 ботаў
Супольнасць 1: 542 ботаў
Супольнасць 0: 424 ботаў
Супольнасць 4: 313 ботаў
Супольнасць 2: 292 ботаў

Аналіз выявіў умеранае, але значнае прысутнасць ботаў (14.1%) у выбарцы каментарыяў. Боты выкарыстоўваюцца ў асноўным для распаўсюджвання палітычных паведамленняў і спаму. Большасць актыўных аўтараў з’яўляюцца рэальнымі людзьмі.
Сістэма RAG-Bot Detector паказала высокую эфектыўнасць, паспяхова прааналізаваўшы амаль 98,000 каментарыяў з выразным падзелам на ботаў і людзей. Далейшае пашырэнне базы патэрнаў можа паскорыць будучыя аналізы.
Вынікі сведчаць аб значным, але не крытычным узроўні маніпуляцыі грамадскай думкай праз каментарыі YouTube, што патрабуе працягу маніторынгу і аналізу.

Rate article
Factсheck BY