У сакавіку 2025 года было апублікавана даследаванне, у якім выявілі маштабную актыўнасць ботнетаў у каментарыях пад беларускімі і міжнароднымі відэа на YouTube. Тады было прааналізавана 85 736 каментарыяў да 1 132 відэа, пакінутых 32 326 унікальнымі аўтарамі, і выявілі, што менш за 1% акаўнтаў генеравалі амаль 12% усіх каментарыяў, а 39% відэа падвяргаліся атакам ботнетаў.
У новым даследаванні быў пашыраны маштаб аналізу, апрацаваўшы амаль 100 000 каментарыяў за красавік 2025 года. Для павышэння эфектыўнасці і дакладнасці дэтэкцыі ботаў быў укаранёны гібрыдны падыход RAG (Retrieval Augmented Generation), які дазваляе спалучаць нейрасеткавы аналіз з логікай пошуку па ўласнай базе ведаў.
Гэты падыход улічвае розныя аспекты паводзін ботаў, уключаючы:
- Паводзінскія патэрны (частата каментавання);
- Шаблонныя фразы і паўтаральныя каментарыі;
- Структуру імёнаў акаўнтаў;
- Часавыя патэрны актыўнасці;
- Сеткавыя ўзаемасувязі паміж ботамі.
Выкарыстанне RAG дазволіла стварыць базу ведаў гэтых патэрнаў і больш эфектыўна ідэнтыфікаваць ботаў без завісанняў, характэрных для прамых запытаў да API LLM. Гэта забяспечыла больш устойлівы і маштабаваны падыход да аналізу каментарыяў, што асабліва важна пры працы з вялікімі масівамі дадзеных.
У выніку новага аналізу было выяўлена больш за 13 000 каментарыяў, класіфікаваных як боты, і больш за 3 600 аўтараў-ботаў. Гэтыя дадзеныя пацвярджаюць працяглую актыўнасць ботнетаў у беларускім YouTube і неабходнасць далейшага маніторынгу і супрацьдзеяння такім інфармацыйным атакам.
Метадалогія
Метадалогія ўяўляе сабой гібрыдную сістэму, якая спалучае ў сабе:
- лакальныя эўрыстыкі (патэрны, спам-індыкатары і танальнасць),
- вектарны пошук (пошук падобных каментарыяў),
- LLM-аналіз з выкарыстаннем RAG (узбагачаны кантэкстам і прыкладамі),
- кэшаванне (для паскарэння паўторных выклікаў),
- двухфазавую апрацоўку (выбарка + масавая праверка),
- аўтаматычную генерацыю справаздач і візуалізацый.
1. Перадапрацоўка і лакальныя эўрыстыкі
Кожны каментарый ачышчаецца:
-
выдаляюцца URL, спецсімвалы, эмодзі;
-
праводзіцца вызначэнне мовы (ru, ua, by);
-
выдаляюцца стоп-словы.
Затым ужываецца патэрн-аналіз:
-
шукаюцца шаблонныя фразы, падазроныя імёны, індыкатары спаму;
-
кожнаму каментарыю прысвойваецца
bot_score
ад 0.0 да 0.9; -
калі
bot_score >= 0.6
, каментарый лічыцца “відавочным ботам” і пазначаецца без LLM.
Прыклады патэрнаў:
-
Фразы: “жыве беларусь”, “дзякуй за працу”
-
Імёны:
user-947
,Ivan_1987
-
Спам: словы кшталту “заработок”, “биткоин”, “telegram”
2. Вектарызацыя і RAG-пошук падобных каментарыяў
Астатнія падазроныя каментарыі:
- пераўтвараюцца ў эмбедынгі з дапамогай SentenceTransformer;
- на кожны ствараецца пошук бліжэйшых суседзяў (top-k падобных каментаў) на аснове касінуснага падабенства;
- гэтыя прыклады ўключаюцца ў prompt для LLM, узмацняючы якасць аналізу (гэта і ёсць RAG).
3. Аналіз LLM (GPT) з RAG
Кожны каментарый аналізуецца праз prompt, які ўключае:
- метаінфармацыю: аўтар, тэкст, эўрыстыкі (танальнасць, патэрны, спам),
- топ-3 падобных каментарыя і іх класіфікацыі,
- інструкцыя: на што звяртаць увагу (шаблоннасць, эмоцыі, рэлевантнасць, меркаванне),
- выразны фармат адказу ў JSON
Калі GPT не адказвае ці выдае памылку — выкарыстоўваецца ўзважаная эўрыстычная ацэнка (патэрны + спам + танальнасць).
4. Архітэктура і аптымізацыя
-
Шматпаточнасць (
ThreadPoolExecutor
) і batch-апрацоўка (па 25 каментаў) паскараюць аналіз. -
Кэш (
diskcache
) выкарыстоўваецца на ўзроўні: эмбедынгаў, GPT-адказаў, эўрыстычных аналізаў. -
У пачатку ўжываецца выбарачная навучальная фаза (10% каментарыяў), каб паскорыць фазу масавага аналізу.
-
Усе вынікі захоўваюцца ў
.csv
, а таксама генеруецца інтэрактыўны дашборд з візуалізацыямі
Асаблівасці і навізна падыходу
-
Выкарыстанне RAG з GPT для ацэнкі каментарыяў на кірылічных мовах;
-
Аўтаматычнае ўзбагачэнне базы патэрнаў, выцягнутых з
bot_indicators
; -
Гібрыдная логіка: спачатку максімальна хуткія фільтры, затым дакладны LLM-аналіз;
-
Справаздачы для фактчэкераў і аналітыкаў, прыдатныя для публікацый і прэзентацый.
Зыходныя дадзеныя
Выкарыстоўваючы YouTube API v3, у 2607 відэа, якія адносяцца да больш чым 100 прадэмакратычных каналаў, было сабрана больш за 104 000 каментарыяў. Пасля ачысткі было прааналізавана 97 870 каментарыяў.
Вынікі класіфікацыі:
Створаны ботамі: 13777 (14.1%)
Створаны людзьмі: 84093 (85.9%)
Створана табліца статусаў аўтараў: 32293 аўтараў, з іх ботаў – 6729, а людзей – 25564. Сярэдняя колькасць каментарыяў на аўтара: 3.03
Размеркаванне па крыніцах класіфікацыі:
api: 95218 каментарыяў, з іх ботаў: 12942 (13.6%)
cache: 2640 каментарыяў, з іх ботаў: 823 (31.2%)
pattern: 12 каментарыяў, з іх ботаў: 12 (100.0%)
Аналіз скораў ботаў (парог = 0.5):
Сярэдні скор: 0.208
Медыянны скор: 0.100
Каментарыяў з высокім скорам (>=0.6): 12809 (13.1%)
Размеркаванне скораў:
Дадзены графік дэманструе бімадальнае размеркаванне ацэнак ботаў (bot_score). Асноўная маса каментарыяў мае нізкі bot_score (каля 0.1), што адпавядае звычайным карыстальнікам. Аднак заўважны значныя пікі ў дыяпазоне 0.6-0.9, што паказвае на наяўнасць ботаў з высокай ступенню ўпэўненасці. Чырвоная пункцірная лінія на адзнацы 0.5 пазначае парог класіфікацыі, вышэй якога каментарый лічыцца створаным ботам. Такое размеркаванне пацвярджае эфектыўнасць алгарытму класіфікацыі, які выразна падзяляе звычайных карыстальнікаў і ботаў.
Ключавыя візуалізацыі
Колькасць каментарыяў vs Ацэнкі ботаў:
На гэтым графіку візуалізавана залежнасць паміж колькасцю каментарыяў аўтара і яго ацэнкай бота. Аранжавыя кропкі ўяўляюць акаўнты, класіфікаваныя як боты (bot_score >= 0.5), сінія – як звычайныя карыстальнікі. Памер кропкі адпавядае колькасці каментарыяў. Відаць, што большасць ботаў пакідае невялікую колькасць каментарыяў (да 100), але мае высокі bot_score (0.6-1.0). Аднак ёсць і боты, якія пакінулі сотні каментарыяў. Чырвоная пункцірная лінія пазначае парог класіфікацыі (0.5). Графік паказвае, што сапраўдныя карыстальнікі могуць быць вельмі актыўнымі (да 500+ каментарыяў), але іх bot_score застаецца нізкім, што пацвярджае надзейнасць метаду дэтэкцыі.
Размеркаванне ботаў па скорах і ліку каментарыяў:
Дадзены графік паказвае частотнае размеркаванне значэнняў bot_score толькі для каментарыяў, класіфікаваных як боты (bot_score >= 0.5). Заўважна, што найбольшая колькасць бот-каментарыяў мае ацэнкі каля 0.7 і 0.85, што фарміруе два выяўленыя пікі. Гэта можа паказваць на два розныя тыпы ботнетаў або аўтаматызаваных сістэм з рознымі характарыстыкамі паводзін. Наяўнасць каментарыяў са значэннямі bot_score, блізкімі да 1.0, кажа пра тое, што сістэма выявіла каментарыі з вельмі высокай верагоднасцю прыналежнасці да ботаў, што пацвярджае дакладнасць класіфікацыі.
Боты-аўтары, якія зрабілі найбольш каментарыяў:
Графік ілюструе 20 акаўнтаў, якія пакінулі найбольшую колькасць каментарыяў, класіфікаваных як боцкія. Лідзіруе акаўнт @NataliaPetrova з прыблізна 250 каментарыямі, што значна перавышае актыўнасць наступнага па спісе акаўнта (@Dushman) з прыкладна 100 каментарыямі. Заўважна выразная градацыя колераў, што дазваляе візуальна ацаніць розніцу ў актыўнасці. Топ-3 акаўнты (@NataliaPetrova, @Dushman і @АЗЪФРСССР) дэманструюць асабліва высокую актыўнасць, што можа паказваць на іх прыярытэтную ролю ў ботнет-інфраструктуры і неабходнасць асаблівага маніторынгу іх дзейнасці.
Узаемасувязь паміж колькасцю каментарыяў і працэнтам ботаў:
Гэты графік паказвае ўзаемасувязь паміж агульнай колькасцю каментарыяў пад відэа і працэнтам каментарыяў ад ботаў. Каляровая шкала адлюстроўвае колькасць ботаў. Чырвоная пункцірная лінія паказвае сярэдні працэнт ботаў (62.1%) па ўсёй выбарцы. Цікава, што відэа з меншай колькасцю каментарыяў (да 500) схільныя да большага працэнту ботаў (да 90%), у той час як папулярныя відэа з вялікай колькасцю каментарыяў (1500+) звычайна маюць меншы працэнт ботаў (каля 20-35%). Гэта можа паказваць на стратэгію ботнетаў: яны імкнуцца дамінаваць у абмеркаваннях менш папулярных відэа, дзе іх уплыў будзе больш прыкметным, і дзе ім лягчэй “перакрычаць” сапраўдных карыстальнікаў.
Відэа, якія найбольш падвергліся атакам ботнетаў
Графік у гэтым раздзеле прадстаўляе размеркаванне каментарыяў паміж ботамі (чырвоныя слупкі) і людзьмі (бірузовыя слупкі) для розных відэа. Найбольш схільнымі да атак ботнетаў з’яўляюцца відэа з палітычным зместам, асабліва тыя, дзе фігуруе Лукашэнка (“Лукашэнка падаў у суд…”, “Лукашэнка САРВАЎСЯ на чыноўнікаў…”, “Лукашэнка будзе ў трыбунале…” і г.д.).
Цікава адзначыць, што мацней за ўсё атакам ботаў падвергліся відэа з крытычным або негатыўным зместам пра Лукашэнку, дзе працэнт бот-каментарыяў дасягае 40-50% ад агульнай колькасці. Гэта паказвае на мэтанакіраваную стратэгію кіравання грамадскай думкай – боты канцэнтруюцца на відэа з патэнцыйна негатыўным для ўладаў наратывам.
Заўважна таксама відэа “Беларусы спрачаюцца: навошта працаваць…”, якое мае найбольшую абсалютную колькасць каментарыяў і высокую долю каментарыяў ад рэальных людзей. Гэта можа паказваць на тое, што сацыяльна-эканамічныя тэмы выклікаюць найбольшую натуральную цікавасць аўдыторыі, таму ботам складаней дамінаваць у такіх абмеркаваннях.
Відэа “Што цяпер будзе з Прыбалтыкай…” таксама прыцягнула значную ўвагу як ботаў, так і рэальных карыстальнікаў, што кажа пра высокую цікавасць да геапалітычных пытанняў рэгіёна.
У цэлым, графік наглядна паказвае, што боты сканцэнтраваны на палітычна адчувальных тэмах, звязаных з беларускай уладай, што пацвярджае гіпотэзу пра мэтанакіраванае выкарыстанне ботнетаў для маніпуляцыі грамадскай думкай у беларускім сегменце YouTube.
Візуалізацыя сеткі ботаў
Знойдзена 7 супольнасцяў
Топ-5 найбуйнейшых супольнасцяў:
Супольнасць 3: 847 ботаў
Супольнасць 1: 542 ботаў
Супольнасць 0: 424 ботаў
Супольнасць 4: 313 ботаў
Супольнасць 2: 292 ботаў
Аналіз выявіў умеранае, але значнае прысутнасць ботаў (14.1%) у выбарцы каментарыяў. Боты выкарыстоўваюцца ў асноўным для распаўсюджвання палітычных паведамленняў і спаму. Большасць актыўных аўтараў з’яўляюцца рэальнымі людзьмі.
Сістэма RAG-Bot Detector паказала высокую эфектыўнасць, паспяхова прааналізаваўшы амаль 98,000 каментарыяў з выразным падзелам на ботаў і людзей. Далейшае пашырэнне базы патэрнаў можа паскорыць будучыя аналізы.
Вынікі сведчаць аб значным, але не крытычным узроўні маніпуляцыі грамадскай думкай праз каментарыі YouTube, што патрабуе працягу маніторынгу і аналізу.