В эпоху информационных войн и массовой дезинформации автоматические системы анализа контента становятся незаменимым инструментом для фактчекеров и исследователей СМИ. В этой статье мы сравниваем два распространенных подхода к выявлению манипулятивного контента — классические методы обработки естественного языка (NLP) и новейшие технологии на базе больших языковых моделей (LLM).
В рамках исследования был проанализирован корпус видеоконтента с хештегом #беларусь социальной сети TikTok. Анализируемый период с 20 марта по 21 апреля 2025. Для сбора данных использовался Exolyt — TikTok Social Intelligence Platform. Анализу подверглись названия, описания и метки видеороликов. Но главный интерес представляет не содержание контента, а то, как разные технологические подходы оценивают одни и те же данные.
Интерпретация результатов: что показали два разных метода?
Столь значительные расхождения в результатах двух методов требуют тщательного анализа и интерпретации.
Различное понимание «эмоциональности» текста проявляется в том, что NLTK-подход определяет эмоциональную окраску на основе присутствия конкретных слов-маркеров из предопределенного словаря, без учета контекста их употребления. Слово «война» автоматически классифицируется как негативное, независимо от контекста, что приводит к завышенной оценке негативности при анализе политических тем. OpenAI-подход оценивает эмоциональную окраску на основе более комплексного понимания текста, способен различать нюансы и оттенки значений в определенном контексте.
Пример из нашего корпуса данных: «Беларусь: новости региона, политическая ситуация, аналитические материалы». NLTK классифицирует этот текст как негативный из-за присутствия политической тематики, тогда как OpenAI может классифицировать его как нейтральный, учитывая информационную, а не оценочную природу контента.
Разные концепции «манипулятивности» проявляются в том, что NLTK-подход определяет манипулятивность через упрощенную математическую формулу, основанную на количественном соотношении эмоционально окрашенных слов. OpenAI-подход оценивает манипулятивность на основе более сложного анализа, учитывающего риторические приемы, логические структуры и другие признаки манипуляции, которые простой словарный подход может не уловить.
Существенную роль в таком драматическом расхождении результатов играет политический контекст контента с хештегом #беларусь. NLTK, опирающийся на словари эмоциональных маркеров, склонен классифицировать политическую тематику как негативную из-за часто встречающихся терминов, связанных с конфликтами, властью, противостоянием. OpenAI, имеющий более развитое понимание контекста, способен различать нейтральное информационное освещение от эмоционально окрашенной пропаганды.
Интерпретация результатов: что показали два разных метода?
Столь значительные расхождения в результатах двух методов требуют тщательного анализа и интерпретации.
Различное понимание «эмоциональности» текста проявляется в том, что NLTK-подход определяет эмоциональную окраску на основе присутствия конкретных слов-маркеров из предопределенного словаря. Слово «война» автоматически классифицируется как негативное, «победа» — как позитивное, независимо от контекста. OpenAI-подход оценивает эмоциональную окраску на основе совокупного понимания текста, включая контекст, подтекст и скрытые смыслы. Фраза «очередная блестящая победа» может быть распознана как ирония и классифицирована как негативная.
Пример из нашего корпуса данных: «Беларусь: новости региона, политическая ситуация, аналитические материалы». NLTK классифицирует этот текст как нейтральный, поскольку в нем нет очевидных эмоциональных маркеров. OpenAI может классифицировать его как потенциально негативный, учитывая контекст политических новостей в текущей ситуации.
Разные концепции «манипулятивности» проявляются в том, что NLTK-подход определяет манипулятивность через математическую формулу, основанную на соотношении негативных и позитивных слов. Этот подход предполагает, что манипулятивный контент — это преимущественно негативный контент. OpenAI-подход оценивает манипулятивность на основе сложного понимания риторических приемов, логических ошибок, эмоционального давления, искажения фактов и других признаков манипуляции, которые могут присутствовать даже в формально позитивном или нейтральном тексте.
Существенную роль в таком драматическом расхождении результатов может играть политический контекст контента с хештегом #беларусь. Большая языковая модель, обученная на огромном корпусе текстов, включая новостные и аналитические материалы, может «понимать» сложный политический контекст и улавливать скрытые смыслы и подтексты, связанные с освещением политической ситуации в регионе.
Что это значит для фактчекинга и медиаграмотности
Выявленные расхождения между двумя подходами имеют серьезные последствия для работы фактчекеров и исследователей медиа.
Методологические вызовы включают проблему «золотого стандарта», то есть вопрос о том, какой из методов ближе к истине, при этом вполне вероятно, что истина находится где-то посередине или требует принципиально иного подхода; субъективность оценок, когда даже продвинутые алгоритмы отражают субъективные представления о том, что считать манипуляцией, а что — легитимным убеждением; контекстуальную зависимость, которая проявляется в том, что оценка манипулятивности сильно зависит от культурного, социального и политического контекста, что затрудняет создание универсальных алгоритмов.
На основе нашего исследования мы рекомендуем фактчекинговым организациям применять триангуляцию методов, используя несколько разных алгоритмических подходов для проверки согласованности результатов; настраивать пороговые значения, калибруя порог «манипулятивности» на основе экспертной оценки выборки контента; внедрять человеческий контроль, поскольку автоматические системы должны выступать инструментом поддержки решений экспертов, а не их заменой; учитывать сильные стороны разных подходов, принимая во внимание, что NLTK-подход дает более сбалансированную оценку эмоциональной окраски, а OpenAI-подход может быть полезен для выявления скрытых манипулятивных техник; адаптировать технологии под локальный контекст, разрабатывая специализированные словари эмоциональных маркеров для конкретных тем и языков; обеспечивать прозрачность методологии, публично раскрывая применяемые методы анализа и их ограничения при публикации результатов фактчекинга.
Результаты нашего исследования подчеркивают необходимость обучения широкой аудитории распознаванию различных типов манипуляций, выходящих за рамки явно негативного эмоционального окрашивания; развития критического мышления и навыков анализа медиаконтента; понимания, что автоматические системы анализа, включая продвинутые ИИ-модели, имеют свои ограничения и предвзятости.
Техническая оценка двух подходов: стоимость, масштабируемость, доступность
Для принятия обоснованных решений о внедрении технологий важно учитывать не только их точность, но и практические аспекты использования.
В области стоимости и ресурсов NLTK-подход является полностью бесплатным, использует только открытое ПО, работает локально без подключения к интернету, требует умеренные вычислительные ресурсы, а обработка 12,252 видео заняла около 20 минут. OpenAI-подход требует оплаты API-запросов (примерная стоимость анализа нашего корпуса ~$100-150), зависит от стабильного интернет-соединения, создает минимальную нагрузку на локальные ресурсы, а обработка того же объема данных заняла около 1-2 часов с учетом задержек API.
В плане масштабируемости и производительности NLTK-подход легко масштабируется для обработки больших объемов данных, его производительность можно увеличить за счет параллельной обработки, а скорость обработки прямо пропорциональна доступным вычислительным ресурсам. OpenAI-подход ограничен квотами и скоростью API, его масштабирование повышает стоимость пропорционально объему данных, требуется управление очередями запросов и обработка ошибок.
Гибкость и возможность настройки в NLTK-подходе проявляется в полной прозрачности и настраиваемости, возможности модифицировать словари эмоциональных маркеров, изменять алгоритмы токенизации и формулы оценки, но требуется экспертиза в Python и NLP для существенных модификаций. OpenAI-подход предлагает ограниченные возможности настройки через промпт-инжиниринг, внутренняя работа модели непрозрачна (черный ящик), модель регулярно обновляется провайдером, что может влиять на результаты, но не требует глубокой технической экспертизы для базового использования.
В аспекте доступности и требований к инфраструктуре NLTK-подход работает на любом компьютере с Python, не требует специализированного оборудования, может быть развернут в изолированной сети и подходит для обработки конфиденциальных данных. OpenAI-подход требует постоянного подключения к интернету, данные отправляются на серверы третьей стороны, может быть ограничен геополитическими факторами и не подходит для обработки строго конфиденциальной информации.
Практические сценарии применения: когда какой подход лучше
На основе нашего сравнительного анализа можно выделить оптимальные сценарии использования для каждого подхода.
OpenAI-подход оптимален для более сбалансированной оценки эмоциональной окраски контента, особенно при работе с политически окрашенными темами; для углубленного анализа сложного контента, при расследовании изощренных информационных кампаний, для выявления скрытых манипуляций и подтекстов, при работе с контентом, требующим понимания культурного контекста; для организаций с ограниченной технической экспертизой, когда нет собственных специалистов по NLP, при необходимости быстрого запуска аналитической системы.
NLTK-подход оптимален для первичного скрининга больших объемов данных с целью выявления потенциально негативного контента, требующего дальнейшего анализа; для работы в условиях ограниченного доступа к сети, в регионах с нестабильным интернет-соединением, в организациях с строгими политиками информационной безопасности, при работе с конфиденциальными или чувствительными данными; для создания специализированных решений, когда требуется точная настройка под конкретную тематику или язык, при необходимости полного контроля над алгоритмом, для интеграции в существующие системы мониторинга. При этом следует учитывать тенденцию этого метода к классификации большинства политического контента как негативного.
Гибридный подход рекомендуется для профессиональных фактчекинговых организаций – использование NLTK для первичного выявления потенциально проблемного контента с последующим более глубоким анализом с помощью OpenAI для более сбалансированной оценки, завершаемой экспертной оценкой для итоговых выводов и публикаций; для исследовательских центров и аналитических агентств – сравнительный анализ результатов разных подходов, комбинирование количественных и качественных методов, разработка новых метрик и методологий на основе лучших практик обоих подходов.ных техник, в образовательных проектах по медиаграмотности.
Гибридный подход рекомендуется для профессиональных фактчекинговых организаций – NLTK для первичного скрининга и отбора подозрительного контента, OpenAI для углубленного анализа отобранных материалов, экспертная оценка для итоговых выводов и публикаций; для исследовательских центров и аналитических агентств – сравнительный анализ результатов разных подходов, комбинирование количественных и качественных методов, разработка новых метрик и методологий на основе лучших практик обоих подходов.
Заключение и перспективы развития автоматизированного анализа медиаконтента
Наше исследование наглядно демонстрирует, что автоматизированный анализ медиаконтента находится на перепутье традиционных алгоритмических подходов и новых возможностей искусственного интеллекта. Каждый метод имеет свои сильные и слабые стороны, и идеального решения, подходящего для всех задач, не существует.
Драматическая разница в результатах оценки одного и того же корпуса данных двумя разными методами подчеркивает необходимость критического отношения к автоматизированным инструментам анализа. Особенно показательно, что NLTK-метод классифицировал подавляющее большинство контента (96.3%) как негативный, в то время как OpenAI-метод дал более сбалансированную оценку с преобладанием нейтрального контента (51.5%).
Это расхождение демонстрирует, насколько сильно результаты анализа могут зависеть от выбранного метода, что имеет серьезные последствия для исследователей медиапространства и фактчекеров. При использовании автоматизированных систем для мониторинга медиаконтента необходимо осознавать возможную предвзятость алгоритмов и принимать ее во внимание при интерпретации результатов.
Ни один алгоритм не может заменить экспертную оценку и критическое мышление, но грамотное применение технологий может существенно повысить эффективность работы фактчекеров и исследователей медиа. Наиболее продуктивным подходом представляется комбинирование различных методов анализа с последующей экспертной оценкой результатов.
В ближайшие годы мы, вероятно, увидим развитие нескольких направлений: специализированных моделей для анализа медиаконтента, обученных на примерах манипулятивных техник; локальных вариантов больших языковых моделей, не требующих отправки данных на внешние серверы; интерактивных инструментов, сочетающих автоматический анализ с экспертной оценкой; образовательных платформ, использующих ИИ для обучения граждан медиаграмотности.
Вне зависимости от технологического прогресса, ключевым фактором успеха останется человеческая экспертиза, критическое мышление и приверженность высоким этическим стандартам в борьбе с дезинформацией и манипуляциями. Автоматизированные системы должны рассматриваться как инструменты поддержки принятия решений, а не как замена экспертной оценке.