Классификация текстов по признаку «ложный / правдивый» с использованием методов автоматической обработки текстов

Авторы:
Литвинова Татьяна Александровна
Воронежский государственный педагогический университет
Середин Павел Владимирович
Воронежский государственный университет
Литвинова Ольга Александровна
НИЦ «Курчатовский институт»
Лиелль Джон Роберт
Национальный исследовательский университет Высшая школа экономики

Журнал: Научный диалог

Номер: 10(58)    Год: 2016    Страницы: 70-83

DOI:     УДК:    

Ключевые слова

корпус текстов  распознавание лжи в речи  компьютерная лингвистика  корпусы текстов  LIWC  text corpus  lie recognition in speech  computational linguistics  corpus of texts  LIWC  

Аннотация

Работа посвящена проблеме классификации текстов на русском языке по параметру «ложный / правдивый». Отмечается, что человек распознает ложь в речи на уровне случайной величины, следовательно, крайне необходимы инструменты, помогающие человеку в распознавании ложной, то есть намеренно искаженной информации. Указывается, что проблема распознавания лжи в речи изучается на протяжении длительного времени, однако в последние 10-15 лет для ее решения стали использоваться методы корпусной и компьютерной лингвистики. Подчеркивается, что большинство подобных работ выполняется на материале английского языка, в то время как русский язык находится на периферии подобных исследований. Авторами статьи построен специальный корпус ложных и правдивых нарративов на тему «Как я провел вчерашний день?» от каждого респондента, N = 173. Тексты были обработаны при помощи русской версии программы LIWC с пользовательскими словарями. Представлены результаты разработки метода, основанного на использовании коэффициента вариации и анализе характера распределения значений параметров текста. Предложенный метод позволил классифицировать текст как ложный или правдивый с точностью 68,3 %. Показано, что модель с разной точностью классифицирует тексты мужчин и женщин, а значит, в дальнейшем необходимо строить подобные модели с учетом характеристик авторов текстов, в том числе гендера. Исследование выполнено при поддержке гранта РГНФ № 15-34-01221 «Детекция лжи в письменном тексте: корпусное исследование».

Источники

Левицкий В. В. Квантитативные методы в лингвистике / В. В. Левицкий. -Винница : Нова книга, 2007. - 264 с.  
Литвинова Т. А. Исследование лингвистических характеристик текстов, содержащих намеренно искаженную информацию, с помощью программы Linguistic Inquiry and Word Count / Т. А. Литвинова, О. А. Литвинова // Вестник МГОУ. Серия, Лингвистика. - 2015. - № 4. - С. 71-77.  
Литвинова Т. А. К проблеме стабильности характеристик идиостиля / Т. А. Литвинова // Известия Южного федерального университета. Филологические науки. - 2015. - № 3. - С. 98-106.  
Almela Á. Seeing through Deception : A Computational Approach to Deceit Detection in Written Communication [Electronic resource] / Á. Almela, V.-G. Rafael, C. Pascual // LESLI. - 2013. - N 1 (1). - Access mode : http://www.lesli-journal.org/ojs/index.php/lesli/article/view/5/5.  
Bond Ch. F. Jr. Accuracy of Deception Judgments / Ch. F. Jr. Bond, B. M. DePaulo // Pers Soc Psychol Rev. - 2006. - Vol. 10, N 3. - P. 214-234.  
Burgoon J. K. Interpersonal deception : III effects of deceit on perceived communication and non-verbal behavior dynamics / J. K. Burgoon, D. B. Buller // Journal of Nonverbal Behavior. - 1994. - Vol. 18 (2). - P. 155-184.  
Fitzpatrick E. Building a data collection for deception research / E. Fitzpatrick, J. Bachenko // E. Fitzpatrick, J. Bachenko, T. Fornaciari (eds). Proc. of the EACL Workshop on Computational Approaches to Deception Detection. - 2012. - P. 31-38.  
Levitan S. Identifying Individual Differences in Gender, Ethnicity, and Personality from Dialogue for Deception Detection / S. Levitan [et al.] // NAACL Workshop on Computational Approaches to Deception Detection. - San Diego, 2016.  
Litvinova T. “RusPersonality” : A Russian corpus for authorship profiling and deception detection / T. Litvinova [et al.] // Proceedings of International FRUCT Conference on Intelligence, Social Media and Web (ISMW FRUCT). - Sankt-Petersburg, 2016a. - P. 1-7.  
Litvinova T. Predicting the gender of an author of a russian text using regression and classification techniques [Electronic resource] / T. Litvinova [et al.] // J. Baixeries, D. I. Ignatov, D. Ilvovsky, A. Panchenko. (eds.). Proceedings of the Third Workshop on Concept Discovery in Unstructured Data. - Moscow, 2016b. - P. 44-53. - Access mode : http://ceur-ws.org/Vol-1625/.  
Litvinova T. Russian Deception Bank : A Corpus for Automated Deception Detection in Text / T. Litvinova, O. Litvinova // A. Horák, K. Pala, P. Rychlý, A. Rambousek (eds.). Community-based Building of Language Resources (CBBLR 2016). - Brno, 2016c. - P. 1-7.  
Mihalcea R. The Lie Detector : Explorations in the Automatic Recognition of Deceptive Language / R. Mihalcea, C. Strapparava // Proceedings of the Association for Computational Linguistics (ACL-IJCNLP 2009). - Singapore, 2009.  
Newman M. L. Lying Words : Predicting Deception From Linguistic Styles / M. L. Newman [et al.] // Personality and Social Psychology Bulletin. - 2003. -Vol. 29 (5). - P. 665-675.  
Pennebaker J. W. The development and psychometric properties of LIWC2007 / J. W. Pennebaker [et al.]. - Austin, TX : LIWC.net, 2007.  
Pérez-Rosas V. Gender differences in deceivers writing style / V. Pérez-Rosas, R. Mihalcea // Lecture Notes in Computer Science. - 2014. - Vol. 8856. - P. 163-174.  
Pisarevskaya D. Rhetorical Structure Theory as a Feature for Deception Detection in News Reports in the Russian Language : paper presented at the Artificial Intelligence and Natural Language & Information Extraction, Social Media and Web Search (AINL-ISMW) [Electronic resource] / D. Pisarevskaya. - 2015. - Access mode : https://www.fruct.org/publications/ainl-abstract/files/Pis.pdf.  
Vrij A. Detecting lies and deceit : Pitfalls and opportunities / A. Vrij. -Chischester : John Wiley and Sons, 2010.  

Полный текст статьи

скачать