O impacto da inclusão de índices sociais e macroeconômicos na detecção automática de fake news
Descripción
As fake news são notícias falsas que possuem a intenção de se apresentar como verdadeiras, causando assim diversos impactos na sociedade, sejam econômicos e financeiros, políticos, ou até em saúde pública. A detecção automática de fake news teve um avanço importante nos últimos anos, porém existe a carência de trabalhos em língua portuguesa, principalmente devido à baixa oferta de bases nesta língua. Pode-se evidenciar, também, que os trabalhos existentes são focados na detecção automática utilizando-se as características linguísticas ou nos padrões de dispersão das mesmas em mídias sociais. Com isso, este trabalho traz uma abordagem complementar à tarefa de detecção automática desses tipos de textos, incluindo o estudo do possível impacto da inclusão de índices sociais e macroeconômicos, como taxa de inflação e desemprego, no desempenho dos modelos. O trabalho foca na utilização dos classificadores SVM, Random Forest e Naive Bayes, além do conhecido modelo Bag of Words para extração das características linguísticasFake news are known for being presented as real news, but in fact there is a clear intention to be harmful. Fake news can cause a diverse variety of impacts in the Society, as financial and economic, political, and even in public health. The automatic fake news detection task has improved in recent years, however there is a lack of Portuguese fake news databases, which impacts the number of such studies in Portuguese. Additionally, most of the studies are focused on linguistics features or news network dispersion patterns in social medias. Taking it into account, this study intends to bring a new approach to the automatic fake news detection task, including the assessment of the possible impact of social and macroeconomics indexes, such as inflation and unemployment rate, in the task of detecting fake news automatically. This work will consider the SVM, Random Forest and Naive Bayes classifiers. Beyond these models, it will be considered the known Bag of Words model for linguistic feature extraction