Nossas publicações
Aqui, mergulhamos no mundo fascinante da Ciência de Dados e Inteligência Artificial por meio de uma série de publicações cuidadosamente elaboradas por nossos alunos e professores. Nossa missão é explorar, comunicar e compartilhar os mais recentes avanços, descobertas e aplicações emocionantes dessa disciplina multidisciplinar que está moldando o presente e o futuro.
CAPTO - A Method for Understanding Problem Domains for Data Science Projects
Autores: Bruno Petrocchi, Carlos Dias Maia, Caio Feliz.
Orientadores: Luis Zárate & Marco Paulo Gomes.
Resumo: Data Science aims to infer knowledge from facts and evidence expressed from data. This occurs through a knowledge discovery process (KDD), which requires an understanding of the application domain. However, in practice, not enough time is spent on understanding this domain, and consequently, the extracted knowledge may not be correct or not relevant. Considering that understanding the problem is an essential step in the KDD process, this work proposes the CAPTO method for understanding domains, based on knowledge management models, and together with the available/acquired tacit and explicit knowledge, proposes a strategy for construction of conceptual models to represent the problem domain. This model will contain the main dimensions (perspectives), aspects and attributes that may be relevant to start a data science project. As a case study, it will be applied in the Type 2 Diabetes domain. Results show the effectiveness of the method. The conceptual model, obtained through the CAPTO method, can be used as an initial step for the conceptual selection of attributes.

Using Machine Learning to Identify Profiles of Individuals with Depression
Autor: Carlos Dias Maia.
Orientadores: Marco Paulo Gomes, Cristiane Neri Nobre & Luis Zárate.
Resumo: Depression is a major public health problem in Brazil, affecting millions of individuals each year. While the prevalence of depression in Brazil has been well-documented, there is still a need for more accurate and timely predictions of depression trends to improve treatment and prevention strategies. In this study, we explored the potential of machine learning algorithms to forecast depression trends in Brazil using data from the National Health Survey conducted by the Brazilian Institute of Geography and Statistics. We compared the performance of various machine learning models in depression trends, including decision trees, random forests, support vector machines, and neural networks. Additionally, we aimed to identify key risk factors for depression trends in Brazil, including age, gender, income, education, and marital status. These findings have important implications for public health policies and mental healthcare in Brazil. Our study provides insights into the use of machine learning algorithms to predict and prevent depression trends and highlights the potential of data-driven approaches to improve mental health outcomes in Brazil.
Symposium on Knowledge Discovery, Mining and Learning (KDMiLe 2023), Belo Horizonte
Vídeo: https://youtu.be/RwowjJ-qouQ

Feature Selection through Biclustering to Identify Specific Language Impairment
Autor: Marta Dias Noronha.
Orientador: Luis Zárate.
Resumo: Failure to express yourself verbally is a condition that affects nearly 7\% of children worldwide, known as specific language impairment. The diagnosis is complex, involving specialists such as speech therapists and pediatricians. The dataset used in this work has many attributes and imbalanced data, which can harm knowledge discovery. We used biclustering to identify clusters that characterize children with speech problems and those with typical development. We propose selecting attributes through the significance analysis of biclusters, which enhanced the F-score and accuracy in models generated by using 90\% of instances from the dataset for training, compared to results from the original data.
Symposium on Knowledge Discovery, Mining and Learning (KDMiLe 2023), Belo Horizonte

Caracterização do perfil dos indivíduos diagnosticados com Hipertensão Arterial
Autor: Nicolau Machado de Carvalho.
Orientadores: Cristiane Neri Nobre, Luis Enrique Zarate & Marco Paulo Soares.
Resumo: O trabalho consiste em caracterizar o perfil da população brasileira que apresenta quadro de hipertensão arterial diagnosticado. Para concluir o objetivo do trabalho, utilizamos o algoritmo de ciência de dados Random Forest a fim de criar regras para definir o perfil do cidadão com hipertensão arterial positiva. A base de dados utilizada para conclusão do trabalho e dos métodos desenvolvidos, como a transformação de dados, fusão de variáveis e categorização dos atributos selecionados, foi a base da Pesquisa Nacional de Saúde de 2019 (PSN 2019).
Vídeo: https://youtu.be/SGs_yhEz_dY

Integração de Dados para Análise da Doença de Chikungunya
Autor: Luís Fernando Da Rocha Cancella, Isaac Pereira Cerceau Netto, Cláudio Augusto Novaes Gontijo & Guilhermino Lucas Chaves Araujo.
Orientadores: Marco Paulo. S. Gomes & Luis E. Zárate.
Resumo: Criamos uma base de dados para identificar cidades em Minas Gerais com maior propensão a surtos de Chikungunya, com base no método CAPTO. O projeto envolveu a análise de um mapa conceitual anterior, a coleta de dados de várias dimensões e a criação da base de dados. Embora o teste do CAPTO não tenha sido realizado nem terminado, o projeto mostra potencial para futuras análises em ciência de dados.
Vídeo: https://youtu.be/AFR5nMljlBg

Modelo Conceitual para a Caracterização da Doença de Chikungunya
Autor: Ligia Ferreira de Carvalho Gonçalves, Daniel Rocha Franca, Pedro Henrique Azevedo de Medeiros & André Luiz Santos Moreira da Silva.
Orientadores: Marco Paulo Soares Gomes & Luis Enrique Zárate.
Resumo: Este trabalho consiste na aplicação do Método CAPTO, desenvolvido por alunos de semestres anteriores, para a caracterização das regiões mais propensas a serem foco de uma epidemia da doença Chikungunya. Tendo isso em mente buscamos em artigos científicos e outras fontes de informações, quais dimensões e aspectos representavam o tema discutido de forma mais realista, para que no final do trabalho tivéssemos um modelo conceitual que descrevesse de forma clara o problema proposto. Além disso, esse trabalho de pesquisa tem como meta a compressão acerca do tópico Chikungunya, ou seja, que seja de conhecimento geral ao grupo as dimensões, aspectos e atributos que melhor caracterizam o problema.
Vídeo: https://youtu.be/23_HgRlcLNY

Modelo Conceitual para Caracterização da Doença de Esquistossomose
Autor: Rafael Romualdo & Pedro Henrique Rodrigues da Silva.
Orientadores: Luis Zárate.
Resumo: Com o objetivo de colocar em prática o método CAPTO, que foi desenvolvido por alunos nos semestres anteriores, buscamos caracterizar as regiões que possuem um perfil que as tornam mais propensas a foco de uma epidemia de Esquitossomose.
Vídeo: https://youtu.be/s7-WP0qXFPg

Modelos de Aprendizado de Máquina para auxílio no diagnóstico de Doença Pulmonar
Autor: Ranier Pereira Nunes de Melo.
Orientadores: Marco Paulo Gomes, Cristiane Neri Nobre & Luis Zárate.
Resumo: A Doença Pulmonar Obstrutiva Crônica é uma enfermidade que tem ganhado a atenção das autoridades de saúde nas últimas décadas, afetando milhões de pessoas em todo o mundo. No Brasil, embora a doença seja bem documentada, seu diagnóstico é complexo, com sintomas que se sobrepõem a outras condições e só se tornam aparentes quando a doença já está estabelecida. Neste artigo, cinco algoritmos de aprendizado de máquina são usados: Árvore de Decisão, Floresta Aleatória, Métodos de Conjunto, Bayes Naive Gaussiano e Redes Neurais, para explorar o uso dos modelos gerados no auxílio ao diagnóstico da doença. Os dados utilizados para treinamento e teste dos modelos foram obtidos da Pesquisa Nacional de Saúde de 2019, realizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE) e pelo Ministério da Saúde do Brasil. Além disso, o nível de interpretabilidade de atributos selecionados utilizados nos modelos também é analisado para avaliar a adequação dos modelos em relação aos princípios subjacentes ao diagnóstico de um indivíduo com a doença. Em última análise, este estudo visa contribuir para a compreensão da doença e promover seu estudo na sociedade brasileira.
Vídeo: https://youtu.be/zk0E-l_luV8
