21. Aula 21 - Clusterização Hierárquica

---------------------------------------------------------------------------------------------------------------------- ⇒Aprofunde seus conhecimentos em estatística e ciência de dados com meu livro: •https://maironchaves.manus.space/ ⇒Podcast de apresentação do livro: •   • Podcast do livro "Estatística, Probabilida...   ---------------------------------------------------------------------------------------------------------------------- 📊 Resumo do Vídeo: "Curso Ciência de Dados - Do Zero ao Iniciante (Aula 21: Clusterização Hierárquica)" Nesta aula, StatiR apresenta a técnica de clusterização hierárquica, explicando seus conceitos, funcionamento, e a aplicação prática no R. O método organiza dados em grupos hierárquicos com base em suas similaridades, sendo ideal para explorar estruturas complexas em datasets. 🌟 1. O que é Clusterização Hierárquica? Definição: É um método de agrupamento em que cada observação começa como um cluster único, e o algoritmo agrupa iterativamente observações similares até formar um único cluster geral. Saída: O resultado é visualizado em um dendrograma, um gráfico hierárquico que mostra os passos do agrupamento e ajuda a identificar os clusters finais. 🛠️ 2. Como Funciona o Algoritmo? Passo Inicial: Cada observação começa como um cluster separado. Cálculo de Similaridades: As distâncias entre todos os pares de observações são calculadas. A distância mais usada é a euclidiana, mas outras podem ser aplicadas, como Manhattan ou cosseno. Agrupamento de Clusters Similares: Observações com menor distância são agrupadas primeiro. O processo continua até que todas as observações estejam em um único cluster. Critério de Parada: O algoritmo para quando não há mais observações ou clusters para unir. 📈 3. Visualização com Dendrogramas O dendrograma mostra a sequência de agrupamentos: Eixo X: Identifica as observações. Eixo Y: Representa a distância entre clusters agrupados. Interpretação: Grupos com menor distância (mais similares) aparecem na base do gráfico. Quanto maior o salto no eixo Y, mais diferentes os clusters. 🧮 4. Exemplo Prático no R Dataset: Características do Leite de Mamíferos Objetivo: Agrupar animais com base na composição do leite (ex.: porcentagem de água, gordura, lactose). Etapas: Calcular a matriz de distâncias entre as observações. Construir o dendrograma com hclust(). Definir o número de clusters cortando o dendrograma em um ponto lógico. Interpretar os grupos: Exemplo: Animais aquáticos formam um cluster separado de animais terrestres. 🚀 Incentive-se a explorar além: Crie seus dendrogramas: Teste diferentes datasets no R para entender como as características influenciam o agrupamento. Investigue métodos de distância: Compare os resultados usando distância euclidiana e Manhattan. Quais diferenças surgem? Aplique no mundo real: Use clusterização hierárquica para segmentar clientes ou entender padrões em lojas de uma rede varejista.