Codificando Variáveis Categóricas para Machine Learning | Mãos à obra Cientista de Dados #02
A etapa de pré-processamento dos dados é fundamental para o desempenho de um modelo de machine learning. E uma tarefa comum que precisa ser realizada é o tratamento (ou codificação) das variáveis categóricas, pois a maioria dos modelos de aprendizado de máquina exigem que os dados de entrada sejam numéricos. No entanto, frequentemente nos deparamos com variáveis não-numéricas presentes nos dados que desejamos utilizar como fonte para os modelos. Nesse vídeo discutimos estratégias para lidar com esses tipos de dados. Começando por entender as diferentes formas que dados não-numéricos podem assumir para, então, investigarmos alternativas para tratar esses dados. Usando Python na prática, implementamos nossas soluções em um conjunto de dados reais: os microdados do ENEM. O próximo episódio dessa série será AO VIVO no sábado, 05/06, 17h, e você está convidado(a) para aprender machine learning em Python com a gente: ▶️ Seleção e codificação de variáveis para Machine Learning | Mãos à Obra Cientista de Dados #03: • Análise Exploratória de Variáveis para Mac... Note que as variáveis categóricas podem possuir rótulos numéricos ou não-numéricos. No caso de rótulos numéricos, esses podem ser utilizados nos modelos de aprendizado de máquina diretamente, ao passo que os rótulos não-numéricos precisam ser tratados se desejarmos utilizá-los como entrada de um modelo e é sobre esse caso que iremos estudar aqui. Mesmo que um modelo aceite variáveis categóricas pode ser útil codificar para aumentar a performance, pois diminui a memória. E como escolher? Testando! Você deve analisar o trade-off performance vs. desempenho para o seu modelo. As opções aqui discutidas não esgotam as possibilidades que são muitas e continuam crescendo conforme as pesquisas avançam, se desejar explorar mais opções confira a documentação a seguir: Category Encoders: https://contrib.scikit-learn.org/cate... https://scikit-learn.org/stable/modul... Uma ajudinha extra se você estiver perdido nas definições. Ao longo dos nossos estudos, iremos utilizar diversas ferramentas como: – Linguagem de programação Python – Pacotes Pandas, Scikit-Learn e suas dependências – Ambiente de desenvolvimento Jupyter Notebook ou Google Colab (para quem preferir!) – Plataforma Kaggle Sabemos que, para um primeiro contato, podem ser muitas novidades. Se sua cabeça ainda está se adaptando a esse novo mundo, aqui vão alguns nomes com os quais vamos nos deparar com bastante frequência: 1. Dados de treinamento 2. Dados de Teste 3. Dados de Validação 4. Avaliação 5. Features ou características 6. Labels ou Rótulos Venha colocar as mãos à obra, cientista de dados, e aprenda machine learning na prática! 🙌🏾 Essa é uma continuação da série Mãos à obra Cientista de Dados, assista o episódio 01 desta série aqui: • Introdução ao Aprendizado de Máquina(do ZE... 0:00 Mindset de um(a) cientista de dados 0:53 O que é variável quantitativa 1:49 O que é variável categórica 3:00 Identificando variáveis categóricas nos microdados do ENEM 6:40 Técnicas de codificação de variáveis categóricas para machine learning 7:15 Substituição de variáveis categóricas 8:57 One-hot encoding de variáveis categóricas 11:32 Ordinal encoding de variáveis categóricas 13:55 Diferença entre ordinal encoding e label encoding 14:40 Projeto Mãos à Obra Cientista de Dados ✅ Outros materiais recomendados: ✔️ Nossa playlist de Machine Learning ▶️ • O que é MACHINE LEARNING? Introdução ao AP... ✔️ Python Data Science Handbook(gratuito): https://jakevdp.github.io/PythonDataS... ✔️ Machine Learning Crash Course(gratuito): https://developers.google.com/machine... ✔️ Cursos Gratuitos do Kaggle: https://www.kaggle.com/learn 📚 Livros recomendados de Data Science: https://amzn.to/2XZyxUr 📚 Livros de Algoritmos e Estruturas de Dados: https://amzn.to/3d5wK4m 🟣 Canal na Twitch para lives: / pgdinamica 🟦 Canal do Telegram para receber os vídeos: https://t.me/joinchat/AAAAAFaoNgZTMRv... ✉️ E-mails: – Propostas comerciais: [email protected] – Demais assuntos: [email protected] 👩🏾💻👨🏾💻 Confira mais conteúdo em nosso blog: https://blog.programacaodinamica.com.br 🔥 Faça parte da comunidade gratuita Programação Mais Dinâmica: https://bit.ly/pgsparkle (baixe o app e entre na comunidade) 📸 Nos siga no Instagram: / pgdinamica 📸 @kizzy_terra @hallpaz 🐦 Nos siga no Twitter: / pgdinamica 🐦 @kizzy_terra @hallpaz Curta a Programação Dinâmica no facebook: fb.com/pgdinamica Nosso repositório no Github: github.com/programacaodinamica Confira o nosso Medium: medium.com/programacaodinamica Confira os artigos no Python Café: pythoncafe.com.br 🥰 Se você gosta do nosso trabalho e acha relevante a nossa atuação no Youtube, considere nos apoiar se tornando membro do canal: https://www.youtube.com/programacaodi...

Análise Exploratória de Variáveis para Machine Learning | Mãos à Obra Cientista de Dados #03

How to Prepare Text Data for Machine Learning

Um Dia Como Bolsista De INICIAÇÃO CIENTÍFICA CNPQ/UFRGS

APRENDA QUANDO USAR "LabelEncoder" ou "One-Hot Encoder"

Como Usar Variáveis Categóricas num Modelo de Machine Learning - Tutorial Básico

O que um CIENTISTA DE DADOS JUNIOR precisa saber? Cientista de Dados Responde

O que é BigQuery? Como utilizar o BigQuery na prática?

A primeira REDE NEURAL PROFUNDA🤖: Perceptron Multicamada 🦿 | Redes Neurais e Deep Learning 06

Tour prático de Machine Learning com Scikit-Learn

Aprenda Como Selecionar Features para seu Modelo de Machine Learning.

Por que é tão DIFÍCIL ser Cientista de Dados Júnior?

COMPARANDO 9 ALGORITMOS DE MACHINE LEARNING

Getting Started with Scikit-Learn | Machine Learning #04

XGBoost na Prática | Aula 1

One-Hot, Label, Target and K-Fold Target Encoding, Clearly Explained!!!

Como fazer NORMALIZAÇÃO e PADRONIZAÇÃO de DADOS (O Guia Completo)

Classes desbalanceadas: você está fazendo errado!

Machine Learning: Como balancear a variável TARGET com Python

5 projetos para um portfólio de CIENTISTA DE DADOS Iniciante | Cientista de Dados Responde

