Skip to main content

O uso da classificação na mineração de dados

Things Mr. Welch is No Longer Allowed to do in a RPG #1-2450 Reading Compilation (Abril 2025)

Things Mr. Welch is No Longer Allowed to do in a RPG #1-2450 Reading Compilation (Abril 2025)
Anonim

A classificação é uma técnica de mineração de dados que atribui categorias a uma coleção de dados para auxiliar em previsões e análises mais precisas. Também chamado às vezes chamado de Árvore de Decisão , a classificação é um dos vários métodos destinados a tornar efetiva a análise de conjuntos de dados muito grandes.

Porquê Classificação?

Bases de dados muito grandes estão se tornando a norma no mundo de hoje big data . Imagine um banco de dados com múltiplos terabytes de dados - um terabyte é um trilhão bytes de dados.

O Facebook sozinho tritura 600 terabytes de novos dados todos os dias (a partir de 2014, a última vez que relatou essas especificações). O principal desafio do big data é saber como fazer sentido.

E o volume absoluto não é o único problema: os big data também tendem a ser diversos, desestruturados e de rápida mudança. Considere dados de áudio e vídeo, postagens de mídias sociais, dados 3D ou dados geoespaciais. Esse tipo de dados não é facilmente categorizado ou organizado.

Para enfrentar este desafio, uma série de métodos automáticos para extrair informações úteis foi desenvolvida, entre eles classificação .

Como funciona a classificação

Correndo o risco de ir longe demais para a tecnologia, vamos discutir como a classificação funciona. O objetivo é criar um conjunto de regras de classificação que responda a uma pergunta, tome uma decisão ou preveja o comportamento. Para começar, é desenvolvido um conjunto de dados de treinamento que contém um determinado conjunto de atributos, bem como o resultado provável.

O trabalho do algoritmo de classificação é descobrir como esse conjunto de atributos chega a sua conclusão.

Cenário: Talvez uma empresa de cartão de crédito esteja tentando determinar quais clientes potenciais devem receber uma oferta de cartão de crédito.

Este pode ser seu conjunto de dados de treinamento:

Dados de treinamento
NomeEraGêneroRendimento anualOferta de cartão de crédito
John Doe25M$39,500Não
Jane Doe56F$125,000sim

As colunas "preditor" Era , Gênero e Rendimento anual determine o valor do "atributo preditor" Oferta de cartão de crédito . Em um conjunto de treinamento, o atributo preditor é conhecido. O algoritmo de classificação então tenta determinar como o valor do atributo preditor foi alcançado: quais relacionamentos existem entre os preditores e a decisão? Ele desenvolverá um conjunto de regras de previsão, geralmente uma instrução IF / THEN, por exemplo:

SE (Idade> 18 OU Idade <75) E Renda Anual> 40.000 ENTÃO Oferta de Cartão de Crédito = sim

Obviamente, este é um exemplo simples, e o algoritmo precisaria de uma amostragem de dados muito maior do que os dois registros mostrados aqui. Além disso, as regras de previsão provavelmente serão muito mais complexas, incluindo sub-regras para capturar detalhes de atributos.

Em seguida, o algoritmo recebe um "conjunto de previsão" de dados para analisar, mas esse conjunto não possui o atributo de previsão (ou decisão):

Dados do Preditor
NomeEraGêneroRendimento anualOferta de cartão de crédito
Jack Frost42M$88,000
Mary Murray16F$0

Esses dados de previsão ajudam a estimar a precisão das regras de previsão, e as regras são ajustadas até que o desenvolvedor considere as previsões eficazes e úteis.

Exemplos do dia a dia da classificação

A classificação e outras técnicas de mineração de dados estão por trás de grande parte da nossa experiência do dia a dia como consumidores.

As previsões do tempo podem fazer uso da classificação para relatar se o dia será chuvoso, ensolarado ou nublado. A profissão médica pode analisar as condições de saúde para prever resultados médicos. Um tipo de método de classificação, Naive Bayesian, usa probabilidade condicional para categorizar e-mails de spam. Da detecção de fraudes às ofertas de produtos, a classificação está nos bastidores todos os dias analisando dados e produzindo previsões.