Skip to main content

Mineração de Dados com Cluster de K-médias

Cerave Hydrating Hyaluronic Acid Serum Review| Dr Dray (Abril 2025)

Cerave Hydrating Hyaluronic Acid Serum Review| Dr Dray (Abril 2025)
Anonim

o k- significa algoritmo de clustering é uma ferramenta de mineração de dados e aprendizado de máquina usada para agrupar observações em grupos de observações relacionadas sem qualquer conhecimento prévio dessas relações. Por amostragem, o algoritmo tenta mostrar em qual categoria, ou cluster, os dados pertencem, com o número de clusters sendo definidos pelo valor k.

o k- significa algoritmo é uma das técnicas de cluster mais simples e é comumente usado em imagens médicas, biometria e campos relacionados. A vantagem de k- significa clustering é que ele informa sobre seus dados (usando seu formulário não supervisionado) ao invés de você ter que instruir o algoritmo sobre os dados no início (usando a forma supervisionada do algoritmo).

Às vezes é chamado de Algoritmo de Lloyd, particularmente nos círculos de ciência da computação porque o algoritmo padrão foi proposto pela primeira vez por Stuart Lloyd em 1957. O termo "k-means" foi cunhado em 1967 por James McQueen.

Como as funções do algoritmo K-Means

o k- significa algoritmo é um algoritmo evolutivo que ganha seu nome a partir de seu método de operação. O algoritmo agrupa as observações em k grupos, onde k é fornecido como um parâmetro de entrada. Em seguida, atribui cada observação a clusters com base na proximidade da observação à média do cluster. A média do cluster é então recomputada e o processo começa novamente. Veja como o algoritmo funciona:

  1. O algoritmo seleciona arbitrariamente k pontos como os centros iniciais do cluster (os meios).
  2. Cada ponto no conjunto de dados é atribuído ao cluster fechado, com base na distância euclidiana entre cada ponto e cada centro do cluster.
  3. Cada centro do cluster é recalculado como a média dos pontos nesse cluster.
  4. As etapas 2 e 3 se repetem até que os clusters convergam. A convergência pode ser definida de forma diferente dependendo da implementação, mas normalmente significa que nenhuma observação altera os clusters quando as etapas 2 e 3 são repetidas ou que as alterações não fazem uma diferença material na definição dos clusters.

Escolhendo o Número de Clusters

Uma das principais desvantagens de k- significa clustering é o fato de que você deve especificar o número de clusters como uma entrada para o algoritmo. Conforme projetado, o algoritmo não é capaz de determinar o número apropriado de clusters e depende do usuário para identificá-lo com antecedência.

Por exemplo, se você tivesse um grupo de pessoas que seriam agrupadas com base na identidade binária de gênero como homem ou mulher, chamar o k- significa algoritmo usando a entrada k = 3 forçaria as pessoas em três clusters quando apenas dois, ou uma entrada de k = 2, proporcionaria um ajuste mais natural.

Da mesma forma, se um grupo de indivíduos fosse facilmente agrupado com base no estado de origem e você k- significa algoritmo com a entrada k = 20, os resultados podem ser generalizados demais para serem efetivos.

Por esse motivo, geralmente é uma boa ideia experimentar diferentes valores de k para identificar o valor que melhor se adapta aos seus dados. Você também pode explorar o uso de outros algoritmos de mineração de dados em sua busca pelo conhecimento aprendido por máquinas.