최대 효율성을 위해 표본 케이스를 선택한 후 반복 및 분류하기 방법을 선택하여 군집중심을 결정합니다. 최종값 저장을 선택합니다. 그런 다음 전체 데이터 파일을 복구하고 분류만 하기 방법을 선택한 후 초기값 읽기를 선택하여 표본에서 추정한 중심을 사용하여 전체 파일을 분류합니다. 파일이나 데이터 세트에서 읽고 쓸 수 있습니다. 데이터 세트는 같은 세션에서 다시 사용할 수 있으나 세션을 마치기 전에 명시적으로 저장하지 않는 한 파일로 저장되지 않습니다. 데이터 세트 이름은 변수 명명 규칙을 따라야 합니다. 자세한 정보는 변수 이름 주제를 참조하십시오. 이 프로시저를 사용하면 여러 개의 케이스를 다루는 알고리즘을 통해 선택한 특성을 기준하여 상대적으로 동질적인 케이스 그룹을 구별할 수 있습니다. 그러나 이러한 알고리즘을 사용하려면 군집의 수를 지정해야 합니다. 이러한 정보를 알 경우에는 군집중심초기값을 지정할 수 있습니다. 케이스를 분류하려면 반복적으로 군집중심을 업데이트하거나 분류만 하는 두 가지 방법 중 하나를 선택할 수 있습니다. 소속군집, 거리 정보, 마지막 군집중심 등을 저장할 수 있습니다. 선택적으로 케이스별 결과를 설명하는 데 사용되는 값을 갖는 변수를 지정할 수 있습니다. 분산 분석 F 통계가 필요할 수도 있습니다. 이러한 통계는 필요에 따라 사용할 수 있으며(이 프로시저는 서로 다른 그룹을 구성하려고 함) 통계의 상대적 크기로 그룹 분리에 각 변수가 미치는 영향을 알 수 있습니다. 예제. 각 그룹에서 비슷한 시청자 유형을 갖는 텔레비전 쇼를 구별하는 그룹은 무엇입니까? K-평균 군집 분석을 사용하면 텔레비전 쇼(케이스)를 시청자의 특성에 따라 K 동일성 그룹으로 모을 수 있습니다. 이 방법은 마케팅을 위한 대상 선정에도 사용됩니다. 다양한 마케팅 전략을 검정하는데 비교 도시들을 선택할 수 있도록 도시(케이스)를 동일 그룹으로 모을 수 있습니다. 통계. 완료 해법에 대해 군집중심초기값, 분산 분석표를 선택할 수 있습니다. 각 케이스에 대해 군집 정보, 군집중심으로부터의 거리를 선택할 수 있습니다. K-Means 군집 분석 데이터 고려 사항 데이터. 변수는 구간 수준이나 비율 수준에서 양적변수이어야 합니다. 사용 변수가 이분형이나 개수일 경우 계층적 군집 분석 프로시저를 사용합니다. 케이스 및 군집중심 초기값 순서. 군집중심 초기값을 선택하는 기본값 알고리즘은 케이스 순서에 따라 달라질 수 있습니다. 반복 대화 상자의 유동계산 평균 사용 옵션을 사용하면 군집중심 초기값의 선택 방법과 상관없이 케이스 순서에 따라 결과 해법이 달라질 수 있습니다. 이러한 방법 중 하나를 사용하는 경우 주어진 해법의 안정성을 확인하기 위해 케이스를 각기 다른 무작위 순서로 정렬하여 서로 다른 여러 가지 해법을 구할 수도 있습니다. 군집중심 초기값을 지정하고 유동계산 평균 사용 옵션을 사용하지 않으면 케이스 순서와 관련된 문제를 방지할 수 있습니다. 그러나 케이스에서 군집중심까지의 거리가 동률인 경우 군집중심 초기값의 순서가 해법에 영향을 줄 수 있습니다. 주어진 해법의 안정성을 평가하기 위해 중심 초기값의 순열을 각기 달리하여 실행한 분석 결과를 비교할 수 있습니다. 가정. 거리는 단순 유클리드 거리를 사용하여 계산합니다. 다른 거리나 유사성 측도를 사용하려면 계층적 군집 분석 프로시저를 사용합니다. 변수 척도화는 특히 중요한 고려 사항입니다. 한 변수는 달러로 표시되고 다른 변수는 연도로 표시되는 경우와 같이 변수가 서로 다른 척도로 측정되면 결과가 잘못될 수 있습니다. 이러한 경우에는 변수를 표준화한 후 K-평균 군집 분석을 수행하도록 합니다. 이 작업은 기술통계 프로시저에서 수행할 수 있습니다. 이 프로시저에서는 적합한 군집의 수를 선택했으며 관련 변수가 모두 포함되었다고 가정합니다. 선택한 군집의 수가 적합하지 않거나 중요 변수가 빠졌을 때는 결과가 잘못될 수 있습니다. 728x90 - 정답이 없는 문제를 해결하기 위한 알고리즘 → 비지도학습 '군집분석'
- 군집분석(Clustering Analysis)
- K-평균(K-means)
- 파이썬 활용하여 K-평균 군집분석 진행하기
- K-means++
- 사이킷런 사용하여 군집의 품질 평가하기
- 엘보우 방법(elbow method)
사람의 팔꿈치 형상
- 실루엣 분석(silhouette analysis)
이상치를 가진 클러스터 구별할 수 있게 됨 / 위의 그래프 경우에는 실루엣 계수가 대부분 최대값 1에 가깝게 형성되어 있으므로 군집이 잘 형성된 경우라 볼 수 있음군집의 개수가 2개일 경우 → 군집이 비교적 잘 형성되어 있지 않다고 평가됨728x90 공유하기 게시글 관리 구독하기데이터분석_공부기록저작자표시
'AI > Machine Learning' 카테고리의 다른 글[ML] 강화학습 (0)2021.05.13[ML] 군집분석(계층 군집, 밀집도 기반 군집) (0)2021.05.12[ML] 머신러닝 모델(결정 트리 학습, K-근접 이웃) (0)2021.05.11[ML] 머신러닝 모델(퍼셉트론, 로지스틱 회귀, 서포트 벡터 머신) (0)2021.05.11[ML] 경사하강법 - 편미분 (0)2021.05.10 |