고객의 제품을 특정 고객에게 더 나은 방식으로 판매하기를 원하십니까? 그렇다면 클러스터링은 귀사를 위한 것입니다. 제 말은 기계 학습에서 비지도 학습과 군집화의 개념을 가장 좋은 방법으로 이해해야 한다는 것입니다. 그게 가장 좋은 방법이 뭐죠? 적절한 예제와 실제 응용 프로그램의 도움을 받아 클러스터링과 클러스터링 알고리듬을 학습한다. 오늘 이 클러스터링 머신 러닝 튜토리얼에서는 동일한 내용에 대해 논의합니다. 본 자습서의 개요는 다음과 같습니다.
- 클러스터링이란 무엇입니까?
- 머신 러닝에서 클러스터링을 사용해야 하는 이유
- 머신러닝의 클러스터링 알고리즘 유형
- 클러스터링 예제
- 클러스터링의 응용
따라서 클러스터링 자습서를 시작하기 전에 머신 러닝 알고리듬의 유형을 확인하는 것이 좋습니다.
클러스터링이란 무엇입니까?
클러스터링은 데이터 포인트의 유사성을 기반으로 데이터를 그룹화하는 비지도 학습에서 가장 인기 있는 기술이다. 클러스터링에는 다양한 상황에서 사용할 수 있는 많은 실제 애플리케이션이 있습니다.
군집 뒤에 있는 기본 원리는 동일한 군집에 존재하는 관측치가 유사성의 정도를 가질 수 있도록 주어진 관측치 집합을 부분 군이나 군집에 할당하는 것이다. 사물을 본성에 따라 분별하는 것은 인간의 인지 능력의 구현이다. 예를 들어, 여러분이 장을 보러 갈 때, 여러분은 사과와 오렌지를 두 개가 모두 들어 있는 주어진 세트에서 쉽게 구별할 수 있습니다. 여러분은 이 두 물체를 색깔, 질감, 그리고 여러분의 뇌에 의해 처리되는 다른 감각 정보에 기초하여 구별합니다. 클러스터링은 기계가 다른 개체를 구별할 수 있도록 이 프로세스의 에뮬레이션입니다.
객체에 외부 라벨이 부착되어 있지 않기 때문에 비지도 학습 방법이다. 기계는 주어진 입력-출력 매핑 없이 모든 특징과 패턴을 스스로 학습해야 한다. 이 알고리즘은 데이터 객체의 특성에서 추론을 추출한 다음 적절한 그룹화를 위해 고유한 클래스를 만들 수 있다.
클러스터링 머신 러닝에서 알고리듬은 모집단을 서로 다른 그룹으로 나누어 각 데이터 포인트가 동일한 그룹의 데이터 포인트와 유사하고 다른 그룹의 데이터 포인트와 다르다. 그런 다음 유사성과 불일치에 기초하여 개체에 적절한 하위 그룹을 할당합니다.
컴퓨터 학습 주제를 빠르게 수정해야 하는 경우 이 무료 컴퓨터 학습 자습서 라이브러리를 확인할 수 있습니다.
클러스터링 예제 - 함께 클러스터링 된 데이터 포인트는 유사한 데이터를 보유하는 그룹에 속합니다. 그런 다음 아래에서 시각화되는 세 개의 클러스터를 식별하여 이러한 클러스터를 더욱 구분할 수 있다.
우리는 데이터 포인트가 클러스터 센터의 범위 내에 있다는 기본적인 개념으로 클러스터링을 수행한다. 우리는 특이 치를 계산하기 위해 몇 가지 거리 방법과 기법을 사용한다.
클러스터링의 이유
클러스터링은 레이블이 없는 데이터 집합 사이에서 고유 그룹 결정을 수행하므로 중요한 기술이다. 클러스터링에는 표준 기준이 없습니다. 이 모든 것은 사용자 및 사용자의 요구와 요구사항을 충족하는 적절한 기준에 따라 달라집니다. 예를 들어, 동종 그룹을 찾기 위해 데이터 감소를 통해 대표자를 찾고 적합한 속성을 설명할 수 있습니다. 특 이치 탐지에 대한 비정상적인 데이터 개체도 찾을 수 있습니다. 그런 다음 알고리즘은 점의 유사성이 유효한 가정을 구성하는 가정을 만든다.
잠깐만! 머신러닝의 실시간 응용 프로그램 확인했어?
클러스터링 알고리즘 유형
총 다섯 가지 유형의 클러스터링 알고리듬이 있다. 다음과 같습니다.
- 파티셔닝 기반 클러스터링
- 계층적 클러스터링
- 모델 기반 클러스터링
- 밀도 기반 클러스터링
- 퍼지 클러스터링
1. Partitioning Clustering
이 클러스터링 유형에서 알고리즘은 데이터를 k 그룹의 하위 집합으로 세분화합니다. 이러한 k 그룹 또는 군집은 미리 정의해야 합니다. 이 두 가지 요구 사항을 충족함으로써 데이터를 군집으로 나눕니다. 첫째, 각 그룹은 적어도 하나의 점으로 구성되어야 합니다. 둘째, 각 점은 정확히 하나의 그룹에 속해야 합니다. K-평균 군집화는 분할 군집화 방법의 가장 일반적인 유형입니다.
2. Hierarchical Clustering
이러한 유형의 클러스터링을 뒷받침하는 기본 개념은 클러스터 계층을 생성하는 것입니다. 파티셔닝 클러스터링과 달리 모델이 구축될 클러스터의 사전 정의가 필요하지 않습니다. 계층적 클러스터링을 수행하는 두 가지 방법이 있습니다. 첫 번째 접근 방식은 상향식 접근 방식(agglomerative approach)이며 두 번째 접근 방식은 하향식 접근 방식에서 클러스터 계층을 이동하는 분산형 접근 방식입니다. 이러한 유형의 클러스터링의 결과, 우리는 덴도 그램으로 알려진 트리와 같은 표현을 얻는다.
3. Density-Based Models
이러한 유형의 클러스터에서는 데이터 공간에 존재하는 밀도가 높은 영역이 희소 영역에 의해 서로 분리된다. 이러한 유형의 클러스터링 알고리듬은 밀도에 기반한 비선형 형상 구조를 평가하고 찾는 데 중요한 역할을 한다. 가장 인기 있는 밀도 기반 알고리듬은 노이즈가 있는 데이터를 공간적으로 클러스터링 할 수 있는 DBSCAN이다. 데이터 접근성과 데이터 연결성의 두 가지 개념을 사용합니다.
4. Model-Based Clustering
이 유형의 군집 분석 기법에서 관측된 데이터는 둘 이상의 군집 성분의 혼합으로 구성된 분포에서 생성됩니다. 또한 각 성분 군집에는 이 혼합물에서 관련 확률 또는 가중치를 갖는 밀도 함수가 있습니다.
5. Fuzzy Clustering
이 클러스터링 유형에서 데이터 점은 둘 이상의 클러스터에 속할 수 있습니다. 클러스터에 있는 각 구성 요소에는 해당 클러스터에 있는 정도에 해당하는 구성원 자격 계수가 있습니다. 퍼지 클러스터링 방법은 부드러운 클러스터링 방법으로도 알려져 있다.
클러스터링의 응용
머신 러닝에서 클러스터링의 인기 있는 응용 프로그램 중 일부는 다음과 같다.
1. 암세포 식별을 위한 군집화 알고리즘
암 데이터 세트는 클러스터링 알고리듬을 사용하여 식별할 수 있다. 암 데이터와 비암 데이터로 구성된 데이터의 혼합에서 클러스터링 알고리듬은 결과 클러스터를 생성하는 데이터에 존재하는 다양한 특징을 학습할 수 있다. 실험을 통해, 우리는 암 데이터 세트가 감독되지 않은 비선형 클러스터링 알고리듬의 모델이 주어졌을 때 정확한 결과를 제공한다는 것을 관찰한다.
2. 검색엔진의 클러스터링 알고리즘
Google에서 특정 항목을 검색하는 동안 원본 쿼리와 일치하는 유사한 결과가 혼합되어 표시됩니다. 이는 유사한 개체를 단일 클러스터에 그룹화하여 사용자에게 제공하는 클러스터링의 결과입니다. 가장 가까운 유사 개체를 기반으로 데이터가 단일 클러스터에 할당되어 사용자에게 포괄적인 결과 집합을 제공합니다.
3. 무선 네트워크의 클러스터링 알고리즘
무선 노드의 클러스터링 알고리즘을 사용하여 무선 센서에 의해 사용되는 에너지를 절약할 수 있다. 무선 네트워크에는 에너지 소비를 개선하고 데이터 전송을 최적화하기 위한 다양한 클러스터링 기반 알고리듬이 있다.
4. 고객 세분화를 위한 클러스터링
클러스터링의 가장 인기 있는 애플리케이션 중 하나는 고객 세분화 분야입니다. 사용자 기반 분석을 바탕으로 기업은 제품 또는 서비스의 잠재적 사용자임을 입증할 고객을 식별할 수 있습니다. 클러스터링을 통해 고객은 고객을 여러 클러스터로 분할할 수 있으며, 이를 토대로 고객층에 어필할 수 있는 새로운 전략을 채택할 수 있습니다. 이제 머신 러닝을 이용한 고객 세분화 최고의 머신 러닝 프로젝트를 통해 클러스터링 개념을 연습할 수 있습니다.
요약
이 포스팅에서는 클러스터링에 대해 살펴보고 클러스터링이 레이블링 되지 않은 데이터 세트에 고급 데이터 분석 기술을 어떻게 가져왔는지 살펴봤다. 우리는 다양한 유형의 클러스터링 알고리듬을 개요 했다. 마지막으로 클러스터링의 적용 방법과 실제 시나리오에 적용되는 방법을 살펴보았습니다. 이 클러스터링 머신 러닝 튜토리얼이 클러스터링을 위한 개념을 지우는 데 도움이 되었기를 바랍니다.
'IT' 카테고리의 다른 글
뉴비를 위한 Recurrent Neural Networks (0) | 2021.05.15 |
---|---|
Convolutional Neural Networks 튜토리얼 (0) | 2021.05.15 |
초보자를 위한 Gaussian Mixture Model (0) | 2021.05.15 |
자바를 위한 머신 러닝 라이브러리 (0) | 2021.05.15 |
Transfer Learning - CNN (0) | 2021.05.15 |
댓글