본문 바로가기
IT

11가지 주요 머신 러닝 알고리즘

by mimmic 2021. 5. 14.

만약 여러분이 높은 직업의 데이터 과학 직업을 얻기 위해 머신 러닝을 배우고 있다면, 여러분은 이 11가지 최고의 머신 러닝 알고리즘을 배우는 것을 빼놓을 수 없습니다.

여기서는 먼저 지도 학습 알고리듬을 검토한 후 지도되지 않은 학습 알고리듬에 대해 논의한다. 머신 러닝의 무기에 존재하는 알고리듬이 훨씬 더 많지만, 우리는 가장 인기 있는 머신 러닝 알고리듬에 초점을 맞출 것이다.

이러한 ML 알고리듬은 예측 모델링을 개발하고 분류 및 예측을 수행하는 데 매우 필수적이다. 이러한 ML 알고리듬은 감독되지 않은 시나리오와 감독되지 않은 시나리오 모두에서 예측과 분류를 수행하는 데 가장 유용하다.

상위 컴퓨터 학습 알고리즘

다음은 최고의 기계 학습 알고리즘입니다.

  • 선형 회귀 분석
  • 로지스틱 회귀 분석
  • 의사 결정 트리
  • 네이비 베이즈
  • 인공신경망
  • K-평균 군집화
  • 이상 탐지
  • 가우스 혼합물 모델(Gauxian Mixture Model, GMM)
  • 주성분 분석
  • KNN
  • 지원 벡터 시스템

1. 선형 회귀 분석

두 연속형 변수 사이의 관계를 측정하는 방법을 선형 회귀 분석이라고 합니다. 이 변수는 두 가지 변수로 구성됩니다.

  • 독립 변수 - "x"
  • 종속 변수 - "y"

단순 선형 회귀 분석에서 예측 변수 값은 변수에 대한 기본 종속성이 없는 독립 값입니다. x와 y의 관계는 다음과 같습니다.

=mx + subs --

여기서 m은 기울기이고 c는 절편입니다.

이것은 모달 창입니다.

대화 상자 창의 시작입니다. 이스케이프가 취소되고 창이 닫힙니다.

대화 상자 창의 끝입니다.

  • 챕터
  • 설명 꺼짐, 선택됨
  • 캡션 설정, 캡션 설정 대화 상자 열기
  • 캡션 꺼짐, 선택됨
  • 기본값, 선택됨

이 방정식을 기반으로, 우리는 종속 변수와 독립 변수 사이에 표시되는 관계를 통해 산출물을 계산할 수 있다.

DataFlear를 사용하여 선형 회귀 분석 자세히 알아보기

2. 로지스틱 회귀 분석

이것은 데이터 포인트의 이진 분류를 위한 가장 인기 있는 ML 알고리즘이다. 로지스틱 회귀 분석을 사용하면 두 클래스 중 하나에 속하는 출력을 생성하는 범주형 분류를 얻을 수 있습니다. 예를 들어, 여러 예측 변수를 기준으로 오일 가격이 상승할지 여부를 예측하는 것은 로지스틱 회귀 분석의 한 예입니다.

로지스틱 회귀 분석에는 가설 및 시그모이드 곡선이라는 두 가지 성분이 있습니다. 이 가설을 바탕으로 사건의 결과적 가능성을 도출할 수 있다 그런 다음 가설에서 얻은 데이터는 'sigmoid'라고 불리는 S자 곡선을 형성하는 로그 함수에 적합된다. 이 로그 기능을 통해 출력 데이터가 속하는 범주를 결정할 수 있습니다.

시그모이드 S자 곡선은 다음과 같이 시각화된다.

1 / (1 + e^-x)

위의 방정식에서 e는 자연로그의 기저 값이고 우리가 얻은 S자 곡선은 0에서 1 사이입니다. 로지스틱 회귀 분석에 대한 방정식을 다음과 같이 작성합니다.

y = 0 +0^(b+b1^), 1 +0^(b+b1^)가

b0과 b1은 입력 x의 두 계수입니다. 우리는 최대우도 함수를 사용하여 이러한 계수를 추정한다.

3. 의사결정 나무

의사결정 트리는 분류뿐만 아니라 예측도 용이하게 한다. 의사결정 트리를 사용하면 주어진 입력 집합으로 의사결정을 할 수 있다. 의사결정 트리를 다음 예와 함께 이해하도록 합니다.

당신이 샴푸를 사러 시장에 가고 싶어 한다고 가정하자. 첫째, 샴푸가 정말 필요한지 분석하게 될 것이다. 다 떨어지면 시장에서 사야 할 거예요. 게다가, 여러분은 밖을 보고 날씨를 평가할 것입니다. 즉, 비가 오면 가지 않고 비가 오지 않으면 가지 않습니다. 우리는 다음 시각화를 통해 이 시나리오를 직관적으로 시각화할 수 있다.

동일한 원칙을 사용하여, 우리는 몇 가지 결정을 통해 우리의 출력을 얻기 위한 계층 트리를 구성할 수 있다. 의사 결정 트리를 만드는 데는 유도 및 가지치기 두 가지 절차가 있습니다. 인덕션에서는 의사결정 트리를 만들고 가지치기에서는 몇 가지 복잡성을 제거하여 트리를 단순화한다.

4. Naive Bayes

나이브 베이즈는 베이즈 정리를 기반으로 하는 조건부 확률 분류기의 한 종류이다. 그들은 특징들 사이에 가정들의 독립성을 가정한다.

베이즈 정리는 P(c), P(x), P(x)에서 후방 확률 P(c|x), P(x|c)를 계산하는 표준 방법론을 제시한다. 순진한 베이즈 분류기에서는 주어진 클래스(c)에 대한 예측 변수 값의 영향이 다른 예측 변수 값과 무관하다는 가정이 있습니다.

베이즈 정리에는 많은 이점이 있다. 쉽게 구현할 수 있습니다. 또한, Naive Bayes는 적은 양의 훈련 데이터를 필요로 하며 결과는 일반적으로 정확하다.

5. 인공신경망

인공 신경망은 우리 신경계의 뉴런과 동일한 기본 원리를 공유한다. 그것은 입력 계층에서 최종 출력 계층으로 정보를 전파하는 계층에서 쌓인 단위로 작용하는 뉴런으로 구성된다. 이러한 신경망에는 입력 계층, 은닉 계층 및 최종 출력 계층이 있다. 단일 계층 신경 네트워크(Perceptron) 또는 다계층 신경 네트워크가 있을 수 있다.

이 다이어그램에는 출력의 형태로 입력을 가져가는 단일 입력 계층이 있습니다. 이후, 입력은 여러 수학 함수를 수행하는 숨겨진 계층으로 전달되어 원하는 출력을 얻기 위해 계산을 수행한다. 예를 들어, 고양이와 개의 이미지가 주어지면, 숨겨진 레이어는 우리의 이미지가 속하는 범주의 최대 확률을 계산한다. 이것은 고양이 또는 개가 적절한 위치에 할당된 이진 분류의 예입니다.

6. K-means clustering

K-평균 군집화는 n개의 값으로 구성된 데이터를 후속 k 하위 그룹으로 분할하는 반복 기계 학습 알고리즘이다. 그런 다음 가장 가까운 평균을 갖는 각 값은 k 군집에 속합니다.

개체 그룹이 주어지면 그룹을 여러 하위 그룹으로 분할한다. 하위 그룹은 하위 그룹의 각 데이터 점의 거리가 중심과 관련된 의미를 갖는 유사한 기준을 가지고 있습니다. 이것은 매우 이해하기 쉽고 구현하기 쉽기 때문에 비지도 머신 러닝 알고리듬의 가장 인기 있는 형태이다.

K-평균 클러스터링 알고리듬의 주요 목표는 유클리드 거리를 최소로 줄이는 것이다. 이 거리는 다음과 같은 오차 제곱 함수를 사용하여 최소화하는 군집 내 분산입니다.

여기서 J는 필수 군집 중심부의 목적 함수입니다. K 군집과 n 군집에는 사례 수가 있습니다. 군집 수에는 C 중심과 j가 있습니다. 우리는 X 데이터 점에서 유클리드 거리를 결정한다. 이제 K-평균 군집화를 위한 몇 가지 중요한 알고리즘을 살펴보자.

  • 첫 번째 단계에서는 K 포인트를 초기화하고 선택합니다. 이러한 k-점은 평균을 나타냅니다.
  • 유클리드 거리를 사용하여, 우리는 군집의 중심에 가장 가까운 데이터 점을 찾는다.
  • 그런 다음 중앙점을 찾는 데 도움이 되는 모든 점의 평균을 계산합니다.
  • 오른쪽 클러스터에 모든 점이 할당될 때까지 1, 2, 3단계의 반복 반복을 수행합니다.

7. Anomaly detection

이상 징후 탐지에서는 일반 패턴과 유사한 특이한 패턴을 식별하는 기술을 적용한다. 이러한 비정상적인 패턴 또는 데이터 점을 특이 치라고 합니다. 이러한 특 이치 탐지는 운영 환경에서 오류 탐지는 물론 침입 감지, 사기 감지, 보건 시스템 모니터링이 필요한 많은 기업에게 있어 중요한 목표이다.

특이 치는 드물게 발생하는 현상입니다. 그것은 다른 것들과는 매우 다른 관찰이다. 이는 측정의 변동성 또는 단순히 오류의 형태 때문일 수 있습니다.

8. 가우스 혼합물 모델(GMM)

전체 모집단 내에서 정규 분포를 따르는 하위 모집단을 나타내기 위해 가우스 혼합물 모델이 사용됩니다. 하위 모집단과 관련된 데이터는 필요하지 않습니다. 따라서 이 모델은 하위 모집단을 자동으로 학습할 수 있습니다. 모집단의 할당이 명확하지 않기 때문에 비지도 학습 범주에 속한다.

예를 들어, 사람 키 데이터의 모형을 만들어야 한다고 가정합니다. 남성 분포에서 남성의 평균 키는 5'8'이고 여성의 경우 5'4'이다. 우리는 성별 할당이 아닌 키 데이터만 알고 있습니다. 분포는 두 개의 척도 정규 분포와 두 개의 이동 정규 분포의 합을 따릅니다. 우리는 가우스 혼합물 모델 또는 GMM의 도움을 받아 이러한 가정을 한다. GMM에는 여러 가지 구성 요소도 있을 수 있다.

GMM을 사용하여 음성 데이터에서 중요한 특징을 추출할 수 있고, 여러 가지 혼합물 구성 요소를 가진 경우 객체 추적과 비디오 시퀀스에서 객체 위치를 예측하는 수단도 수행할 수 있다.

9. 주 구성 요소 분석

차원 감소는 기계 학습의 가장 중요한 개념 중 하나입니다. 데이터에는 여러 차원이 있을 수 있습니다. 이 치수를 그대로 두세요. 예를 들어, 신용 점수, 개인 정보, 직원의 급여 등을 포함한 재무 데이터를 연구하는 데이터 과학자가 있다고 합시다. 모델에 기여하는 중요한 레이블을 이해하기 위해 치수 축소를 사용한다. PCA는 치수를 줄이기 위한 가장 인기 있는 알고리즘 중 하나이다.

PCA를 사용하면 모델의 중요한 기능을 유지하면서 치수 수를 줄일 수 있다. PCA는 치수 수에 기초하며 각 PCA는 다른 PCA와 수직이다. 모든 수직 PCA의 도트 제품은 0입니다.

10. KNN

KNN은 우리가 머신 러닝뿐만 아니라 데이터 마이닝에 사용하는 많은 지도된 머신 러닝 알고리듬 중 하나이다. 유사한 데이터를 기반으로, 이 분류기는 그 후에 내부에 존재하는 패턴을 학습한다. 이것은 비모수적이고 게으른 학습 알고리듬이다. 비모수적이라는 것은 기본 데이터 분포에 대한 가정이 유효하지 않다는 것을 의미합니다. 게으른 로딩에서는 모델을 생성하기 위한 데이터 포인트를 훈련시킬 필요가 없다.

훈련 데이터는 시험 단계에 활용되어 훈련 단계에 비해 시험 단계가 더 느리고 비용이 많이 든다.

11. 지원 벡터 머신(SVM)

지원 벡터 머신(Support Vector Machines)은 회귀 및 분류를 통해 데이터 분석을 위한 모델링을 용이하게 하는 지도된 머신 러닝 알고리듬의 일종이다. SVM은 주로 분류에 사용됩니다. SVM에서는 데이터를 n차원 공간에 플로팅 한다. SVM의 각 기능의 값은 특정 좌표의 값과 동일합니다. 그런 다음, 우리는 두 클래스를 구별하는 이상적인 초평면을 찾기 위해 계속한다.

지원 벡터는 개별 관측치의 좌표 표현을 나타냅니다. 따라서, 그것은 우리가 두 계층을 분리하는 데 활용하는 개척 방법이다.

지원 벡터는 개별 관측치의 좌표 표현을 나타냅니다. 따라서, 그것은 우리가 두 계층을 분리하는 데 활용하는 개척 방법이다.

결론

이 포스팅에서는 데이터 과학 산업에 필수적인 여러 기계 학습 알고리즘을 살펴봤습니다. 우리는 기계 학습 모델의 구현에 매우 필수적인 감독되지 않은 학습 알고리듬뿐만 아니라 감독되지 않은 학습 알고리듬의 혼합을 연구했다. 이제 다음 데이터 과학 작업에 이러한 ML 알고리즘 개념을 적용할 준비가 되었습니다.

 

 

'IT' 카테고리의 다른 글

기계 학습의 장단점  (0) 2021.05.15
최고의 머신 러닝 활용 사례  (0) 2021.05.15
머신 러닝이 인기 있는 이유  (0) 2021.05.14
머신 러닝을 배우는 이유  (0) 2021.05.14
머신 러닝을 배우는 방법  (0) 2021.05.14

댓글