지난 두 포스팅에서 통계 학적 데이터 분석과 머신러닝의 차이를 집중적으로 다루기 시작했습니다.
데이터 분석에서의 머신러닝 방법으로는 아래 11가지 방법이 있고, 이전 포스팅에서는 GAN (적대적 생성 네트워크)부터 k-평균법 (k-means)까지 다뤄보았습니다. 이번 포스팅에서는 이어서 결정 트리, 선형 회귀, 나이브 베이즈, 주성분 분석에 대해 공유드리도록 하겠습니다.
- GAN (적대적 생성 네트워크)
- 랜덤 포레스트
- SVM (Support Vector Machine)
- 로지스틱 회귀
- 신경망
- k 근방법
- k-평균법 (k-means)
- 결정 트리
- 선형 회귀
- 나이브 베이즈
- 주성분 분석
결정 트리
결정 트리는 머신러닝에서 널리 이용되는 알고리즘이며, 기본적으로는 데이터를 조건 분기에 따라 작은 그룹으로 분할해 나가는 기법입니다. 이는 양자택일 질문을 반복하고 데이터를 가장 세밀하게 구분할 때까지 계속합니다.
결정 트리의 특징으로 불순도라는 지표를 사용하여 최적의 분기를 찾습니다. 불순도가 낮아지도록 데이터를 분할함으로써 보다 정밀도 높은 분류가 가능해집니다. 또한 결정 트리는 그 구조가 나무 형태이기 때문에 어떤 조건으로 분류되었는지가 매우 직관적이고 알기 쉽다는 장점이 있습니다. 이를 통해 모델의 해석성이 높고 데이터의 특성 및 분류 근거를 쉽게 이해할 수 있습니다. 이러한 특성 때문에 결정 트리는 비즈니스나 의료, 연구 등 많은 분야에서 활용되고 있습니다.
선형 회귀
선형 회귀는 데이터에 가장 잘 맞는 직선을 찾아 그 직선을 이용하여 미래의 값을 예측하는 기법입니다. 여기서 '설명변수'란 예측의 기초가 되는 요소(예: 연령, 수입 등), 그리고 '목적 변수'란 예측하고 싶은 결과(예: 판매량, 점수 등)를 말합니다. 이 관계성은 선형함수로 나타나며, 그 최적의 계수는 최소제곱법을 사용하여 구합니다.
선형 회귀는 이해하기 쉽고 기본적인 기계 학습 알고리즘으로 여겨지고 있습니다. 설명변수가 하나뿐인 경우 그것을 '단 회귀분석'이라고 부릅니다. 설명변수가 두 개 이상 존재하는 경우는 "준 회귀분석"이라고 불리며, 보다 복잡한 관계성도 모델링 할 수 있습니다.
이 기법은 폭넓은 분야에서 이용되고 있으며, 데이터가 선형 관계성을 가지는 경우에는 매우 유용합니다. 그러나 선형으로 나타낼 수 없는 복잡한 관계성에는 한계가 있으며, 그러한 경우에는 비선형 기법이 필요합니다.
나이브 베이즈
나이브 베이즈는 특히 분류 문제에 유효합니다. 이 기법은 베이즈 정리를 기반으로 데이터가 특정 카테고리에 속할 확률을 계산합니다. 구체적인 용도로는 스팸 메일 식별 및 텍스트 자동 분류 등이 있습니다.
나이브 베이즈에서는 주로 '문장 전체가 출현할 확률'과 '특정 단어가 문장 내에서 출현할 확률' 두 가지 확률을 사용합니다. 이러한 확률을 베이즈 정리를 바탕으로 계산하여 확률이 가장 높아지는 카테고리로 데이터를 분류하는 것입니다.
이 기법의 큰 특징은 계산 속도가 빠르고 대량의 데이터에도 쉽게 대응할 수 있다는 점입니다. 단, '나이브'라는 이름이 나타내는 것처럼 각 특징량이 독립적이라고 가정하고 있기 때문에 이 가정이 무너지면 정확도가 떨어질 가능성도 있습니다. 그래도, 그 심플함과 고속성으로부터 많은 응용 예가 존재하고 있습니다.
주성분 분석
주성분 분석은 데이터의 차원 수를 줄이기 위한 통계 기법으로 다차원 데이터를 더 적은 차원으로 표현할 수 있습니다. 구체적으로는 원래 데이터가 가진 정보를 가능한 한 손상시키지 않도록 새로운 '주성분'이라고 불리는 축을 생성합니다. 이를 통해 데이터가 가진 본질적인 특징과 구조를 유지하면서 계산 시간과 리소스를 크게 절약할 수 있습니다.
이 기법은 특히 많은 변수를 가진 데이터 세트에서 유용합니다. 대량의 변수 간의 관계성을 효율적으로 파악할 수 있고 복잡한 데이터 해석을 간소화할 수 있습니다. 또, 차원 수가 3 차원 이하로 삭감된 경우에는, 데이터를 시각적으로 표현하는 그래프 작성도 가능해집니다. 이것에 의해, 데이터의 경향을 직감적으로 이해하기 쉽고, 한층 더 분석이나 해석을 도울 수 있습니다.
여기까지 데이터 분석에서의 머신러닝 방법을 다뤄보았습니다. 다음 포스팅에서는 설명드린 방법들을 어떻게 실제로 활용해 볼 수 있을지에 대해서 자세하게 공유드리도록 하겠습니다.
'인공지능 (AI)' 카테고리의 다른 글
뇌와 인공신경망(뉴럴 네트워크) 개념 차이, 발전과정 (0) | 2024.12.17 |
---|---|
머신러닝을 활용한 데이터 분석 활용 사례 (의료 / 금융 / 교통 / 에너지 / 마케팅) (0) | 2024.12.17 |
통계학적 데이터 분석과 머신러닝의 차이 2 (0) | 2024.12.16 |
통계학적 데이터 분석과 머신러닝의 차이 1 (0) | 2024.12.16 |
딥러닝 학습 방법과 종류, 활용 방법, 도입 사례 (4) | 2024.12.13 |