지난 블로그 포스팅에서 데이터 분석에서의 머신러닝 방법에 대해 자세히 설명하기 시작했습니다.
데이터 분석에서의 머신러닝 방법으로는 아래 11가지 방법이 있다고 공유드렸습니다. 이번 포스팅에서는 이어서 SVM, 로지스틱 회귀, 신경망, k 근방법, k-평균법 (k-means)에 대해 공유드리도록 하겠습니다.
- GAN (적대적 생성 네트워크)
- 랜덤 포레스트
- SVM (Support Vector Machine)
- 로지스틱 회귀
- 신경망
- k 근방법
- k-평균법 (k-means)
- 결정 트리
- 선형 회귀
- 나이브 베이즈
- 주성분 분석
SVM(서포트 벡터 머신)
SVM(서포트 벡터 머신)은 주로 분류 문제나 회귀 문제에 사용됩니다. SVM의 주요 목적은 주어진 데이터를 두 클래스에 최적으로 분리하는 '초평면'을 찾는 것입니다. 이 초평면은 특징량 공간상에서 데이터 점을 가장 효율적으로 나누도록 설계됩니다.
SVM의 강점 중 하나는 적은 데이터양으로도 높은 성능을 발휘한다는 점입니다. 이는 SVM이 '마진 극대화' 원칙에 따라 초평면을 결정하기 때문입니다. 마진이란 초평면에서 가장 가까운 데이터점(서포트 벡터)까지의 거리를 말하며, 이 마진을 최대로 하는 초평면이 선택됩니다. 이 때문에 빗나간 값에 강하고 범화 성능이 높은 모델이 구축되기 쉽습니다.
로지스틱 회귀
로지스틱 회귀는 분류 문제에 특화된 머신러닝 알고리즘입니다. 이름에 회귀라고 되어 있는데, 그 주된 목적은 어떤 사건이 발생할 확률을 계산하고 분류하는 데 있습니다. 이 기법은 주로 두 값 분류에 사용되지만 다항 분류도 가능합니다.
구체적으로는, 복수의 입력 변수를 바탕으로, '어떤 사건이 일어난다', '어떤 사건이 일어나지 않는다'의 2개의 클래스로 데이터를 분류합니다. 계산된 확률이 50% 이상이면 '어떤 사건이 일어난다', 50% 이하면 '어떤 사건이 일어나지 않는다'로 분류됩니다. 이 확률의 역치(결정 경계)는 일반적으로 50%이지만 응용에 따라 변경할 수도 있습니다.
로지스틱 회귀의 이점은 그 해석성과 계산 비용의 낮음에 있습니다. 출력되는 확률치를 직접 비즈니스나 의료의 판단에 이용할 수 있어, 많은 상황에서 활용되고 있습니다.
신경망
신경망은 인간 뇌의 신경 회로망을 모방한 머신러닝의 한 방법입니다. 기본적으로는 입력층, 하나 또는 복수의 중간층(숨겨진 층), 그리고 출력층으로 구성됩니다. 입력층에서 데이터를 받고 중간층에서 해당 데이터를 기반으로 계산을 수행하여 출력층에서 최종 결과를 출력합니다.
중산층이 많이 존재할 경우 보다 복잡한 결정 경계를 형성할 수 있으며 비선형 문제에 대해서도 강력한 예측 성능을 갖게 됩니다. 중산층이 하나밖에 없는 심플한 신경망부터 다수의 중산층을 가진 딥러닝까지 신경망의 형상과 응용 범위는 다양합니다. 분류 문제는 물론 회귀 문제에도 적용 가능하며 음성 인식, 화상 인식, 자연어 처리 등 많은 분야에서 성공을 거두고 있습니다.
k 근방법
k 근방 법은 매우 직관적이며, 새로운 데이터 점이 주어질 경우 기존 학습 데이터 세트 내에서 그 새로운 데이터 점과 가장 가까운 k 개의 데이터 점을 찾아냅니다. 그 후, 다수결이나 평균치 등으로 새로운 데이터점의 클래스(분류)나 값(회귀)을 결정합니다.
이 기법은 간단하고 이해하기 쉽지만, 몇 가지 과제도 있습니다. 특히 데이터양이 많을 경우 모든 학습 데이터와의 거리를 계산해야 하기 때문에 계산량이 커집니다. 이것이 결과적으로 분류에 시간이 걸리는 문제를 일으킵니다. 또, 대량의 학습 데이터를 메모리 내에 유지할 필요가 있기 때문에, 대용량의 메모리가 필요합니다. 이러한 이유로 k 근방 법은 대규모 데이터 세트에는 그다지 적합하지 않다고 되어 있습니다. 따라서 사용 환경의 리소스나 데이터양에 따라서는 다른 알고리즘의 채택이 검토되는 경우도 많습니다.
k-평균법 (k-means)
k-평균법(k-means)은 클러스터링의 한 방법으로 데이터를 지정된 k 개의 클러스터(그룹)로 분류합니다. 처음에 랜덤으로 각 데이터를 그룹에 할당하고 그 후에 각 그룹의 '중심점'을 계산합니다. 이 중심점은 그룹 내 데이터 점의 평균 위치에 일반적으로 설정됩니다. 그런 다음 각 데이터 점에서 각 중심점까지의 거리를 계산하여 가장 가까운 중심점을 가진 그룹에 데이터를 재할당합니다. 이 절차를 반복하여 그룹의 중심점이 변화하지 않을 때까지 업데이트를 계속합니다.
이 방법은 비교적 간단하고 직관적이지만 몇 가지 단점도 있습니다. 특히, 처음에 랜덤으로 할당한 그룹이나 중심점의 선택 방법에 따라서는, 최적의 클러스터링을 실시할 수 없는 경우가 있습니다. 또, 중심점끼리의 거리가 가까운 경우나, 데이터가 비구상의 클러스터를 형성하는 경우에는, k 평균법의 성능이 저하할 가능성이 있습니다. 이러한 이유로 실용적인 문제에 적용할 때는 파라미터의 조정이나 다른 클러스터링 기법과의 조합이 고려되는 경우가 많습니다.
나머지 머신러닝 방법에 대해서는 아래에 있는 다음 포스팅 링크를 눌러 확인해 보실 수 있습니다.
'인공지능 (AI)' 카테고리의 다른 글
머신러닝을 활용한 데이터 분석 활용 사례 (의료 / 금융 / 교통 / 에너지 / 마케팅) (0) | 2024.12.17 |
---|---|
통계학적 데이터 분석과 머신러닝의 차이 3 (2) | 2024.12.16 |
통계학적 데이터 분석과 머신러닝의 차이 1 (0) | 2024.12.16 |
딥러닝 학습 방법과 종류, 활용 방법, 도입 사례 (4) | 2024.12.13 |
딥러닝의 정의, 특징, 알고리즘 종류 (6) | 2024.12.12 |