본문 바로가기
카테고리 없음

Python 데이터분석 최적화

by 만능해결사 2023. 2. 17.

1. 파이썬(Python) 데이터 분석

데이터 분석은 데이터를 일정한 패턴, 규칙등으로 단순정보를 취합 및 종합하는 행위입니다. 따라서 단순한 요소인 데이터를 기준으로 기준이 되는 요소와 그에 맞게 분류하는 기술이 필요합니다. 데이터 분석은 전공 분야와 상황에 따라 상당히 다른 데이터 분석툴을 사용하며, 관련 역할별 수행 방법과 범위가 다를 수도 있습니다.

위키피디아에서는 데이터 분석을 '유용한 정보를 발견하고 결론을 유추하거나, 의사결정을 돕기 위해 데이터 조사, 정제, 변환, 모델링하는 행위'라고 정의하고 있습니다. 데이터 분석은 위에도 얘기했지만 비즈니스 관점에서 처리하는 부분과 과학적, 기술적 부분에서 구분하는 방식이 상이하여 각 상황과 환경에 맞게 진행해야 하는 부분이 있습니다.

data analysis

2. 파이썬(Python) 데이터 분석 방법

데이터 분석은 분석을 통한 결과물을 관점에서 접근이 필요합니다. 데이터 과학과 같이 문제해결을 최선의 해결책으로 진행해야 할 부분도 있습니다. 데이터 분석은 경영진이나 관련자들이 의사결정이나 선택의 문제에서 기준이 되는 자료에 대해 확인하고 진행하는 분석방법이 될 수 있습니다. 데이터 분석 방법으로는 기존의 학문적 관점에서 통계학과 관련이 가장 강합니다. 통계학 관점에서 보면 데이터 분석은 기술통계(descriptive statistics), 탐색적 데이터 분석(EDA, exploratory data analysis), 가설검정(hypothesis testing)으로 구분할 수 있습니다. 각각에 대해 설명을 정리하자면 다음과 같습니다.

기술통계(descriptive statistics)는 관찰이나 실험등으로 수집한 데이터 및 자료를 정량화하거나 수치화하여 관련 내역을 요약정리하는 기법으로 생각하면 편합니다. 예시로 모집단에서 평균값을 구하고 평균값 기준으로 최솟값과 최댓값을 산출하는 방법이라고 생각할 수 있습니다.

탐색적 데이터 분석(EDA, exploratory data analysis)은 데이터나 자료에 대해 시각적인 요소로 표현을 하여 주요 특징이나 유사성을 그래픽이나 입체적인 방법으로 유추하는 분석 방법입니다. 다양한 그래프를 통해 시각적인 특징등을 분석하는 방식으로 생각하면 편합니다.

가설검정(hypothesis testing)은 주어진 자료나 데이터를 기반으로 특정 명제가 기재되고 그 명제가 실현되기 위한 가설이 검증되는 방법으로 진행이 되는 분석방법입니다. 가설이나 검정방법, 명제 등에 대해 직접적인 기술 후 관련 자료를 토대로 입증하는 절차가 존재하는 분석방법입니다.

기타로 수학적인 통계를 직접적으로 이용하는 방법 및 데이터 처리부터 분석, 모델링까지의 일련의 과정에 대해 직접적인 분석툴을 사용하여 데이터 분석을 수행하는 방법도 존재합니다.

python data analysis

3. 파이썬(Python) 분석툴

데이터 분석을 위해 많은 툴(tool)이 존재합니다. 그중에서 가장 파워풀한 분석툴은 파이썬(Python)과 R언어입니다.

파이썬(Python)은 처음부터 얘기했지만 관련 라이브러리 함수를 다량 보유하고 있으며, 관련 데이터 처리 최적화하는 방법들이 상존하여 가장 파워풀한 프로그램 언어기준 분석툴입니다. 또한 지난 10년간 파이썬(Python)이 사용되면서 관련 패키지 경험이나 학계, 산업분야에서 광범위하게 사용되는 부분에 대해서도 인지해야 합니다.

R언어는 1995년 통계 계산을 위해 개발된 언어입니다. 사람들이 주로 사용하는 범용 프로그래밍 언어는 아닙니다. R언어는 통계 패키지와 상당량의 그래픽툴을 가지고 있는 언어입니다. 따라서 데이터를 전처리나 후처리, 수집 부분에 대해서는 힘들 수도 있습니다. 그렇지만 상당량의 통계 패키지를 구비하고 있어 관련 통계추출 및 통계적 가설검증, 통계적 분석등에서는 빼질 수 없는 주요 기능을 가지고 있다고 할 수 있습니다.

보통 데이터 분석을 위해 파이썬(Python)과 R언어를 상존하며 사용하는 경우도 많습니다.

그 외에도 많은 분석툴이 있지만 위의 2가지의 분석툴을 통해 데이터 분석툴을 활용하는 게 좋습니다.

기존에 사용하던 부분 외로 Numpy, Pandas등과 같은 파이썬 라이브러리를 활용하여 분석할 수 있는 환경을 만들 수도 있습니다.

댓글