[회고] 신입 iOS 개발자가 되기까지 feat. 카카오 자세히보기

🛠 기타/Data & AI

Pandas 데이터프레임 활용 통계값 계산

inu 2020. 7. 14. 14:28
반응형

통계값 한번에 계산(describe)

import pandas as pd
import numpy as np

df = pd.read_csv('data_iris.csv', header='infer',encoding = 'latin1') # csv 파일에서 df정보 불러오기
df.describe()
==결과==
       Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000
  • Pandas 데이터 프레임을 활용하여 각종 유의미한 통계값을 얻어낼 수 있다.
  • describe 함수는 주로 활용되는 통계값을 한번에 출력해준다.

통계값 하나씩 계산하기(count, mean, std, max, min)

print(df.count()) # 각 컬럼별 개수
print(df.mean()) # 각 컬럼별 평균
print(df.std()) # 각 컬럼별 표준편차
print(df.max()) # 각 컬럼별 최대값
print(df.min()) # 각 컬럼별 최소값
==결과(min)==
Sepal.Length    4.3
Sepal.Width     2.0
Petal.Length    1.0
Petal.Width     0.1
dtype: float64
  • 개수,평균,표준편차,최대값,최소값을 각각 출력할 수도 있다.
  • 결과화면은 min()을 제외하고는 생략하겠다. 이와 같은 방식으로 각 컬럼의 요구값이 출력된다고 이해하면 된다.
  • axis 옵션은 0이 default지만, 1로 바꾸면 각 행의 통계값을 계산할 수 있다.

상관계수(corr, corrwith)

# 1 상관계수를 구할 수 있는 각 컬럼간의 상관계수 모두 계산
print(df.corr())

# 2 특정 컬럼 두가지의 상관계수 계산
print(df['Sepal.Length'].corr(df['Sepal.Width']))

# 3 특정 컬럼과 나머지 칼럼간의 상관계수 계산
df.corrwith(df['SepalLength'])
==결과1==
              Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
Sepal.Length      1.000000    -0.112345      0.854260     0.813987
Sepal.Width      -0.112345     1.000000     -0.404085    -0.366126
Petal.Length      0.854260    -0.404085      1.000000     0.951043
Petal.Width       0.813987    -0.366126      0.951043     1.000000

==결과2==
-0.11234507032543906

==결과3==
Sepal.Length    1.000000
Sepal.Width    -0.112345
Petal.Length    0.854260
Petal.Width     0.813987
dtype: float64
  • 상관계수는 통계에서 상당히 유의미하다. 특정 값과 특정 값간의 관계를 유추하는데 도움을 주기 때문이다.
  • 이러한 상관계수의 유형에는 Pearson, Spearman, Kendall 등이 존재하는데, pandas에서 디폴드로 사용하는 상관계수는 Pearson이다. method 옵션을 method='pearson'과 같이 설정하여 상관계수 유형을 변경할 수도 있다.
  • 참고 : https://m.blog.naver.com/istech7/50153047118
반응형