Pandas 데이터프레임 활용 통계값 계산

🛠 기타/Data & AI

Pandas 데이터프레임 활용 통계값 계산

inu 2020. 7. 14. 14:28

통계값 한번에 계산(describe)

import pandas as pd
import numpy as np

df = pd.read_csv('data_iris.csv', header='infer',encoding = 'latin1') # csv 파일에서 df정보 불러오기
df.describe()

==결과==
       Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000

Pandas 데이터 프레임을 활용하여 각종 유의미한 통계값을 얻어낼 수 있다.
describe 함수는 주로 활용되는 통계값을 한번에 출력해준다.

통계값 하나씩 계산하기(count, mean, std, max, min)

print(df.count()) # 각 컬럼별 개수
print(df.mean()) # 각 컬럼별 평균
print(df.std()) # 각 컬럼별 표준편차
print(df.max()) # 각 컬럼별 최대값
print(df.min()) # 각 컬럼별 최소값

==결과(min)==
Sepal.Length    4.3
Sepal.Width     2.0
Petal.Length    1.0
Petal.Width     0.1
dtype: float64

개수,평균,표준편차,최대값,최소값을 각각 출력할 수도 있다.
결과화면은 min()을 제외하고는 생략하겠다. 이와 같은 방식으로 각 컬럼의 요구값이 출력된다고 이해하면 된다.
axis 옵션은 0이 default지만, 1로 바꾸면 각 행의 통계값을 계산할 수 있다.

상관계수(corr, corrwith)

# 1 상관계수를 구할 수 있는 각 컬럼간의 상관계수 모두 계산
print(df.corr())

# 2 특정 컬럼 두가지의 상관계수 계산
print(df['Sepal.Length'].corr(df['Sepal.Width']))

# 3 특정 컬럼과 나머지 칼럼간의 상관계수 계산
df.corrwith(df['SepalLength'])

==결과1==
              Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
Sepal.Length      1.000000    -0.112345      0.854260     0.813987
Sepal.Width      -0.112345     1.000000     -0.404085    -0.366126
Petal.Length      0.854260    -0.404085      1.000000     0.951043
Petal.Width       0.813987    -0.366126      0.951043     1.000000

==결과2==
-0.11234507032543906

==결과3==
Sepal.Length    1.000000
Sepal.Width    -0.112345
Petal.Length    0.854260
Petal.Width     0.813987
dtype: float64

상관계수는 통계에서 상당히 유의미하다. 특정 값과 특정 값간의 관계를 유추하는데 도움을 주기 때문이다.
이러한 상관계수의 유형에는 Pearson, Spearman, Kendall 등이 존재하는데, pandas에서 디폴드로 사용하는 상관계수는 Pearson이다. method 옵션을 method='pearson'과 같이 설정하여 상관계수 유형을 변경할 수도 있다.
참고 : https://m.blog.naver.com/istech7/50153047118

'🛠 기타 > Data & AI' 카테고리의 다른 글

Pandas 데이터프레임 그룹 나누기 (0)	2020.07.14
Pandas 데이터프레임 결측치(null값) 제어 (0)	2020.07.14
[파이썬] Pandas 데이터프레임 전치행렬 만들기 (0)	2020.07.13
단층 퍼셉트론- 회귀분석 이론 (0)	2020.07.13
[파이썬] Pandas 기초 - DataFrame 결합 (0)	2020.07.09

현재글Pandas 데이터프레임 활용 통계값 계산

이누의 개발성장기

Pandas 데이터프레임 활용 통계값 계산

'🛠 기타 > Data & AI' 카테고리의 다른 글

'🛠 기타/Data & AI'의 다른글

티스토리툴바

Pandas 데이터프레임 활용 통계값 계산

'🛠 기타 > Data & AI' 카테고리의 다른 글

'🛠 기타/Data & AI'의 다른글

관련글

티스토리툴바