반응형
통계값 한번에 계산(describe)
import pandas as pd
import numpy as np
df = pd.read_csv('data_iris.csv', header='infer',encoding = 'latin1') # csv 파일에서 df정보 불러오기
df.describe()
==결과==
Sepal.Length Sepal.Width Petal.Length Petal.Width
count 150.000000 150.000000 150.000000 150.000000
mean 5.843333 3.057333 3.758000 1.199333
std 0.828066 0.435866 1.765298 0.762238
min 4.300000 2.000000 1.000000 0.100000
25% 5.100000 2.800000 1.600000 0.300000
50% 5.800000 3.000000 4.350000 1.300000
75% 6.400000 3.300000 5.100000 1.800000
max 7.900000 4.400000 6.900000 2.500000
- Pandas 데이터 프레임을 활용하여 각종 유의미한 통계값을 얻어낼 수 있다.
- describe 함수는 주로 활용되는 통계값을 한번에 출력해준다.
통계값 하나씩 계산하기(count, mean, std, max, min)
print(df.count()) # 각 컬럼별 개수
print(df.mean()) # 각 컬럼별 평균
print(df.std()) # 각 컬럼별 표준편차
print(df.max()) # 각 컬럼별 최대값
print(df.min()) # 각 컬럼별 최소값
==결과(min)==
Sepal.Length 4.3
Sepal.Width 2.0
Petal.Length 1.0
Petal.Width 0.1
dtype: float64
- 개수,평균,표준편차,최대값,최소값을 각각 출력할 수도 있다.
- 결과화면은 min()을 제외하고는 생략하겠다. 이와 같은 방식으로 각 컬럼의 요구값이 출력된다고 이해하면 된다.
- axis 옵션은 0이 default지만, 1로 바꾸면 각 행의 통계값을 계산할 수 있다.
상관계수(corr, corrwith)
# 1 상관계수를 구할 수 있는 각 컬럼간의 상관계수 모두 계산
print(df.corr())
# 2 특정 컬럼 두가지의 상관계수 계산
print(df['Sepal.Length'].corr(df['Sepal.Width']))
# 3 특정 컬럼과 나머지 칼럼간의 상관계수 계산
df.corrwith(df['SepalLength'])
==결과1==
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.000000 -0.112345 0.854260 0.813987
Sepal.Width -0.112345 1.000000 -0.404085 -0.366126
Petal.Length 0.854260 -0.404085 1.000000 0.951043
Petal.Width 0.813987 -0.366126 0.951043 1.000000
==결과2==
-0.11234507032543906
==결과3==
Sepal.Length 1.000000
Sepal.Width -0.112345
Petal.Length 0.854260
Petal.Width 0.813987
dtype: float64
- 상관계수는 통계에서 상당히 유의미하다. 특정 값과 특정 값간의 관계를 유추하는데 도움을 주기 때문이다.
- 이러한 상관계수의 유형에는 Pearson, Spearman, Kendall 등이 존재하는데, pandas에서 디폴드로 사용하는 상관계수는 Pearson이다. method 옵션을 method='pearson'과 같이 설정하여 상관계수 유형을 변경할 수도 있다.
- 참고 : https://m.blog.naver.com/istech7/50153047118
반응형
'🛠 기타 > Data & AI' 카테고리의 다른 글
Pandas 데이터프레임 그룹 나누기 (0) | 2020.07.14 |
---|---|
Pandas 데이터프레임 결측치(null값) 제어 (0) | 2020.07.14 |
[파이썬] Pandas 데이터프레임 전치행렬 만들기 (0) | 2020.07.13 |
단층 퍼셉트론- 회귀분석 이론 (0) | 2020.07.13 |
[파이썬] Pandas 기초 - DataFrame 결합 (0) | 2020.07.09 |