[데이터 살펴보기/데이터프레임의 구조] 데이터 개수 확인

2022. 10. 27. 13:26

목차

 

1. 각 열의 데이터 개수

2. 각 열의 고유값 개수


각 열의 데이터 개수

 

DataFrame 객체.count()

info() 메소드는 화면에 각 열의 데이터 개수 정보를 출력하지만 반환해 주는 값이 없어 다시 사용하기 어렵다.

반면 count() 메소드데이터프레임의 각 열이 가지고 있는 데이터 개수를 시리즈 객체로 반환한다.

단, 유효한 값의 개수만을 계산하는 점에 유의한다.

 

# 예제 3-2(1)

import pandas as pd

df = pd.read_csv('auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']

print(df.count())
print('\n')

print(type(df.count()))

 

예제 3-2(1) 출력 결과

 

 

각 열의 고유값 개수

 

DataFrame 객체['열 이름'].value_counts()

value_counts() 메소드는 시리즈 객체의 고유값(unique value) 개수를 세는 데 사용한다.

고유값이 행 인덱스가 되고, 고유값의 개수가 데이터 값이 되는 시리즈 객체가 만들어진다.

 

dropna=True 옵션을 설정하면 데이터 값 중에 NaN을 제외하고 개수를 계산한다.

옵션을 따로 지정하지 않으면 dropna=False 옵션이 기본 적용된다. 이때는 NaN이 포함된다.

 

# 예제 3-2(2)

unique_values = df['origin'].value_counts()
print(unique_values)
print('\n')
print(type(unique_values))

 

예제 3-2(2) 출력 결과


파이썬 머신러닝 판다스 데이터분석
저자 : 오승환
출판 : 정보문화사
발매 : 2019.06.05

 

BELATED ARTICLES

more