[데이터 살펴보기/데이터프레임의 구조] 데이터 개수 확인
2022. 10. 27. 13:26
목차
1. 각 열의 데이터 개수
2. 각 열의 고유값 개수
각 열의 데이터 개수
DataFrame 객체.count()
info() 메소드는 화면에 각 열의 데이터 개수 정보를 출력하지만 반환해 주는 값이 없어 다시 사용하기 어렵다.
반면 count() 메소드는 데이터프레임의 각 열이 가지고 있는 데이터 개수를 시리즈 객체로 반환한다.
단, 유효한 값의 개수만을 계산하는 점에 유의한다.
# 예제 3-2(1)
import pandas as pd
df = pd.read_csv('auto-mpg.csv', header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']
print(df.count())
print('\n')
print(type(df.count()))
각 열의 고유값 개수
DataFrame 객체['열 이름'].value_counts()
value_counts() 메소드는 시리즈 객체의 고유값(unique value) 개수를 세는 데 사용한다.
고유값이 행 인덱스가 되고, 고유값의 개수가 데이터 값이 되는 시리즈 객체가 만들어진다.
dropna=True 옵션을 설정하면 데이터 값 중에 NaN을 제외하고 개수를 계산한다.
옵션을 따로 지정하지 않으면 dropna=False 옵션이 기본 적용된다. 이때는 NaN이 포함된다.
# 예제 3-2(2)
unique_values = df['origin'].value_counts()
print(unique_values)
print('\n')
print(type(unique_values))
![]() |
|
'공부 > 파이썬 머신러닝 판다스 데이터 분석' 카테고리의 다른 글
[데이터 살펴보기/통계 함수 적용] 중간값 (0) | 2022.10.28 |
---|---|
[데이터 살펴보기/통계 함수 적용] 평균값 (0) | 2022.10.28 |
[데이터 살펴보기/데이터프레임의 구조] 데이터 요약 정보 확인하기 (0) | 2022.10.27 |
[데이터 살펴보기/데이터프레임의 구조] 데이터 내용 미리보기 (0) | 2022.10.27 |
[데이터 살펴보기/데이터프레임의 구조] (0) | 2022.10.27 |