
카테고리컬 데이터(Categorical Data) 확인하는 방법

1. 카테고리컬 데이터(Categorical Data)란?
개수가 정해져 있고,
반복되서 묶어줄수 있는 데이터!
즉, 데이터프레임의 컬럼에서
특정한 형태의 데이터가 반복되는
것을 말합니다.
범주형 astype('category')로 변경,
cut(), qcut() 함수를 이용해
데이터를 카테고리화 할수 있습니다.
머신 러닝(Machine Learning)
배우면서 자세한 부분은
다시 정리하도록 할께요.
카테고리컬 데이터를 이용하면
중복된 데이터가 묶여서
메모리가 절약되고,
처리속도도 빠릅니다.
2. 카테고리컬 데이터 확인

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
|
# ------------------------------------------------------------------------------ #
# 이름의 카테고리컬 갯수가 몇개인지 확인
df['Name'].nunique()
>> [결과]
3
# 이름의 카테고리컬 데이터에 어떤것이 있는지 확인
df['Name'].unique()
>> [결과]
array(['Alice', 'Bob', 'Charlie'], dtype=object)
# 부서의 카테고리컬 갯수가 몇개인지 확인
df['Department'].nunique()
>> [결과]
3
# 부서의 카테고리컬 데이터에 어떤것이 있는지 확인
df['Department'].unique()
>> [결과]
array(['HR', 'RD', 'Admin'], dtype=object)
# ------------------------------------------------------------------------------ #
|
cs |
nunique() 함수를 이용하여
카테고리컬 갯수가 몇개인지 확인합니다.
df['Name'].nunique()
>> 3
unique() 함수를 이용해
데이터에 고유값들을 확인합니다.
df['Name'].unique()
>> array(['Alice', 'Bob', 'Charlie'], dtype=object)
3. 유일한 값, 유일한 값의 개수, 전체 값의 개수
unique(), numique(), value_counts() 함수
unique() 함수 |
unique()는 컬럼 데이터에 고유값들이
어떤 종류가 있는지 확인하고 싶을때
사용하는 함수입니다.
nunique() 함수 |
nunique()는 컬럼별 고유값들의
수치를 확인할수 있습니다.
value_counts() |
value_counts()는 종류별 데이터
갯수를 출력해 줍니다.
즉, 전체 값의 갯수를 알려줍니다.
기본은 내림차순으로 되어있고,
파라미터 ascending에 True 값을 주면
오름차순으로 정렬합니다.
ascending=True |
'A.I > Machine Learning' 카테고리의 다른 글
데이터프레임의 날짜문자열 칼럼을 datetime64로 변경하는법 (0) | 2022.05.11 |
---|---|
판다스(Pandas) read_csv 함수의 error_bad_lines=False 파라미터 사용법 (0) | 2022.05.11 |
Prophet(프로펫) 라이브러리 사용법 (0) | 2022.05.11 |
wordCloud에서 배경 모양을 바꾸는 방법 (0) | 2022.05.10 |
문자열 데이터를 처리하기 위한 구두점 제거 + Stopwors(불용어) 사용하는 코드 (0) | 2022.05.10 |
댓글