본문 바로가기

분류 전체보기120

문자열 데이터를 처리하기 위한 구두점 제거 + Stopwors(불용어) 사용하는 코드 문자열 데이터를 처리하기 위한 구두점 제거 + Stopwors(불용어) 사용하는 코드 구두점 제거와 불용어!! 이 두가지를 하나의 함수로 묶어서 사용하겠습니다. (용어는~ 파이프라이닝 한다) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 import string import nltk nltk.download('stopwords') from nltk.corpus import stopwords my_stopwords = stopwords.words('english') def message_cleaning(sentence) : # 1. 구두점 제거 Test_punc_removed = [char for char in sentence if char not in string... 2022. 5. 10.
NaN을 처리하는 전략 - NaN 없애는 방법, Nan을 다른 값(각 컬럼의 평균등)으로 셋팅하는 방법 Nan을 처리하는 전략 - NaN 없애는 방법, NaN을 다른 값(각 컬럼의 평균등)으로 셋팅하는 방법 NaN이란? 결측지, 결측값, 존재하지 않는(null) 값의 일종이며, 변수(variable) 등이며 값은 존재하는 것이지만, 그 시점에서 아직 정해져 있지 않은 값을 표시한다. (출처 : 네이버 사전) 데이터를 수집 분석하다 보면 초기 준비 과정에서 결측지(결측값)을 먼저 처리해야 어려움이 없는데요. Nan을 없애는 방법에 대해서 알아보도록 하겠습니다. ex. 데이터프레임이 df 라고 할때~ 1. 데이터프레임 카테고리컬 데이터에서 NaN이 있는지 확인하는 방법 df.isna().sum() 2. NaN 삭제하기 df = df.dropna() a. 행(row)을 기준으로 삭제 df = df.dropna(.. 2022. 5. 6.
판다스 데이터프레임의 replace 함수 - 이상한 값을 np.nan으로 바꾸는것 판다스 데이터프레임의 replace 함수 - 이상한 값을 np.nan으로 바꾸는것 replace() 함수를 사용하여 내가 원하는 값을 다른 값으로 대응하여 바꿀수 있습니다. df.replace() a. NaN(결측지) 값을 50으로 바꾸기 df.replace(np.nan, 50) b. NaN(결측지) 값을 2로 바꾸기 df.replace(np.nan, 2) 2022. 5. 6.
카테고리컬 데이터(Categorical Data) 확인하는 방법 카테고리컬 데이터(Categorical Data) 확인하는 방법 1. 카테고리컬 데이터(Categorical Data)란? 개수가 정해져 있고, 반복되서 묶어줄수 있는 데이터! 즉, 데이터프레임의 컬럼에서 특정한 형태의 데이터가 반복되는 것을 말합니다. 범주형 astype('category')로 변경, cut(), qcut() 함수를 이용해 데이터를 카테고리화 할수 있습니다. 머신 러닝(Machine Learning) 배우면서 자세한 부분은 다시 정리하도록 할께요. 카테고리컬 데이터를 이용하면 중복된 데이터가 묶여서 메모리가 절약되고, 처리속도도 빠릅니다. 2. 카테고리컬 데이터 확인 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2.. 2022. 5. 4.
Pandas의 pivot_table(피벗 테이블) 사용하기 Pandas의 pivot_table(피벗 테이블) 사용하기 1. pivot_table(피벗 테이블)이란? 우리는 pivot 기능을 액셀에서 많이 접했을 것입니다. 데이터 열 중에서 필요한 자료만을 뽑아 새롭게 표로 작성해 주는 기능인데요. pivot_table(피벗 테이블)은 쉽게 말해서 세로 데이터를 가로 데이터로 변경해 주는 역할을 합니다. "피봇팅 한다~" 컬럼의 값을 열로 만드는것!! pivot_table(피벗 테이블)을 사용하면 임의대로 데이터를 정렬하고 필터링할수 있습니다. 2. pivot_table(피벗 테이블) 사용법 pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, .. 2022. 5. 4.