IT/Pandas : 데이터(7)
-
[pandas] 인코딩, 확인, 조회, 불러오기
파이썬으로 데이터 분석을 할 때 판다스라는 데이터 전용 라이브러리를 많이 사용합니다. 그런데 가끔씩 엑셀 데이터를 불러올 때 오류가 나는 경우가 있습니다. 주로 파일 자제 문제보다는 인코딩 문제가 많은데 해결 방법을 정리합니다. 사용 데이터 - 농수축산물 표준품목코드 url : https://tinyurl.com/sqldjy2 해당 사이트에 들어가면 농수축산물 표준품목코드를 받을 수 있습니다. 해당 파일을 MAC에서 열면 글자가 깨지는 것을 볼 수 있습니다. recipe = pd.read_csv(RECIPE_FILE) recipe.head() 해당 파일을 판다스로 그냥 불러오면 오류가 납니다. - 오류 메세지 : 'utf-8' codec can't decode byte 0xba in position 0:..
2020.02.27 -
[Pandas] DataFrame
frame 데이터 프레임을 파라미터로 받을 수 있다. def f(frame): frame['new'] = 'a' f(df) 출처 : https://stackoverflow.com/questions/51391438/pandas-dataframe-as-an-argument-to-a-function-python df[df['A'].str.contains("Hello|Britain")] 칼럼 중 원하는 내용이 포함되어 있는 내용을 조회한다. df[df['A'].str.contains("Hello|Britain")] 출처 : https://stackoverflow.com/questions/11350770/select-by-partial-string-from-a-pandas-dataframe
2019.09.16 -
[Pandas] 전처리
df.dropna() 하나라도 NA가 있는 행을 제거. 조건에 따라 다양한 방식으로 설정 가능 df1.dropna() / df1.dropna(how='all') f1.dropna(thresh=2) / df1.dropna(subset=['Gender']) 출처 : http://www.datasciencemadesimple.com/drop-rows-with-nan-na-drop-missing-value-in-pandas-python-2/ df.sort_value() 데이터를 정렬합니다. data.sort_values("Name", axis = 0, ascending = True, inplace = True, na_position ='last') 출처 : https://www.geeksforgeeks.org/..
2019.09.16 -
[Pandas] plot 그래프
df.plot() 데이터 프레임 값을 그래프로 출력 total_year[-15:].plot(x='year', y=['action', 'comedy'], figsize=(10,5), grid=True) 출처 : https://datascience.stackexchange.com/questions/25596/how-to-plot-two-columns-of-single-dataframe-on-y-axis df.plot()rc('font', family='AppleGothic') 한글 폰트 출력 import matplotlib.pyplot as plt from matplotlib import rc rc('font', family='AppleGothic') plt.rcParams['axes.unicode_minu..
2019.09.16 -
[Pandas] merge 병합
pd.merge(dfA[['col1','col2']], dfB[['col1','col2']], on='key') 2개의 데이터프레임에서 원하는 칼럼만 추출하여 결합 df = pd.merge(df,df2[['Key_Column','Target_Column']],on='Key_Column', how='left') 출처 : https://stackoverflow.com/questions/17978133/python-pandas-merge-only-certain-columns pd.merge(how='left') 결합하는 방법의 종류. 총 4가지 방법이 있음 result = pd.merge(user_usage, user_device[['use_id', 'platform', 'device']], on='use_i..
2019.09.16 -
[Pandas] 데이터 형태
dtypes 데이터프레임에 각 칼럼들의 데이터 형태를 조회 df.dtypes 출처 : https://pbpython.com/pandas_dtypes.html pd.to_datetime 문자열 정보를 날짜 형태로 변경 raw_data['Mycol'] = pd.to_datetime(raw_data['Mycol'], format='%d%b%Y:%H:%M:%S.%f') 또는 df[["col1", "col2", "col3"]] = df[["col1", "col2", "col3"]].apply(pd.to_datetime) 출처 : https://stackoverflow.com/questions/26763344/convert-pandas-column-to-datetime rename(columns={'A':'B'})..
2019.09.16