파이썬으로 데이터 분석을 할 때 판다스라는 데이터 전용 라이브러리를 많이 사용합니다. 그런데 가끔씩 엑셀 데이터를 불러올 때 오류가 나는 경우가 있습니다. 주로 파일 자제 문제보다는 인코딩 문제가 많은데 해결 방법을 정리합니다. 사용 데이터 - 농수축산물 표준품목코드 url : https://tinyurl.com/sqldjy2 해당 사이트에 들어가면 농수축산물 표준품목코드를 받을 수 있습니다. 해당 파일을 MAC에서 열면 글자가 깨지는 것을 볼 수 있습니다. recipe = pd.read_csv(RECIPE_FILE) recipe.head() 해당 파일을 판다스로 그냥 불러오면 오류가 납니다. - 오류 메세지 : 'utf-8' codec can't decode byte 0xba in position 0:..
frame 데이터 프레임을 파라미터로 받을 수 있다. def f(frame): frame['new'] = 'a' f(df) 출처 : https://stackoverflow.com/questions/51391438/pandas-dataframe-as-an-argument-to-a-function-python df[df['A'].str.contains("Hello|Britain")] 칼럼 중 원하는 내용이 포함되어 있는 내용을 조회한다. df[df['A'].str.contains("Hello|Britain")] 출처 : https://stackoverflow.com/questions/11350770/select-by-partial-string-from-a-pandas-dataframe
df.dropna() 하나라도 NA가 있는 행을 제거. 조건에 따라 다양한 방식으로 설정 가능 df1.dropna() / df1.dropna(how='all') f1.dropna(thresh=2) / df1.dropna(subset=['Gender']) 출처 : http://www.datasciencemadesimple.com/drop-rows-with-nan-na-drop-missing-value-in-pandas-python-2/ df.sort_value() 데이터를 정렬합니다. data.sort_values("Name", axis = 0, ascending = True, inplace = True, na_position ='last') 출처 : https://www.geeksforgeeks.org/..
df.plot() 데이터 프레임 값을 그래프로 출력 total_year[-15:].plot(x='year', y=['action', 'comedy'], figsize=(10,5), grid=True) 출처 : https://datascience.stackexchange.com/questions/25596/how-to-plot-two-columns-of-single-dataframe-on-y-axis df.plot()rc('font', family='AppleGothic') 한글 폰트 출력 import matplotlib.pyplot as plt from matplotlib import rc rc('font', family='AppleGothic') plt.rcParams['axes.unicode_minu..