✅처음에는 평균, 최소, 최고, 중간 값 선그래프를 모두 표시했다. x축은 지역구로 범위를 지정할 필요가 없으므로 y축에 대해서만 0에서 70000까지의 범위를 지정해주었는데 최고값과 나머지 값들의 편차가 심해 아래와 같이 그래프의 가독성이 좋지 않았다.
✅그래서 최고값에 대해서는 일단 주석 처리 해두고 y축 범위와 간격도 더 작게 수정했다.
plt.figure(figsize=(15,7))
# 선그래프 그리기
plt.plot(df_hansik_mean, 'g.-', label='평균')
plt.plot(df_hansik_min, 'b.-', label='최소')
#plt.plot(df_hansik_max, 'r.-', label='최고')
plt.plot(df_hansik_median, 'y.-', label='중간')
# 범례, 타이틀, 그리드 표시
plt.legend(loc=(0,1.01), ncol=3, fontsize=12, edgecolor='k')
plt.title('지역구별 한식 상품가격 비교', size=20, pad=30)
plt.grid(ls=':')
# y축 범위 지정
plt.yticks(range(0, 15000,1000))
# 서울 평균 표시
plt.axhline(df_hansik_total_mean, color='gray', ls='--')
plt.text('중구', 8000, '서울 평균('+str(round(df_hansik_total_mean,1))+')'
, ha='center', fontsize=15)
plt.show()
✅ 관악구, 서대문구, 성북구의 경우 최소값이 낮은 지역들인데 아마 해당 지역에 대학가가 형성되어 있어서 그 영향이 있지 않을까 추측되었다. ✅ 앞서 언급했듯이 최고값과 나머지 값들의 편차가 심해 어디까지 이상치로 정의하고 제외시켜야 할지 애매했다. ✅얼마 전 뉴스에서는 서울 직장인 평균 점심값이 12,000원을 돌파했다고 했는데 그 수치보다는 낮은 평균 가격이어서 가격안정 모범업소 외에 좀 더 범위를 확장해볼 필요가 있을 것 같다.
이번주는 R과 데이터 드리븐 디자인 씽킹 등 여러 과정을 진행하느라, 그리고 멘탈을 부여잡느라 제법 힘든 주였다. 일련의 과정을 거치면서 나는 긍정적인 피드백이 있어야 가장 크게 동기부여 된다는 것을 알게 되었다. 그래서 회고를 할 때 보완할 점 외에 스스로 잘한 점에 대해서도 꼭 짚고 넘어가라고 하는거구나. 앞으로는 TIL에도 반영해보아야겠다.
댓글