0.개요

오늘 데이터 시각화와 전처리 강의를 모두 수강했다. 그렇지만 숙제부분이 있어서 좀 문제를 풀어볼 필요가 있다고 생각해서 이 부분을 내일 보강 하려고 한다.

걱정되는 부분은 내일부터 미니 프로젝트 발제인데 이걸 어떻게 쫓아갈 수 있을지 좀 고민이다.


1. 파이썬의 그래프

파이썬에서는 다음과 같은 자료를 그릴 수 있다. 주로 Matplotlib.pyplot 라는 함수에서 사용할 수 있다.

import matplotlib.pyplot as plt

그리고 해당 라이브러리에서는 plot() 함수를 사용한다. 원래 plot()은 pandas에서 지원하는 데이터 프레임 객체에서 데이터를 시각화하는 데 사용된다. 다음과 같은 함수를 import 하면 그래프를 그리는 데에 사용할 수 있다. 기본적인 식을 쓰는 방법을 쓸 수 있다..

import matplotlib.pyplot as plt

##1. 데이터 생성
x = [1,2,3,4,5]
y = [2,4,6,8,10]

##선그래프 그리기
plt.plot(x,y) -------------------> X축과 Y축을 정한다. (x축에 놓을 리스트,y축에 놓을 리스트)
plt.xlabel('X-axis')-------------> X축의 축 이름
plt.ylabel('Y-axis')-------------> Y축의 축 이름
plt.title('Example Plot')--------> 그래프의 제목
plt.show()-----------------------> 그래프를 볼 수 있는 명령

이외에도 표에는 스타일을 설정할 수 있다.

##예시 샘플
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1]
}
df = pd.DataFrame(data)

df.plot(x='A',y='B')

##스타일 설정 방법
ax = df.plot(x='A',y='B', color-'green', linestyle='--',marker='o')
                         ---> color : 무슨 색깔로 정할 것인지
                         ---> linestyle : 선을 무슨 모양으로 할지
                         ---> marker : 지표를 무슨 색으로 할지
Color(색상) Linestyle(선 스타일) Marker(마커)
문자열로 지정 가능

(blue, green, cyan, magenta, yellow,
black, white)

이외에도 다른 RGB 값의 지정 가능
' - ' : 실선
'---' : 대시선
' : ' : 점선
'-.' : 점-대시선
이외에도 다른 컬러 지정 가능
'o' : 원
'^' : 삼각형
's' : 사각형
'+' : 플러스
'x' : 엑스
이외에도 다른 기호 지정 가

 

이외에도 따로 범례를 지정하거나, 텍스트, 폰트 사이즈,도 지정가능하다.

##범례 추가하기
1. 쓰면서 같이 추가하기
ax = df.plot(x='A', y='B', color='green', linestyle='--', marker='o', label='Data Series')

2. legend 를 사용해서 추가하기
ax.legend(['Data Series'])

##텍스트 추가하기
ax.text(3,3,'원하는 텍스트', fontsize=20, style='italic')

표 사이즈의 크기는 ptt.figure() 를 사용해서 매개변수를 사용하면 된다! 그러면 원하는 크기가 가능해진다.

##figure 객체 생성 및 사이즈 설정
plt.figure(figsize=(8,6))
(x,y) ---> x는 가로 인치, y는 세로 인치

2. 파이썬으로 그래프 그리기

그래프 유형 자료 유형 특징 사용 방버
Line Plot
(선 그래프)
연속형 데이터 데이터의 변화 및 추이를 시각화 plt.plot(df[x],df[y])
Bar Plot
(막대 그래프)
범주형 데이터 카테고리 별 값의 크기를 시각적으로 비교 plt.bar(df[x],df[y])
Histogram 연속형 데이터 데이터 분포도,빈도,패턴 등을 이해 plt.hist(data,bins= 값)
Pie Chart
(원 그래프)
범주형 데이터의 비율 범주별 상대적 비율을 부채꼴 모양으로 시각화 plt.pie
(수치데이터 지정,
카테고리 표시, 데이터
라벨(숫자) 표시방식)
Box Plot 연속형 데이터의 분포 중앙값, 사분위수, 최소값, 최대값, 이상치 확인 plt.boxplot(data)
Scatter Plot
(산점도)
두 변수 간의 관계 변수 간의 관계, 군집, 이상치 등 확인 plt.scatter(x,y)

TIP) Bar Plot 과 Histogram 의 차이

구분 막대 그래프 히스토그램
데이터 유형 범주형 데이터 비교 연속적 데이터 분포
막대 형태 수직 or 수평 막대(크기) 막대가 붙어있는 형태(빈도)
시각화 유형 해당 범주의 크기를 나타냄 X축은 데이터 값의 범위.
Y축은 해당 범위에서의 빈도
예시 팀별 판매량, 국가별 GDP 등을 비교 시험 점수 분포, 온도 변화 등
연속적인 데이터의 분포

**** 참조 박스 플롯 차트

박스 플롯의 구성 요소

1) 상자 : 데이터의 중앙 값과 사분위수(25%, 75%)를 나타낸다. 상자 아래쪽은 하위 25%, 상자 위쪽끝은 상위 25%를 표시
상자 중앙에 있는 선은 '중앙값'이다.

2) 수염 : 상자 위 아래로 연장되는 선, 일반적으로 1.5배의 사분위 범위로 계산. 이를 넘어가면 '이상치(outlier)'라고 한다. 수염의 끝과 시작은 최솟값과 최대값을 나타낸다.

3) 이상치 : 수염부분을 벗어나는 값들을 말한다. 이는 내일 정리할 결측치 랑 이상값에 대해서 정리하면서 다시 한번 공부해보려고 한다.


파이썬은.. 아직 하다가도 모르겠다. 정말로. 하지만 그래도 조금씩 할 수 있는 게 생겨나서 기쁘긴 하다.
그래도 아직은 파일을 보면서 해야하고 버벅대긴 해도... 그래도 안 하는 것보다는 나으니까! 힘내서 남은 100일 중 나머지 시간도 잘 마무리 해야겠다.

일단은 ADsP랑 SQLD 나중에 복습이 어느정도 되면 틈틈히 보면서 시험 준비 회계랑 같이 해야겠다...!

 

myo