0.개요
오늘 데이터 시각화와 전처리 강의를 모두 수강했다. 그렇지만 숙제부분이 있어서 좀 문제를 풀어볼 필요가 있다고 생각해서 이 부분을 내일 보강 하려고 한다.
걱정되는 부분은 내일부터 미니 프로젝트 발제인데 이걸 어떻게 쫓아갈 수 있을지 좀 고민이다.
1. 파이썬의 그래프
파이썬에서는 다음과 같은 자료를 그릴 수 있다. 주로 Matplotlib.pyplot 라는 함수에서 사용할 수 있다.
import matplotlib.pyplot as plt
그리고 해당 라이브러리에서는 plot() 함수를 사용한다. 원래 plot()은 pandas에서 지원하는 데이터 프레임 객체에서 데이터를 시각화하는 데 사용된다. 다음과 같은 함수를 import 하면 그래프를 그리는 데에 사용할 수 있다. 기본적인 식을 쓰는 방법을 쓸 수 있다..
import matplotlib.pyplot as plt
##1. 데이터 생성
x = [1,2,3,4,5]
y = [2,4,6,8,10]
##선그래프 그리기
plt.plot(x,y) -------------------> X축과 Y축을 정한다. (x축에 놓을 리스트,y축에 놓을 리스트)
plt.xlabel('X-axis')-------------> X축의 축 이름
plt.ylabel('Y-axis')-------------> Y축의 축 이름
plt.title('Example Plot')--------> 그래프의 제목
plt.show()-----------------------> 그래프를 볼 수 있는 명령
이외에도 표에는 스타일을 설정할 수 있다.
##예시 샘플
data = {
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1]
}
df = pd.DataFrame(data)
df.plot(x='A',y='B')
##스타일 설정 방법
ax = df.plot(x='A',y='B', color-'green', linestyle='--',marker='o')
---> color : 무슨 색깔로 정할 것인지
---> linestyle : 선을 무슨 모양으로 할지
---> marker : 지표를 무슨 색으로 할지
Color(색상) | Linestyle(선 스타일) | Marker(마커) |
문자열로 지정 가능 (blue, green, cyan, magenta, yellow, black, white) 이외에도 다른 RGB 값의 지정 가능 |
' - ' : 실선 '---' : 대시선 ' : ' : 점선 '-.' : 점-대시선 이외에도 다른 컬러 지정 가능 |
'o' : 원 '^' : 삼각형 's' : 사각형 '+' : 플러스 'x' : 엑스 이외에도 다른 기호 지정 가 |
이외에도 따로 범례를 지정하거나, 텍스트, 폰트 사이즈,도 지정가능하다.
##범례 추가하기
1. 쓰면서 같이 추가하기
ax = df.plot(x='A', y='B', color='green', linestyle='--', marker='o', label='Data Series')
2. legend 를 사용해서 추가하기
ax.legend(['Data Series'])
##텍스트 추가하기
ax.text(3,3,'원하는 텍스트', fontsize=20, style='italic')
표 사이즈의 크기는 ptt.figure() 를 사용해서 매개변수를 사용하면 된다! 그러면 원하는 크기가 가능해진다.
##figure 객체 생성 및 사이즈 설정
plt.figure(figsize=(8,6))
(x,y) ---> x는 가로 인치, y는 세로 인치
2. 파이썬으로 그래프 그리기
그래프 유형 | 자료 유형 | 특징 | 사용 방버 |
Line Plot (선 그래프) |
연속형 데이터 | 데이터의 변화 및 추이를 시각화 | plt.plot(df[x],df[y]) |
Bar Plot (막대 그래프) |
범주형 데이터 | 카테고리 별 값의 크기를 시각적으로 비교 | plt.bar(df[x],df[y]) |
Histogram | 연속형 데이터 | 데이터 분포도,빈도,패턴 등을 이해 | plt.hist(data,bins= 값) |
Pie Chart (원 그래프) |
범주형 데이터의 비율 | 범주별 상대적 비율을 부채꼴 모양으로 시각화 | plt.pie (수치데이터 지정, 카테고리 표시, 데이터 라벨(숫자) 표시방식) |
Box Plot | 연속형 데이터의 분포 | 중앙값, 사분위수, 최소값, 최대값, 이상치 확인 | plt.boxplot(data) |
Scatter Plot (산점도) |
두 변수 간의 관계 | 변수 간의 관계, 군집, 이상치 등 확인 | plt.scatter(x,y) |
TIP) Bar Plot 과 Histogram 의 차이
구분 | 막대 그래프 | 히스토그램 |
데이터 유형 | 범주형 데이터 비교 | 연속적 데이터 분포 |
막대 형태 | 수직 or 수평 막대(크기) | 막대가 붙어있는 형태(빈도) |
시각화 유형 | 해당 범주의 크기를 나타냄 | X축은 데이터 값의 범위. Y축은 해당 범위에서의 빈도 |
예시 | 팀별 판매량, 국가별 GDP 등을 비교 | 시험 점수 분포, 온도 변화 등 연속적인 데이터의 분포 |
**** 참조 박스 플롯 차트
박스 플롯의 구성 요소
1) 상자 : 데이터의 중앙 값과 사분위수(25%, 75%)를 나타낸다. 상자 아래쪽은 하위 25%, 상자 위쪽끝은 상위 25%를 표시
상자 중앙에 있는 선은 '중앙값'이다.
2) 수염 : 상자 위 아래로 연장되는 선, 일반적으로 1.5배의 사분위 범위로 계산. 이를 넘어가면 '이상치(outlier)'라고 한다. 수염의 끝과 시작은 최솟값과 최대값을 나타낸다.
3) 이상치 : 수염부분을 벗어나는 값들을 말한다. 이는 내일 정리할 결측치 랑 이상값에 대해서 정리하면서 다시 한번 공부해보려고 한다.
파이썬은.. 아직 하다가도 모르겠다. 정말로. 하지만 그래도 조금씩 할 수 있는 게 생겨나서 기쁘긴 하다.
그래도 아직은 파일을 보면서 해야하고 버벅대긴 해도... 그래도 안 하는 것보다는 나으니까! 힘내서 남은 100일 중 나머지 시간도 잘 마무리 해야겠다.
일단은 ADsP랑 SQLD 나중에 복습이 어느정도 되면 틈틈히 보면서 시험 준비 회계랑 같이 해야겠다...!
'𝐓𝐈𝐋 (𝐅𝐨𝐫 𝐂𝐚𝐦𝐩) > 𝐂𝐎𝐃𝐈𝐍𝐆 (𝐒𝐐𝐋, 𝐏𝐘𝐓𝐇𝐎𝐍)' 카테고리의 다른 글
[𝟐𝟓.𝟎𝟑.𝟑𝟏] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟑 (1) | 2025.03.31 |
---|---|
[𝟐𝟓.𝟎𝟑.𝟑𝟎] 𝐖𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟐 (0) | 2025.03.31 |
[𝟐𝟓.𝟎𝟑.𝟏𝟖] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟎 (0) | 2025.03.18 |
[𝟐𝟓.𝟎𝟑.𝟏𝟒] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟏𝟗 (0) | 2025.03.17 |
[𝟐𝟓.𝟎𝟑.𝟏𝟒] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟏𝟖 (0) | 2025.03.14 |