[𝟐𝟓.𝟎𝟑.𝟑𝟏] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟑
2025. 3. 31. 22:23

0. 개요
오늘 통계학에 대해서 배웠는데, 이것에 대해서 조금 정리해두려고 한다. 4월달부터는 통계학을 배울 예정. 근데 자꾸 파이썬이랑 SQL 에서 빵꾸나서 거기서 메꿔야할 거 같다. 이러면 주말에도 공부해야하는데~!
몸이 안좋아서 일부러 무리 안하는 건데, 또 잘하고 싶은 욕심이 나요. 전 정말 이상한 사람입니다...
1. 기술 통계와 추론 통계
기술 통계 | 추론 통계 | |
정의 | 데이터를 요약하고 설명하는 통계방법 | 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방 |
특징 | 1. 주로 평균, 중앙값, 분산, 표준펴나 등을 사용 ➡️ 데이터를 특정 대표값으로 요약 2. 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음 3. 단, 데이터 중 예외(이상치)는 항상 존재하며 데이터의 모든 부분을 확인할 수 있는 것은 아님. |
1. 신뢰구간, 가설 검증 등을 사용 2. 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심이다 |
실사례 | 회사 매출데이터 요약을 위한 평균 매출, 매출의 표준 편차 등을 계산 | 설문조사를 통해 고객의 만족도를 추정 |
해당 기술 통계와 추론 통계에서 다시 정의하는 단어 정의들 정리하기
기술 통계 | |
평균 | ➡️ 데이터의 중앙 값 ➡️ 모든 데이터를 더한 후 데이터의 개수로 나누어 계산 ➡️ 데이터의 일반적인 경향을 파악하는 데 유리 |
중앙값 | ➡️ 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값 ➡️ 잇아치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나태내는 다른 방법 |
분산 | ➡️ 데이터값들이 평균으로부터 얼마나 떨어져 있는지 (흩어짐의 정도) ➡️ 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여있음을 의미함 ➡️ 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는것 |
표준편차 | ➡️ 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도 ➡️ 분산의 제곱근을 취해서 계산 ➡️ 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로 넓게 퍼짐 |
표준편차와 분산의 관계 | ➡️ 동일하게 데이터의 변동성을 측정하는 두가지 주요 척도 ➡️ 표준편차는 분산의 제곱근 ➡️ 분산은 데이터값과 평균의 차이를 제곱해 평균을 낸 값으로 제곱단위로 표현 ➡️ 표준편차는 다시 제곱근을 취해 원래 데이터 값과 동일한 단위로 변환 |
추론 통계 | |
신뢰구간 (Confidnece Interval) |
➡️ 모집단의 평균이 특정 범위 내에 있을 것이라는 확률 ➡️ 일반적으로 95%의 신뢰구간이 사용, 모집단의 평균이 95% 확률로 이 구간 내에 있음을 의미함 |
가설검증 (Hyphothesis Testing) |
➡️ 모집단에 대한 가설을 검증하기 위해 사용 ➡️ 일반적으로 두 가지 가설이 있음 ➡️ 귀무가설 : 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설 ➡️ 대립가설 : 그 반대 가설로 주장하는 바를 나타내는 가설 ➡️p-value 를 통해 귀무가설을 각할지 여부를 결정 |
2. 파이썬으로 다양하게 사용하는 방법
# 데이터 분석에서 자주 사용되는 라이브러리
import pandas as pd
# 다양한 계산을 빠르게 수행하게 돕는 라이브러리
import numpy as np
# 시각화 라이브러리
import matplotlib.pyplot as plt
# 시각화 라이브러리2
import seaborn as sns
파이썬 표준편차, 분산, 범위 등 사용하는 방법
## 평균
mean = np.mean(data)
## 중앙값
median = np.median(data)
## 분산
variance = np.var(data)
## 표준 편차
std_dev = np.std(data)
## 범위
data_range = np.max(data) - np.min(data)
3. 여기서 복습하는 히스토그램과 메플러리 (표그리기 등)
## 히스토그램
plt.hist(data, bins = 5) ➡️히스토그램 쓰는 방법 | bins = 히스토그램의 가로축 구간의 개수
plt.title('histogram')
plt.show()
##박스플롯 만들기
plt.boxplot(data)
plt.title('boxplot')
plt.show()
##최빈값 만들기
1. 판다스로 갯수게기
satisfaction = ['satisfaction', 'satisfaction', 'dissatisfaction',
'satisfaction', 'dissatisfaction', 'satisfaction', 'satisfaction',
'dissatisfaction', 'satisfaction', 'dissatisfaction']
satisfaction_counts = pd.Series(satisfaction).value_counts() ➡️ 판다스로 갯수세기
satisfaction_counts.plot(kind='bar') ➡️ 막대 그래프로 만들기
plt.title('satisfaction distribution')
plt.show()
4. 상관 관계
상관계수는 두 변수 간의 관계를 측정하는 방법을 말한다. 상관계수 그래프는 스캐터로 함수로 만든다.
상관 계수
-1 ~ 1 ➡️ 강력한 상관관계
-0.5 ~ 0.5 ➡️ 중간 정도의 상관 관계
0.4 까지 ➡️ 약한 정도 상관관계
0 ➡️ 상관관계 없음
study_hours = [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]
exam_scores = [95, 90, 85, 80, 75, 70, 65, 60, 55, 50]
correlation = np.corrcoef(study_hours, exam_scores)[0, 1] ➡️ 주어진 데이터의 피어슨 상관 계수를 계산
print(f"공부 시간과 시험 점수 간의 상관계수: {correlation}")
plt.scatter(study_hours, exam_scores)
plt.show()
TIP) 인과관계와 상관관계는 다르다.
➡️ 상관관계는 두 변수간의 관계를 나타내기함
➡️ 안과관계는 한 변수가 다른 변수에 미치는 영향을 나타냄
일단은 오늘 통계학과 관련된 걸 배우기 시작했는데, 전에 사회조사분석사를 배웠을 때 매운 내용이 있었다. 그래서 이를 복습한다는 생각으로 임해야겠다.
'𝐓𝐈𝐋 (𝐅𝐨𝐫 𝐂𝐚𝐦𝐩) > 𝐂𝐎𝐃𝐈𝐍𝐆 (𝐒𝐐𝐋, 𝐏𝐘𝐓𝐇𝐎𝐍)' 카테고리의 다른 글
[𝟐𝟓.𝟎𝟒.𝟎𝟐] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟓 (0) | 2025.04.02 |
---|---|
[𝟐𝟓.𝟎𝟒.𝟎𝟏] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟒 (0) | 2025.04.01 |
[𝟐𝟓.𝟎𝟑.𝟑𝟎] 𝐖𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟐 (0) | 2025.03.31 |
[𝟐𝟓.𝟎𝟑.𝟏𝟗] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟏 (0) | 2025.03.19 |
[𝟐𝟓.𝟎𝟑.𝟏𝟖] 𝐓𝐈𝐋 𝐍𝐎𝐓𝐄 𝟐𝟎 (0) | 2025.03.18 |