0. 개요

오늘 통계학에 대해서 배웠는데, 이것에 대해서 조금 정리해두려고 한다. 4월달부터는 통계학을 배울 예정. 근데 자꾸 파이썬이랑 SQL 에서 빵꾸나서 거기서 메꿔야할 거 같다. 이러면 주말에도 공부해야하는데~!

몸이 안좋아서 일부러 무리 안하는 건데, 또 잘하고 싶은 욕심이 나요. 전 정말 이상한 사람입니다...


1. 기술 통계와 추론 통계

  기술 통계 추론 통계
정의 데이터를 요약하고 설명하는 통계방법 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방
특징 1. 주로 평균, 중앙값, 분산, 표준펴나 등을 사용
   ➡️ 데이터를 특정 대표값으로 요약

2. 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음

3. 단, 데이터 중 예외(이상치)는 항상 존재하며 데이터의 모든 부분을 확인할 수 있는 것은 아님.
1. 신뢰구간, 가설 검증 등을 사용

2. 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심이다
실사례 회사 매출데이터 요약을 위한 평균 매출, 매출의 표준 편차 등을 계산 설문조사를 통해 고객의 만족도를 추정

해당 기술 통계와 추론 통계에서 다시 정의하는 단어 정의들 정리하기

  기술 통계
평균 ➡️ 데이터의 중앙 값
➡️ 모든 데이터를 더한 후 데이터의 개수로 나누어 계산
➡️ 데이터의 일반적인 경향을 파악하는 데 유리
중앙값 ➡️ 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
➡️ 잇아치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나태내는 다른 방법
분산 ➡️ 데이터값들이 평균으로부터 얼마나 떨어져 있는지 (흩어짐의 정도)
➡️ 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여있음을 의미함
➡️ 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는것
표준편차 ➡️ 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도
➡️ 분산의 제곱근을 취해서 계산
➡️ 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로 넓게 퍼짐
표준편차와 분산의 관계 ➡️ 동일하게 데이터의 변동성을 측정하는 두가지 주요 척도 
➡️ 표준편차는 분산의 제곱근
➡️ 분산은 데이터값과 평균의 차이를 제곱해 평균을 낸 값으로 제곱단위로 표현
➡️ 표준편차는 다시 제곱근을 취해 원래 데이터 값과 동일한 단위로 변환
  추론 통계
신뢰구간
(Confidnece Interval)
➡️ 모집단의 평균이 특정 범위 내에 있을 것이라는 확률
➡️ 일반적으로 95%의 신뢰구간이 사용, 모집단의 평균이 95% 확률로 이 구간 내에 있음을 의미함
가설검증
(Hyphothesis Testing)
➡️ 모집단에 대한 가설을 검증하기 위해 사용
➡️ 일반적으로 두 가지 가설이 있음
      ➡️ 귀무가설 : 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설
      ➡️ 대립가설 : 그 반대 가설로 주장하는 바를 나타내는 가설
      ➡️p-value 를 통해 귀무가설을 각할지 여부를 결정

2. 파이썬으로 다양하게 사용하는 방법

# 데이터 분석에서 자주 사용되는 라이브러리
import pandas as pd
# 다양한 계산을 빠르게 수행하게 돕는 라이브러리
import numpy as np
# 시각화 라이브러리
import matplotlib.pyplot as plt
# 시각화 라이브러리2
import seaborn as sns

파이썬 표준편차, 분산, 범위 등 사용하는 방법

## 평균
mean = np.mean(data)
## 중앙값
median = np.median(data)
## 분산
variance = np.var(data)
## 표준 편차
std_dev = np.std(data)
## 범위
data_range = np.max(data) - np.min(data)

3. 여기서 복습하는 히스토그램과 메플러리 (표그리기 등)

## 히스토그램
plt.hist(data, bins = 5) ➡️히스토그램 쓰는 방법 | bins = 히스토그램의 가로축 구간의 개수
plt.title('histogram')
plt.show()

##박스플롯 만들기
plt.boxplot(data)
plt.title('boxplot')
plt.show()

##최빈값 만들기
1. 판다스로 갯수게기
satisfaction = ['satisfaction', 'satisfaction', 'dissatisfaction', 
'satisfaction', 'dissatisfaction', 'satisfaction', 'satisfaction', 
'dissatisfaction', 'satisfaction', 'dissatisfaction']
satisfaction_counts = pd.Series(satisfaction).value_counts() ➡️ 판다스로 갯수세기

satisfaction_counts.plot(kind='bar') ➡️ 막대 그래프로 만들기
plt.title('satisfaction distribution')
plt.show()

4. 상관 관계

상관계수는 두 변수 간의 관계를 측정하는 방법을 말한다. 상관계수 그래프는 스캐터로 함수로 만든다.

상관 계수
-1 ~ 1 ➡️ 강력한 상관관계
-0.5 ~ 0.5 ➡️ 중간 정도의 상관 관계
0.4 까지 ➡️ 약한 정도 상관관계
0 ➡️ 상관관계 없음

study_hours = [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]
exam_scores = [95, 90, 85, 80, 75, 70, 65, 60, 55, 50]
correlation = np.corrcoef(study_hours, exam_scores)[0, 1] ➡️ 주어진 데이터의 피어슨 상관 계수를 계산

print(f"공부 시간과 시험 점수 간의 상관계수: {correlation}")

plt.scatter(study_hours, exam_scores)
plt.show()

TIP) 인과관계와 상관관계는 다르다.
  ➡️ 상관관계는 두 변수간의 관계를 나타내기함
  ➡️ 안과관계는 한 변수가 다른 변수에 미치는 영향을 나타냄


일단은 오늘 통계학과 관련된 걸 배우기 시작했는데, 전에 사회조사분석사를 배웠을 때 매운 내용이 있었다. 그래서 이를 복습한다는 생각으로 임해야겠다.

myo