반응형
공부내용 정리
- 6/9 마지막 발표. 마무리가 되면 springboot 사용 연습함.
- [1, 1, 1, 2, 2, 2, 100] 처럼 데이터가 고르지 않을 때(너무 크거나 작은 값이 포함될 때) 평균보다 중간값이 유효하다.
- 데이터는 많으면 좋다. 새로운 column을 추가해보자. 실제 데이터 관리자들은 뻥튀기를 하기도 한다. 결과가 좋게 나오기 때문.
- 상관계수. 타이타닉호에 탄 사람들 중 1등석에 탄 사람들의 생존률은 상관관계가 있을까? 1등석과 생존율의 관계.
- 공분산은 관계의 방향(+, -, 0)만 알 수 있고 정도는 알 수 없다. 공분산을 보완하는 개념이 상관계수다.
- NaN값은 삭제하거나 치환하는 처리가 필요하다.
코드

Age_double 칼럼을 추가했다.
column을 추가했다. drop()을 사용해서 삭제하면 원본은 그대로다. 영구 삭제하고 싶으면 어떻게 해야할까?
train_data.drop('Fare10', axis=1, inplace=True)
inplace=True를 함수 안에 넣어주면 된다. inplace=True의 뜻은 원본 데이터를 변경한다는 뜻이다.
ajax 사용할 때도 비슷한 경우가 있었다. 코드 실행이 안되서 확인해보니 비동기 상태였다. async 동기 상태로 바꿔야 했음.
#타이타닉호 생존자의 평균나이
mean1 = train_data[train_data['Survived']==1]['Age'].mean()
#타이타닉호 사망자 평균 나이
mean0 = train_data[train_data['Survived']==0]['Age'].mean()
print(mean1, mean0)
결과 : 28.343689655172415 30.62617924528302
타이타닉호 생존자 평균나이가 28세, 사망자 평균 나이가 30세다. 내 또래다.
상관계수 그래프



타이타닉호 데이터 상관계수 (Parch, Fare & Survived)

Pclass(1등석), Fare(요금)과 생존 사이 비교적 높은 상관관계를 보인다. 좋은 자리에 앉은 사람들이 살아남을 확률이 높았다는 것이다.
반응형
'코딩 학원(국비지원)' 카테고리의 다른 글
93일차 코딩학원(A.I.에 대해서) (4) | 2023.06.05 |
---|---|
92일차 코딩학원(pandas, csv 문제. 특정 열 값을 추출하고 그래프로 출력하기) (2) | 2023.06.02 |
90일차 코딩학원 (3) | 2023.05.31 |
89일차 코딩학원 (2) | 2023.05.30 |
코딩학원 88일차. 파이썬, Git (6) | 2023.05.25 |