본문 바로가기

코딩 학원(국비지원)

91일차 코딩학원

반응형

공부내용 정리

  1. 6/9 마지막 발표. 마무리가 되면 springboot 사용 연습함. 
  2. [1, 1, 1, 2, 2, 2, 100] 처럼 데이터가 고르지 않을 때(너무 크거나 작은 값이 포함될 때) 평균보다 중간값이 유효하다. 
  3. 데이터는 많으면 좋다. 새로운 column을 추가해보자. 실제 데이터 관리자들은 뻥튀기를 하기도 한다. 결과가 좋게 나오기 때문. 
  4. 상관계수. 타이타닉호에 탄 사람들 중 1등석에 탄 사람들의 생존률은 상관관계가 있을까? 1등석과 생존율의 관계. 
  5. 공분산은 관계의 방향(+, -, 0)만 알 수 있고 정도는 알 수 없다. 공분산을 보완하는 개념이 상관계수다. 
  6. NaN값은 삭제하거나 치환하는 처리가 필요하다. 

 

코드

데이터가 많아야 학습이 잘 된다.

Age_double 칼럼을 추가했다. 

 

column을 추가했다. drop()을 사용해서 삭제하면 원본은 그대로다. 영구 삭제하고 싶으면 어떻게 해야할까? 

train_data.drop('Fare10', axis=1, inplace=True)

inplace=True를 함수 안에 넣어주면 된다. inplace=True의 뜻은 원본 데이터를 변경한다는 뜻이다. 

 

ajax 사용할 때도 비슷한 경우가 있었다. 코드 실행이 안되서 확인해보니 비동기 상태였다. async 동기 상태로 바꿔야 했음. 

 

#타이타닉호 생존자의 평균나이
mean1 = train_data[train_data['Survived']==1]['Age'].mean()

#타이타닉호 사망자 평균 나이
mean0 = train_data[train_data['Survived']==0]['Age'].mean()

print(mean1, mean0)

결과 : 28.343689655172415 30.62617924528302

타이타닉호 생존자 평균나이가 28세, 사망자 평균 나이가 30세다. 내 또래다.  

 


상관계수 그래프

상관계수가 1인 경우
상관계수 -1
상관계수 0에 가까움. 랜덤 데이터로 했을 때 0.2의 상관계수가 나옴. 약한 양의 선형관계

타이타닉호 데이터 상관계수 (Parch, Fare & Survived)

Pclass(1등석), Fare(요금)과 생존 사이 비교적 높은 상관관계를 보인다. 좋은 자리에 앉은 사람들이 살아남을 확률이 높았다는 것이다. 

반응형