본문 바로가기

코딩 학원(국비지원)

90일차 코딩학원

반응형

2023. 5. 31 공부내용 정리

1. 파이썬 Series 데이터 변경 연습 중. 

2.  DataFrame 데이터 보기. kaggle을 사용해서 데이터를 받아오자. 

 

3. 타이타닉에 탑승했던 고객 명단 엑셀파일을 다운로드하고 코드를 실행한다. 

# data : https://www.kaggle.com/datasets/hesh97/titanicdataset-traincsv?resource=download&select=train.csv 
train_data = pd.read_csv('./sample_data/train.csv')       # 런타임 이후에는 삭제됨

 

4. shape(), discribe(), info() 함수로 데이터 조작 가능. 

 

5. 파이썬으로 Series, DataFrame 등을 사용하는 이유는 데이터를 조작 관리하기 위해서다. 대량의 정보를 어떻게 통제할 것인가? 이거 잘하면 기술이 된다. 

 

6. 엑셀 파일 뒤에 CSV의 뜻 : CSV(영어: comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv이며 MIME 형식은 text/csv이다. comma-separated variables라고도 한다. 

오래전부터 스프레드시트나 데이터베이스 소프트웨어에서 많이 쓰였으나 세부적인 구현은 소프트웨어에 따라 다르다. 

Visual Code에서 타이타닉 탑승객 명단을 열었다. 각 필드가 쉼표로 구분된 것을 볼 수 있다.

 

7. DataFrame을 사용해서 원하는 데이터를 선택할 수 있다. 이거 참 편리하고 유용하다. 몇 번 인덱스가 궁금하다면 명령어 하나로 모든 데이터를 뽑아낼 수 있다. 데이터 대장이 된 기분이다. 

 

8. 사이킷런(scikit-learn)에서 1978년 보스턴 집 가격 데이터를 가져왔다. 

 

9. Series는 1차원이고, DataFrame은 2차원이다. 인덱싱을 하면 차원이 줄어드는 것을 확인할 수 있다. 

 

10. DataFrame을 사용해서 경제지표를 볼 수 있다. 자료 다운 받고 오늘 한 내용을 복습해 보자. 

 

반응형