DataFrame 다루기DataFrame 인덱싱방송사 시청률 받아오기 I Show pandas에서 index의 type 확인하기 2019년 5월 26일 2,270 조회 답변 1 Eunjung
LV 25 Eunjung LV 25 질문 지켜보기를 시작하면 질문에 답변, 댓글이 달릴 때 알림을 받을 수 있어요. 댓글 1개 1 2019년 5월 26일 감사합니다! Randy 2019년 5월 26일 LV 51 댓글 0개 0 질문 지켜보기 질문 지켜보기를 시작하면 질문에 답변, 댓글이 달릴 때 알림을 받을 수 있어요. dataframe 타입 확인하려고 할때, 구글링하면 계속
만 알려준다. 근데 내가 원한거는 이런게 아니라 하나하나 나와야하눈디... 할때 사용하는 것 !
이렇게 하면 아래 결과처럼 string이 TRUE or False 이렇게 나온다. 전체적으로 string or numeric 값만 보고싶을때 사용사용사용했음 pandas의 데이터 타입(data type)
* Category형 타입? 카테고리형(Categorical) 데이터는 데이터프레임의 칼럼에서 특정한 형태의 데이터가 반복되는 경우 사용한다. 예를 들어 성별(남성, 여성), 나이(10대, 20대, ...)와 같이 특정 구간의 데이터가 반복되는 경우를 말한다. 카테고리형 데이터를 이용하면 반복된 데이터를 코드화하여 데이터의 사이즈를 줄여서 메모리 사용량이 줄어 들고 데이터 처리 속도가 빨라진다. 데이터프레임의 각 컬럼의 타입 출력데이터 프레임의 각 컬럼의 타입을 출력하려면 dtypes를 통해 확인할 수 있다.
https://wikidocs.net/78180 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net https://wikidocs.net/78187 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 자주쓰는 명령어로 배우는 Pandas 2편에 이어 3편입니다. 이번에는 데이터를 조작해보겠습니다. 1편, 2편에서 작성했던 코드 결과들은 계속 유지되니 직접 실습을 따라 하고 싶으신 분들은 이전 시리즈를 참고해주세요. 지난번 실습까지 잘 따라오셨다면, 아래와 같은 데이터 프레임을 가지고 있으실 겁니다.
실행결과 데이터 요약하기우선 데이터를 조작하기에 앞서 DataFrame의 데이터를 요약하여 확인하는 방법을 알아보겠습니다. 데이터프레임의 각 컬럼별 타입 확인하기데이터가 어떤 타입으로 이루어져 있는지 확인이 필요할 때가 있습니다.
아래 실행결과에서 *8, 16, 32, 64를 데이터의 특성에 맞게 적절하게 할당해주면 DataFrame의 크기를 줄일 수 있습니다. 이와 관련해서 좀 더 알아보고 싶으신 분들은 이 블로그를 참고해주세요 실행결과 데이터프레임 타입 변경하기DataFrame의 타입이 원하는 타입이면 좋겠지만, 생각했던 타입이 아닐 수도 있습니다. 이럴 때는 여기서는, 데이터프레임의 크기를 줄이기 위해
실행결과 *참고로, 위의 경우에 float를 int타입으로 변경할 수는 없습니다. NaN값이 포함되어 있는 경우 NaN값은 numpy에서 float으로 인식되기 때문입니다. Pndas 0.24.0 버전부터 실험적으로 기본적인 통계지표 확인하기
실행결과
실행결과 NaN 핸들링NaN데이터, 즉 결측치는 적절하게 핸들링해줄 필요가 있습니다. 데이터가 충분하다면, 결측치 데이터는 그냥 날려버리는 것도 옵션이 될 수 있고, 그렇지 않을 때는 적절하게 Interpolation을 해줘야 할 수도 있습니다. NaN 제거
실행결과 500개의 데이터가 150개를 남기고 모두 제거되었습니다. 일부 데이터가 NaN인 경우는 살려두고 모든 row가 다 NaN일 경우에만 제거하고 싶은 경우도 있습니다. 그럴 때는 NaN 채우기NaN값을 채우기 전에 다시 NaN값을 포함한 데이터프레임이 필요합니다. 그러기 위해서 일단 데이터를 추가해보겠습니다.
실행결과 데이터프레임은 준비되었으니 NaN값을 채워보겠습니다.
실행결과 좀 더 정교하게 결측치를 핸들링하고 싶다면 데이터 값 변경하기Replace
실행결과 이상으로 자주쓰는 명령어로 배우는 Pandas 3편을 마치겠습니다. 4편에서는 DataFrame에서 데이터를 필터링/마스킹하는 방법과 데이터에 함수를 적용하거나 그룹핑하는 방법에 대해 알아보겠습니다. 감사합니다. |