미세먼지와 대중교통 [ 데이터 분석 ]

이전 게시물에 이어서..

미세먼지와 대중교통 [ 데이터 분석 ] - 3

까먹고 안올리고 있었다... 지금부터 시작~!!!! 오늘 포스팅할 글의 내용은! 지난번 미세먼지 분석과 간단한 시각화에 이어서 지하철 이용량에 대하여 분석해본 과정입니다>< 2019/05/12 - [데이터 과학/내 발전과..

dataiscoming.tistory.com

현재 위의 데이터를 일별로 얼마나 이용했는지 알아보려면 가로로 정렬하는 게 편할 듯 합니다.

행과 열을 조건에 맞추어 바꾸기 위해선 reshape2패키지가 필요합니다.

reshape2의 dcast()함수를 사용하는데요, three데이터를 num과 date를 기준으로 분류한다는 말입니다.

sum은 num과 date가 같은 값들을 다 합친 값을 넣겠다는 소리입니다. 여기에 mean을 쓰면 평균을 넣을 것이고, max를 쓰면 최댓값을 넣게 될 겁니다.

install.packages("reshape2")
library("reshape2")
wide <- dcast(three, num ~ date, sum)

호선별로 나누는 것만으로는 부족합니다. 합계 행도 만들어 봅시다.

wide <- rbind(wide, colSums(wide))

여기서 rbind()는 데이터를 열을 기준으로 합치는 함수입니다.

저는 wide데이터와 colSums(wide)데이터를 합쳤습니다.

colSums(wide)는 행별로 총합량을 추출한 데이터입니다.

이제, 간단히 행과 열을 바꾸어주고,

long <- t(wide)

호선별 데이터도 필요없으니 삭제해주고,

four <- long[,c(0, 9)]

이 데이터를 저장해줍니다.

write.table(four, file="subwayyear.csv", sep=",", row.names=T, col.names=TRUE)

사실 이때 헤더도 없고 첫째 열도 불필요하는 등 처리절차가 남아있었지만, 엑셀로 작업하는 게 훨씬 편할 것 같아서 저장해 엑셀로 처리했습니다.

마쳤습니다!

첫번째 행은 날짜, 두번째 행은 이용량의 합계.

감사합니다.^^

Of course I can