이전 게시물에 이어서..
2019/06/09 - [데이터 과학/내 발전과정_R] - 미세먼지와 대중교통 [ 데이터 분석 ] - 3
미세먼지와 대중교통 [ 데이터 분석 ] - 3
까먹고 안올리고 있었다... 지금부터 시작~!!!! 오늘 포스팅할 글의 내용은! 지난번 미세먼지 분석과 간단한 시각화에 이어서 지하철 이용량에 대하여 분석해본 과정입니다>< 2019/05/12 - [데이터 과학/내 발전과..
dataiscoming.tistory.com
현재 위의 데이터를 일별로 얼마나 이용했는지 알아보려면 가로로 정렬하는 게 편할 듯 합니다.
행과 열을 조건에 맞추어 바꾸기 위해선 reshape2패키지가 필요합니다.
reshape2의 dcast()함수를 사용하는데요, three데이터를 num과 date를 기준으로 분류한다는 말입니다.
sum은 num과 date가 같은 값들을 다 합친 값을 넣겠다는 소리입니다. 여기에 mean을 쓰면 평균을 넣을 것이고, max를 쓰면 최댓값을 넣게 될 겁니다.
install.packages("reshape2")
library("reshape2")
wide <- dcast(three, num ~ date, sum)
호선별로 나누는 것만으로는 부족합니다. 합계 행도 만들어 봅시다.
wide <- rbind(wide, colSums(wide))
여기서 rbind()는 데이터를 열을 기준으로 합치는 함수입니다.
저는 wide데이터와 colSums(wide)데이터를 합쳤습니다.
colSums(wide)는 행별로 총합량을 추출한 데이터입니다.
이제, 간단히 행과 열을 바꾸어주고,
long <- t(wide)
호선별 데이터도 필요없으니 삭제해주고,
four <- long[,c(0, 9)]
이 데이터를 저장해줍니다.
write.table(four, file="subwayyear.csv", sep=",", row.names=T, col.names=TRUE)
사실 이때 헤더도 없고 첫째 열도 불필요하는 등 처리절차가 남아있었지만, 엑셀로 작업하는 게 훨씬 편할 것 같아서 저장해 엑셀로 처리했습니다.
마쳤습니다!
첫번째 행은 날짜, 두번째 행은 이용량의 합계.
감사합니다.^^
'데이터 과학 > R 데이터 분석과 시각화' 카테고리의 다른 글
석유화학산업발전동향 [데이터 시각화] - 1 (0) | 2019.07.11 |
---|---|
미세먼지와 대중교통 [ 데이터분석 ] - 5 (0) | 2019.06.09 |
미세먼지와 대중교통 [ 데이터 분석 ] - 3 (0) | 2019.06.09 |
미세먼지와 대중교통 [ 데이터분석 ] - 2 (0) | 2019.05.31 |
미세먼지와 대중교통 [ 데이터분석 ] - 1 (0) | 2019.05.12 |