すっからかん(欠損値しかない)の列を削除して完全データにしたい
【20170518 追記】
あーだこーだしているが、ゆた兄さんに教えてもらった方法を使った方が楽チン。
@u_ribo ちがった、_at()じゃなくて_if()でよかったのでした! 存在を忘れてた。
— Hiroaki Yutani (@yutannihilation) 2017年5月17日
df.list %>% select_if(function(x) VIM::countNA(x) < 1)
追記終わり。
時として、データの特定の列が全て欠損している、ということがある。分析を進めて行く上でこのような列は不要となるため、列選択によって除外するという方法をよくとる。
それを行うためにはまず、各列の欠損値を数えて、完全データとなっている列だけを選択する必要がある。それをRでやる。パイプ処理と合わせて効率的にやる。そんな方法。
次のデータを例にする。すべてを出力しないが、変数が多く、TABLE_CATEGORYやTABLE_SUB_CATEGORY1のように欠損値しかもたない列があるというのが特徴となっている。
df.list %>% ncol()
## [1] 35
df.list[, 1:6] %>% head()
## # A tibble: 6 x 5
## `@id` NAME TABLE_CATEGORY
## <chr> <chr> <chr>
## 1 000003207760 5_国立公園の利用者数(公園、都道府県別) <NA>
## 2 000003598444 5_国立公園の利用者数(公園、都道府県別) <NA>
## 3 000004030655 5_国立公園の利用者数(公園、都道府県別) <NA>
## 4 000006926450 5_国立公園の利用者数(公園、都道府県別) <NA>
## 5 000006926494 5_国立公園の利用者数(公園、都道府県別) <NA>
## 6 000006926518 5_国立公園の利用者数(公園、都道府県別) <NA>
## # ... with 2 more variables: TABLE_NO <chr>, TABLE_NAME <chr>
VIM::aggr()
でのデータの可視化確認。左側の棒グラフで縦軸が1.0に達しているように、特定の列は欠損値しかもたない。
df.list %>% VIM::aggr(plot = TRUE, prop = TRUE, col = "purple", cex.lab = 0.7, number = TRUE)
最初に各列の欠損値をカウントする。これにはVIMパッケージ(欠損データの可視化や補完を行う)のcountNA
関数を使うか、欠損値の判定を行う関数is.na()
の返り値(欠損であれば1となる)を合計する処理(sum(is.na(x))
)を適用すれば良い。
df.list$TABLE_CATEGORY %>% VIM::countNA()
## [1] 8
df.list$TABLE_CATEGORY %>% is.na() %>% sum()
## [1] 8
これをデータフレームの各列に適用させる。apply()
を用いても良いが、後の処理を考えてpurrrを使う。purrrのmap()
関数は返り値がリストであるが、map_*()
を使うことで返り値をベクトルにし、データ型についても指定したできるようになる。今回は欠損値の合計を実数として取得するのでmap_int()
を使う。
library(dplyr) library(purrr)
# df.list %>% apply(2, VIM::countNA) df.list %>% map_int(VIM::countNA)
## @id NAME
## 0 0
## TABLE_CATEGORY TABLE_NO
## 8 0
## TABLE_NAME TABLE_SUB_CATEGORY1
## 0 8
## TABLE_SUB_CATEGORY2 TABLE_SUB_CATEGORY3
## 8 8
## URL DESCRIPTION
## 0 8
## FORMAT RELEASE_DATE
## 0 5
## LAST_MODIFIED_DATE RESOURCE_LICENCE_ID
## 8 0
## LANGUAGE STAT_NAME
## 0 0
## ORGANIZATION DATASET_NAME
## 0 0
## TABULATION_CATEGORY TABULATION_SUB_CATEGORY1
## 0 8
## TABULATION_SUB_CATEGORY2 TABULATION_SUB_CATEGORY3
## 8 8
## TABULATION_SUB_CATEGORY4 TABULATION_SUB_CATEGORY5
## 8 8
## CYCLE SURVEY_DATE
## 0 0
## PUBLISHER CONTACT_POINT
## 0 0
## CREATOR FREQUENCY_OF_UPDATE
## 0 0
## LANDING_PAGE DATASET_@id
## 0 0
## DATASET_DESCRIPTION DATASET_LAST_MODIFIED_DATE
## 8 8
## DATASET_RELEASE_DATE
## 5
次に、ここから欠損を含む列と欠損していない列を区別する。これにはpurrr::keep
, purrr::discard
による要素の取捨選択を適用させることで実行する。条件式として、対象(今回はデータフレームの各列の欠損値合計)が0となる要素を選択するようにする。
df.list %>% map_int(VIM::countNA) %>% keep(~ .x == 0)
## @id NAME TABLE_NO
## 0 0 0
## TABLE_NAME URL FORMAT
## 0 0 0
## RESOURCE_LICENCE_ID LANGUAGE STAT_NAME
## 0 0 0
## ORGANIZATION DATASET_NAME TABULATION_CATEGORY
## 0 0 0
## CYCLE SURVEY_DATE PUBLISHER
## 0 0 0
## CONTACT_POINT CREATOR FREQUENCY_OF_UPDATE
## 0 0 0
## LANDING_PAGE DATASET_@id
## 0 0
これらの情報を用いて、列選択を行う。dplyr::one_of()
は文字列ベクトルで与えた変数を選択するselect_helpers
関数群の一種である。
df.list.mod <- df.list %>% select( one_of( df.list %>% map_int(VIM::countNA) %>% keep(~ .x == 0) %>% names() ))
改めて欠損数を確認しておこう。
df.list.mod %>% map_int(VIM::countNA)
## @id NAME TABLE_NO
## 0 0 0
## TABLE_NAME URL FORMAT
## 0 0 0
## RESOURCE_LICENCE_ID LANGUAGE STAT_NAME
## 0 0 0
## ORGANIZATION DATASET_NAME TABULATION_CATEGORY
## 0 0 0
## CYCLE SURVEY_DATE PUBLISHER
## 0 0 0
## CONTACT_POINT CREATOR FREQUENCY_OF_UPDATE
## 0 0 0
## LANDING_PAGE DATASET_@id
## 0 0
このような処理で完全データを得ることができる。
keep()
とone_of()
の組み合わせは、このほかにも色々な条件に応用できそうだ。
Enjoy!