cucumber flesh

Rを中心としたデータ分析・統計解析らへんの話題をしていくだけ

すっからかん(欠損値しかない)の列を削除して完全データにしたい

【20170518 追記】

あーだこーだしているが、ゆた兄さんに教えてもらった方法を使った方が楽チン。

追記終わり。

時として、データの特定の列が全て欠損している、ということがある。分析を進めて行く上でこのような列は不要となるため、列選択によって除外するという方法をよくとる。

それを行うためにはまず、各列の欠損値を数えて、完全データとなっている列だけを選択する必要がある。それをRでやる。パイプ処理と合わせて効率的にやる。そんな方法。

次のデータを例にする。すべてを出力しないが、変数が多く、TABLE_CATEGORYTABLE_SUB_CATEGORY1のように欠損値しかもたない列があるというのが特徴となっている。

df.list %>% ncol()
## [1] 35
df.list[, 1:6] %>% head()
## # A tibble: 6 x 5
##          `@id`                                   NAME TABLE_CATEGORY
##          <chr>                                  <chr>          <chr>
## 1 000003207760 5_国立公園の利用者数(公園、都道府県別)           <NA>
## 2 000003598444 5_国立公園の利用者数(公園、都道府県別)           <NA>
## 3 000004030655 5_国立公園の利用者数(公園、都道府県別)           <NA>
## 4 000006926450 5_国立公園の利用者数(公園、都道府県別)           <NA>
## 5 000006926494 5_国立公園の利用者数(公園、都道府県別)           <NA>
## 6 000006926518 5_国立公園の利用者数(公園、都道府県別)           <NA>
## # ... with 2 more variables: TABLE_NO <chr>, TABLE_NAME <chr>

VIM::aggr()でのデータの可視化確認。左側の棒グラフで縦軸が1.0に達しているように、特定の列は欠損値しかもたない。

df.list %>% 
  VIM::aggr(plot = TRUE,
     prop = TRUE,
     col =  "purple",
     cex.lab = 0.7,
     number = TRUE)

f:id:u_ribo:20170518070210p:plain

最初に各列の欠損値をカウントする。これにはVIMパッケージ(欠損データの可視化や補完を行う)のcountNA関数を使うか、欠損値の判定を行う関数is.na()の返り値(欠損であれば1となる)を合計する処理(sum(is.na(x)))を適用すれば良い。

df.list$TABLE_CATEGORY %>% VIM::countNA()
## [1] 8
df.list$TABLE_CATEGORY %>% is.na() %>% sum()
## [1] 8

これをデータフレームの各列に適用させる。apply()を用いても良いが、後の処理を考えてpurrrを使う。purrrmap()関数は返り値がリストであるが、map_*()を使うことで返り値をベクトルにし、データ型についても指定したできるようになる。今回は欠損値の合計を実数として取得するのでmap_int()を使う。

library(dplyr)
library(purrr)
# df.list %>% apply(2, VIM::countNA)
df.list %>% map_int(VIM::countNA)
##                        @id                       NAME 
##                          0                          0 
##             TABLE_CATEGORY                   TABLE_NO 
##                          8                          0 
##                 TABLE_NAME        TABLE_SUB_CATEGORY1 
##                          0                          8 
##        TABLE_SUB_CATEGORY2        TABLE_SUB_CATEGORY3 
##                          8                          8 
##                        URL                DESCRIPTION 
##                          0                          8 
##                     FORMAT               RELEASE_DATE 
##                          0                          5 
##         LAST_MODIFIED_DATE        RESOURCE_LICENCE_ID 
##                          8                          0 
##                   LANGUAGE                  STAT_NAME 
##                          0                          0 
##               ORGANIZATION               DATASET_NAME 
##                          0                          0 
##        TABULATION_CATEGORY   TABULATION_SUB_CATEGORY1 
##                          0                          8 
##   TABULATION_SUB_CATEGORY2   TABULATION_SUB_CATEGORY3 
##                          8                          8 
##   TABULATION_SUB_CATEGORY4   TABULATION_SUB_CATEGORY5 
##                          8                          8 
##                      CYCLE                SURVEY_DATE 
##                          0                          0 
##                  PUBLISHER              CONTACT_POINT 
##                          0                          0 
##                    CREATOR        FREQUENCY_OF_UPDATE 
##                          0                          0 
##               LANDING_PAGE                DATASET_@id 
##                          0                          0 
##        DATASET_DESCRIPTION DATASET_LAST_MODIFIED_DATE 
##                          8                          8 
##       DATASET_RELEASE_DATE 
##                          5

次に、ここから欠損を含む列と欠損していない列を区別する。これにはpurrr::keep, purrr::discardによる要素の取捨選択を適用させることで実行する。条件式として、対象(今回はデータフレームの各列の欠損値合計)が0となる要素を選択するようにする。

df.list %>% map_int(VIM::countNA) %>% 
    keep(~ .x == 0)
##                 @id                NAME            TABLE_NO 
##                   0                   0                   0 
##          TABLE_NAME                 URL              FORMAT 
##                   0                   0                   0 
## RESOURCE_LICENCE_ID            LANGUAGE           STAT_NAME 
##                   0                   0                   0 
##        ORGANIZATION        DATASET_NAME TABULATION_CATEGORY 
##                   0                   0                   0 
##               CYCLE         SURVEY_DATE           PUBLISHER 
##                   0                   0                   0 
##       CONTACT_POINT             CREATOR FREQUENCY_OF_UPDATE 
##                   0                   0                   0 
##        LANDING_PAGE         DATASET_@id 
##                   0                   0

これらの情報を用いて、列選択を行う。dplyr::one_of()は文字列ベクトルで与えた変数を選択するselect_helpers関数群の一種である。

df.list.mod <- df.list %>% 
  select(
    one_of(
      df.list %>% map_int(VIM::countNA) %>% 
    keep(~ .x == 0) %>% names()
    ))

改めて欠損数を確認しておこう。

df.list.mod %>% map_int(VIM::countNA)
##                 @id                NAME            TABLE_NO 
##                   0                   0                   0 
##          TABLE_NAME                 URL              FORMAT 
##                   0                   0                   0 
## RESOURCE_LICENCE_ID            LANGUAGE           STAT_NAME 
##                   0                   0                   0 
##        ORGANIZATION        DATASET_NAME TABULATION_CATEGORY 
##                   0                   0                   0 
##               CYCLE         SURVEY_DATE           PUBLISHER 
##                   0                   0                   0 
##       CONTACT_POINT             CREATOR FREQUENCY_OF_UPDATE 
##                   0                   0                   0 
##        LANDING_PAGE         DATASET_@id 
##                   0                   0

このような処理で完全データを得ることができる。

keep()one_of()の組み合わせは、このほかにも色々な条件に応用できそうだ。

Enjoy!