cucumber flesh

Rを中心としたデータ分析・統計解析らへんの話題をしていくだけ

data exploration

データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦

探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。 特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存す…

すっからかん(欠損値しかない)の列を削除して完全データにしたい

【20170518 追記】 あーだこーだしているが、ゆた兄さんに教えてもらった方法を使った方が楽チン。 @u_ribo ちがった、_at()じゃなくて_if()でよかったのでした! 存在を忘れてた。df.list %>% select_if(function(x) VIM::countNA(x) < 1)— Hiroaki Yutani …

📢アサートを使って堅牢なデータ設計をしよう

所感 (内容の前に書いておきます) パイプ演算子によって、Rを使ったデータ分析の作業は流れるようにわかりやすく、実行しやすくなりました。その一方で、中間的処理の結果に対してはないがしろになっているという点があります。この処理で間違えていない…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 8 説明したい変数は独立と言えるのか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われている目的変数の独立性について議論する。 uribo.hatenablog.com データ解析時における統計的手法の多くは、観測されたデータが他と独立であることを仮定している…

⭐️手を動かしながら学ぶモダンなデータ操作とtidyなデータ(2015年版)

R Advent Calendar 2015の第一日目です。 今日はタイトルの通り、{dplyr}と{tidyr}パッケージを使ったデータの整形と集計処理について、実際のデータを交えながら紹介したいと思います(タイトルは流行りの本からとってきました。オマージュです)。 {dplyr}…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われているゼロ過剰問題を取り扱っている。 uribo.hatenablog.com 離散値の整数かならるカウントデータの多くはポアソン分布に従うことが一般的である。しかし、ある生…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010) を読んだ(でいる)

気になるつぶやきを見た。 About to analyse some data? Stop!Read this first:http://t.co/yVIKXp76Xm pic.twitter.com/n52x56PB4C— BES Quant. Ecology (@BES_QE_SIG) October 13, 2015 文献管理ソフトを開くと、2年前にダウンロードして要旨に目を通して…