📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010) を読んだ(でいる)
気になるつぶやきを見た。
About to analyse some data?
— BES Quant. Ecology (@BES_QE_SIG) October 13, 2015
Stop!
Read this first:http://t.co/yVIKXp76Xm pic.twitter.com/n52x56PB4C
文献管理ソフトを開くと、2年前にダウンロードして要旨に目を通していたものの、本文を読んでいなかった。今読むと納得できたり面白いなと思う部分がチラチラとあるので備忘録としてのメモ。マサカリも歓迎。
論文の概要
さて、何の話かというところから始めたい。
Zuur, A. F., Ieno, E. N. and Elphick, C. S. (2010), A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, 1: 3–14. doi: 10.1111/j.2041-210X.2009.00001.x
この論文は、タイトルにもあるように統計解析を行う前に確認すべきデータ探索のお作法的なものを紹介したものである。論文の筆頭著者はAlain F. Zuur。統計解析の本も幾つか書いている(ペンギン本、白鳥本とか)。生態学をやっている人の中では割と有名な感じがする。
2010年に出た論文なので、若干古いが、まあこういう分析手法のお作法は時代が経ってもそんなに変わらないだろうし、自分のような人間には身についていないこともあるので、要所を押さえておきたい。生態学を扱う雑誌に掲載されたものだが、データ分析を行う多くの人にとって有益な文献であると思う。興味があればぜひ文献の方を読んでもらいたい。
この論文では統計解析の際に問題を引き起こしかねない8つの問題を取り扱う。
- 取り扱う変数に外れ値はないか?
- データは均一な分散を持っているか?
- そのデータは正規性があるのか?
- データの中にゼロがたくさんあるか?(ゼロ過剰)
- 変数同士の共線性は見られないか?
- 2つの変数の関係はどうなっている?(相関)
- 相互作用を考慮するべきかだろうか?
- 説明したい変数は独立と言えるのか?(独立性)
全てをこのページで議論すると長くなりそうなので、「連載」として小分けにしていきたい。
ひとまず、今自分自身がぶつかっている「ゼロ過剰」問題については書いておいた。その他の項目については随時リンクを追加する予定である。
雑
- Google Schlorで調べた際の被引用件数は800件を超えている。すごいね
- どーでもいいけど、この論文で使われている図はおそらく
{lattice}
で描かれたものだろうと推測してみる。