cucumber flesh

Rを中心としたデータ分析・統計解析らへんの話題をしていくだけ

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 8 説明したい変数は独立と言えるのか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われている目的変数の独立性について議論する。

uribo.hatenablog.com

データ解析時における統計的手法の多くは、観測されたデータが他と独立であることを仮定している。あるデータをとる時、そのデータは以前に観測されたデータとは無関係に集められる必要がある。また新たに得られたデータが今後得られるデータに対して影響を及ぼすような何らかの情報を含んでいてはいけないというようなものである。といってもあくまでもこれらは仮定なので、現実にはこれらが完全に独立でないことを考慮することの方が大事になってくる。

一方で明らかにデータどうしが独立でないものもある。例えば地域を代表する植生を調べた時、調査した地点が互いに近いと同じようなデータが得られてしまい、十分に調査地の距離を離して得たデータと比較した場合には、地域の植生を表現するには不十分だろう。これは調査した地点の距離が近いことによる自己相関である。近い場所では同じような植生があるだろうし、遠くへ行けば異なる景観となるだろう(あるいはその逆)というのは直感的に予測できるものである。このようにデータの性質によって自己相関を生じやすいデータがある。特に空間や時間は自己相関を示す典型的なデータである。

次にあげるいくつかの項目について比較した場合、前者と後者、どちらの方が似た結果を得るだろうか。またデータの結果が異なってくるのはどちらであろうか。

続きを読む