cucumber flesh

Rを中心としたデータ分析・統計解析らへんの話題をしていくだけ

2015-01-01から1年間の記事一覧

😎毎朝の習慣としてRパッケージの監視をしています

タイトルに偽りあり。これからやっていこう、という話です。 Rの機能を拡張する便利なパッケージはRそのものやRのパッケージを管理するCRANに登録されています。私は、パッケージの読み込み時にパッケージがインストールされていないためにthere is no packa…

🌏GBIFに登録された生物分布情報のマッピング: 生物多様性ウェブマッピングシステムをRで実装する

少し前(2015年12月11日)に国立環境研究所が運営する生物多様性ウェブマッピングシステム(以下、BioWM)が公開されました。 www.nies.go.jp このサービスの紹介文をみると 生物多様性ウェブマッピングシステム(BioWM)は、GBIFでのデータ公開とその活用、…

⭐️RStudioと一緒に学ぶStan

先日開催された「基礎からのベイズ統計学入門」輪読会に参加し、そこでLTをしてきました。スライドが未完成な状態で乗り込んでしまった反省がありますが、スライドの内容について、補足を含めてこの場で紹介したいと思います。 Stanコードを書くならRStudio…

🌏Rで地域メッシュを使った地図を描きたい

この記事はFOSS4G Advent Calendar 2015 の日目です。GISとかFOSS4Gについての知識が限りなく0に近いのですが、普段使っているRでGIS的なことをしてみたい、という話です。具体的には、地域メッシュコードに基づく地図をRで描いてみる、という話になります…

⭐️{purrr}でSlack WEB APIを触る

API怖いので {purrr}を使って頑張ろう、という所存です。先日、うさぎさんこと @sinhrks さんがJapan.R 2015で講演されたので、その資料を超参考にしました。 SlackのAPIを扱う機能をもった {slackr} があり、こちらを愛用していますが、生API (?)で頑張るぞ…

🍭{ggplot2} 1.0.1.9003以降のバージョンで回帰線を引く時などに使うgeom_smooth()関数の挙動が変わるカモ

以前書いた記事に関して、気になるコメントをもらって、ちょっともやもやしていたので検証してみました。 {ggplot2}のgeom_smooth()についての挙動です。 最後のグラフで、glmの結果をggplotするときのfamilyの指定の所ですが、自分の環境ではmethod.argでは…

🌴{rvest}を使って植物の学名をYListから取得する

一人Rアドベントカレンダーの3日目。何日まで続くかわからないが、@dichika さんを見習って続ける。 今日は仕事の話だ。植物生態学、特に群集データを扱う時のtipsについて書いてみたい。 群集を対象にした調査を行った場合、1種だけが出現した、というこ…

⭐️GitHub API(JSON)を叩いて学ぶRでのリスト操作とストーキング事情(2015年版)

R Advent Calendar 2015の二日目です。 昨日は表形式のデータをR上で扱いやすく、さらに可視化やモデリングの関数との相性が良いtidy形式なデータフレームについての話をしました。昨日が表形式なら、今日はRでのデータ形式として主要なもう一つの形式、リス…

⭐️手を動かしながら学ぶモダンなデータ操作とtidyなデータ(2015年版)

R Advent Calendar 2015の第一日目です。 今日はタイトルの通り、{dplyr}と{tidyr}パッケージを使ったデータの整形と集計処理について、実際のデータを交えながら紹介したいと思います(タイトルは流行りの本からとってきました。オマージュです)。 {dplyr}…

📦{tm}パッケージで日本語のPDFからテキストを抽出する

男なら誰しも一度は「俺に落とせない女はいない」、的なことを言ってみたいと思うわけですが、どうやらそんなセリフを言う機会がありそうもないので、「俺に落とせないデータはない」くらいにスケールダウンかつハッカー感を出していければと思います。 とい…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われているゼロ過剰問題を取り扱っている。 uribo.hatenablog.com 離散値の整数かならるカウントデータの多くはポアソン分布に従うことが一般的である。しかし、ある生…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010) を読んだ(でいる)

気になるつぶやきを見た。 About to analyse some data? Stop!Read this first:http://t.co/yVIKXp76Xm pic.twitter.com/n52x56PB4C— BES Quant. Ecology (@BES_QE_SIG) October 13, 2015 文献管理ソフトを開くと、2年前にダウンロードして要旨に目を通して…

🍵MEEに掲載されたRパッケージのAdevent Calendarは実現可能なのか?

"Methods in Ecology and Evolution"(以下MEE)というジャーナルがあります。イギリス生態学会が刊行している生態学及び進化学系の学術誌で、ISIでの2014年の生態学分野におけるインパクトファクターの順位が9位(IF 6.554)であるそうです(すごい)。 こ…

⭐️expand.grid()とdata.frame()では水準の扱い方が異なる

ちょっとしたメモ。 2015-11-26 追記 @dichika さんが検証してくださいました。Rの組み込み関数のソースを見たい場合には https://github.com/wch/r-source が良いですね。参考になります。 d.hatena.ne.jp data.frame()では、変数内の大きさ(ベクトルの長…

💮住所から緯度と経度を取得したい: 札幌市の保育所データを例にして

今北海道が熱い!(昨日、今年の初雪を観測したらしいが) 北海道関連の記事をよく見かける。例えば、 wafdata.hatenablog.com 「北海道認可保育所一覧」オープンデータ来た!ご尽力くださった皆さまどうもありがとうございますm(_ _)m 嬉しい。 http://t.co…

🍭データフレームからランダムにデータを抽出したい

北のマエショリストこと(面識もない私が勝手に呼んでいる) id:WAFkw さんがこんな記事を書いていた。 wafdata.hatenablog.com 手持ちのテーブルから、無作為(ランダム)にサンプルを抽出する(リサンプリング)、という記事。そしてそのレスポンスとして…

💮「ヘルスケア」からデータをとってきてRで自己健康診断する

「ヘルシープログラマ」を読んだせいか、年のせいか、健康に気を遣うおう、という気持ちになってきた。たとえ生活リズムがボロクソになっていても、気持ちの面では健康に気を遣いっていたい。 先日、長らく使っていたiPhone 4Sを機種変更してiPhone 6Sにした…

💮もっと自然に完了通知

昨日書いた記事に対して、ナイスなコメントをいただいた。 時間かかる処理でフックと組み合わせると良さそうhttp://t.co/CmPaUNqyXi— sinhrks (@sinhrks) September 22, 2015 これができるようになれば、いちいち通知用の関数を記述しなくても通知が飛ぶよう…

💮今日の作業を可視化する: Macのログをごにょる

R Mac

大変面白い記事を見つけた。 qiita.com 管理願望の強い私は、さっそく試してみようと思ったのだけど、なにせGo言語について知識がなかったので挫折した。 というわけでパートナーであるRを使って同様のことを行ってみる。もちろん肝心の可視化もやる。 これ…

💮ついに念願の「knitrで生成したPDF上で絵文字を出力する」ことに成功したぞ

進捗です。Rmarkdown (PDF)内にemoji ㊗ pic.twitter.com/geMjfSO8ip— \x48\x65\x6c\x6c\x6f (@u_ribo) August 28, 2015 そういえば我々はRで絵文字を扱うことに情熱を燃やしていた時期があった(2月14日になにしてるんだ、と今思った)。 ```{r , eval=FAL…

💮Rで通知

「Rに管理されたい。」...そういう願望が人類共通、誰しもにあると思う。 Rじゃなくてもできるはずだけど、Rに管理されたい願望が強いので、Rに管理してほしい。 コードの実行完了を通知する ちょっと調べた限りで以下の記事が見つかった。 Getting R to not…

☠webスクレイピングする際にページ番号をさくっと把握したい人生だった

前回の記事でも書いたが、webスクレイピングを行う際に、取得したいデータが複数のページに分割されて(いわゆるpagination)表示されていることがしばしばある。 対象のページがどれくらいあるのかを把握しておくと便利だよなと思ったので、paginationが行…

💮RSSっぽいものを自作してIFTTTに通知を飛ばす

日々のあれこれを記録しておきたい性分なせいもあって、最近IFTTTを活用しまくっている。基本的には、各種のサービスをIFTTTを経由してEvernoteに記録する、という過程をとっている。twitterの一日のつぶやきとか、YouTubeのお気に入りなんかをEvernoteに記…

🍵RStudio開発の歴史と変遷を辿る動画

VimeoにRStudio 4年間の開発の履歴を視覚化した動画が投稿されていた。 4 Years of RStudio Development on Vimeo 個々のファイルがどういう機能を持っているのかは何が何だかわからないが、集中して整備が進む「枝」や人々の移動を見ていると楽しい。 そう…

💮Slack上で行われた投票の開票

Slackでは絵文字を使ってチームメンバーどうしで意見を伝え合うシステムがある。 722 ways to say “I got your message” | Several People Are Typing これはいいね とか良くないね とか気持ちを表現したり、メンバーに対して意見を求める際に投票してもら…

💮StackoverflowやGitHubに書かれているコードを手元で検証する

最近、ggplot2逆引きプロジェクトが熱い。これは、プログラミン関係のお悩み相談所として有名なStackoverflowに寄せられるRの作図パッケージ{ggplot2}に関する質問を翻訳して整理しようという企画。 それをきっかけに、Stackoverflowを定期的に覗くようにな…

🍭Rでランダムな文字列や数値を生成する

そんなパッケージや関数を調べてみた。 ランダマイゼーションの手法については闇の深さを感じるので、細かいことや背景の処理はそんなに気にしない。とりあえずランダムっぽく生成してくれれば良い、というゆるふわ系記事。

🔰データフレームのオブジェクト名はどう決めていますか?

Rで何らかの解析作業をおこなうとき、データフレームクラスのオブジェクトを使うことが多いと思う。その際、どういう名称のオブジェクトを作っているのか。自分はdf派だが、パイセンがdatにしていたり先日slack上で見た @hoxo_m さんのコードでもdatが使われ…

🍭気になるパッケージや関数があったらRPubsを覗いてみる

最近、Rのいろいろな関数やパッケージについて調べることがあって、毎日?hogeしている。ヘルプを読んで納得がいくこともあれば説明不足を感じたりこともある。いずれにせよ、ヘルプで書かれていること以外の内容を調べるにはネットを利用するのが手っ取り早…

🔰文字化けこわい、こわくない?

R

繧ゅb縺�m繧ッ繝ュ繝シ繝舌�Z縲豕」縺�※繧ゅ>縺�s縺繧縲阪Α繝・繝シ繧ク繝�け繝薙ョ繧ェ 逶」逹」�壻ス蝉ケ�俣邏菴ウ with 繧ェ繧ォ繝問�繝悶Λ繧カ繝シ繧コ 菴懆ゥ橸シ丈ス懈峇�壻クュ蟲カ縺ソ繧�″ 邱ィ譖イ...— \x48\x65\x6c\x6c\x6f (@u_ribo) July 20, 2015 Rで解析していると文…