読者です 読者をやめる 読者になる 読者になる

まだ厨二病

RとPyhtonを使ったデータ分析・統計解析らへんの話題をしていくだけ

estatapiパッケージで読み込めないデータの取得を諦めない

先日、estatapiパッケージを使って政府統計の総合窓口 e-statが提供する統計データの取得を行おうとしました。 library(tidyverse) library(estatapi) df.list <- estat_getDataCatalog(appId = Sys.getenv("ESTAT_TOKEN"), searchWord = "自然公園") df.tgt …

2017年のRとの付き合い方: 分析環境編

R

ギョームでRを使い始めてから一年経っていないのだけど、それなりにスタイルが確立してきた気がするし、新年なので、現状で理想的だと思われる分析環境を整理しておく。ちなみに私のギョームは主にデータの前処理や地理空間データのマッピング、簡易アプリケ…

Rの話をしよう(深く、緩く、熱く)

R

先日開催されたTokyo.R#58でこんな話をした。 Rについて話すラジオ、正しくはPodcastをやりたい。 それについて経緯と詳細を書いてみる。 背景 プログラミングやデータ分析なんかは、基本的に孤独な作業なのかもしれない。しかし時々自分のやったことの評価…

📘 R言語徹底解説(原著: Advanced R)を読んだ

前置き 有難いことに去年は著者や関係の方から何冊かの本(じゃんけん大会での獲得を含む)をいただいておきながら、ついったー上でしか報告(宣伝?)できていなかったので今年はブログにも書くことにする(みなさまからの献本、お待ちしております)。 今…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 8 説明したい変数は独立と言えるのか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われている目的変数の独立性について議論する。 uribo.hatenablog.com データ解析時における統計的手法の多くは、観測されたデータが他と独立であることを仮定している…

⚙API暮らし時代におけるRでの環境変数の管理

先週はセキュリティ関係の記事をよく見かけた...気がした。これとか。 qiita.com RでもウェブAPIを利用するパッケージが増えてきて( {RGA}, {slackr}, {twitteR}, {qiitar}などなど)、誰もがAPI暮らしを夢見ている。 そんなわけでAPI生活の質を高めるため…

🍭.Last.valueの話: 保存して欲しければまずは結果を見せな

Rでパイプ処理をしていると、「あ、今の結果をオブジェクトに保存しとけば良かった...。もう一回実行するのメンドクセ」、ということがしばしばある。 そんな時は直前の処理をやり直す必要はなくて、.Last.valueを使って対処することもできる。???。以下…

⭐️GitHub API(JSON)を叩いて学ぶRでのリスト操作とストーキング事情(2015年版)

R Advent Calendar 2015の二日目です。 昨日は表形式のデータをR上で扱いやすく、さらに可視化やモデリングの関数との相性が良いtidy形式なデータフレームについての話をしました。昨日が表形式なら、今日はRでのデータ形式として主要なもう一つの形式、リス…

⭐️手を動かしながら学ぶモダンなデータ操作とtidyなデータ(2015年版)

R Advent Calendar 2015の第一日目です。 今日はタイトルの通り、{dplyr}と{tidyr}パッケージを使ったデータの整形と集計処理について、実際のデータを交えながら紹介したいと思います(タイトルは流行りの本からとってきました。オマージュです)。 {dplyr}…

📦{tm}パッケージで日本語のPDFからテキストを抽出する

男なら誰しも一度は「俺に落とせない女はいない」、的なことを言ってみたいと思うわけですが、どうやらそんなセリフを言う機会がありそうもないので、「俺に落とせないデータはない」くらいにスケールダウンかつハッカー感を出していければと思います。 とい…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われているゼロ過剰問題を取り扱っている。 uribo.hatenablog.com 離散値の整数かならるカウントデータの多くはポアソン分布に従うことが一般的である。しかし、ある生…

🍵MEEに掲載されたRパッケージのAdevent Calendarは実現可能なのか?

"Methods in Ecology and Evolution"(以下MEE)というジャーナルがあります。イギリス生態学会が刊行している生態学及び進化学系の学術誌で、ISIでの2014年の生態学分野におけるインパクトファクターの順位が9位(IF 6.554)であるそうです(すごい)。 こ…

⭐️expand.grid()とdata.frame()では水準の扱い方が異なる

ちょっとしたメモ。 2015-11-26 追記 @dichika さんが検証してくださいました。Rの組み込み関数のソースを見たい場合には https://github.com/wch/r-source が良いですね。参考になります。 d.hatena.ne.jp data.frame()では、変数内の大きさ(ベクトルの長…

💮住所から緯度と経度を取得したい: 札幌市の保育所データを例にして

今北海道が熱い!(昨日、今年の初雪を観測したらしいが) 北海道関連の記事をよく見かける。例えば、 wafdata.hatenablog.com 「北海道認可保育所一覧」オープンデータ来た!ご尽力くださった皆さまどうもありがとうございますm(_ _)m 嬉しい。 http://t.co…

🍭データフレームからランダムにデータを抽出したい

北のマエショリストこと(面識もない私が勝手に呼んでいる) id:WAFkw さんがこんな記事を書いていた。 wafdata.hatenablog.com 手持ちのテーブルから、無作為(ランダム)にサンプルを抽出する(リサンプリング)、という記事。そしてそのレスポンスとして…

💮もっと自然に完了通知

昨日書いた記事に対して、ナイスなコメントをいただいた。 時間かかる処理でフックと組み合わせると良さそうhttp://t.co/CmPaUNqyXi— sinhrks (@sinhrks) September 22, 2015 これができるようになれば、いちいち通知用の関数を記述しなくても通知が飛ぶよう…

💮今日の作業を可視化する: Macのログをごにょる

R Mac

大変面白い記事を見つけた。 qiita.com 管理願望の強い私は、さっそく試してみようと思ったのだけど、なにせGo言語について知識がなかったので挫折した。 というわけでパートナーであるRを使って同様のことを行ってみる。もちろん肝心の可視化もやる。 これ…

💮ついに念願の「knitrで生成したPDF上で絵文字を出力する」ことに成功したぞ

進捗です。Rmarkdown (PDF)内にemoji ㊗ pic.twitter.com/geMjfSO8ip— \x48\x65\x6c\x6c\x6f (@u_ribo) August 28, 2015 そういえば我々はRで絵文字を扱うことに情熱を燃やしていた時期があった(2月14日になにしてるんだ、と今思った)。 ```{r , eval=FAL…

☠webスクレイピングする際にページ番号をさくっと把握したい人生だった

前回の記事でも書いたが、webスクレイピングを行う際に、取得したいデータが複数のページに分割されて(いわゆるpagination)表示されていることがしばしばある。 対象のページがどれくらいあるのかを把握しておくと便利だよなと思ったので、paginationが行…

💮RSSっぽいものを自作してIFTTTに通知を飛ばす

日々のあれこれを記録しておきたい性分なせいもあって、最近IFTTTを活用しまくっている。基本的には、各種のサービスをIFTTTを経由してEvernoteに記録する、という過程をとっている。twitterの一日のつぶやきとか、YouTubeのお気に入りなんかをEvernoteに記…

💮Slack上で行われた投票の開票

Slackでは絵文字を使ってチームメンバーどうしで意見を伝え合うシステムがある。 722 ways to say “I got your message” | Several People Are Typing これはいいね とか良くないね とか気持ちを表現したり、メンバーに対して意見を求める際に投票してもら…

💮StackoverflowやGitHubに書かれているコードを手元で検証する

最近、ggplot2逆引きプロジェクトが熱い。これは、プログラミン関係のお悩み相談所として有名なStackoverflowに寄せられるRの作図パッケージ{ggplot2}に関する質問を翻訳して整理しようという企画。 それをきっかけに、Stackoverflowを定期的に覗くようにな…

🍭Rでランダムな文字列や数値を生成する

そんなパッケージや関数を調べてみた。 ランダマイゼーションの手法については闇の深さを感じるので、細かいことや背景の処理はそんなに気にしない。とりあえずランダムっぽく生成してくれれば良い、というゆるふわ系記事。

🔰データフレームのオブジェクト名はどう決めていますか?

Rで何らかの解析作業をおこなうとき、データフレームクラスのオブジェクトを使うことが多いと思う。その際、どういう名称のオブジェクトを作っているのか。自分はdf派だが、パイセンがdatにしていたり先日slack上で見た @hoxo_m さんのコードでもdatが使われ…

🔰文字化けこわい、こわくない?

R

繧ゅb縺�m繧ッ繝ュ繝シ繝舌�Z縲豕」縺�※繧ゅ>縺�s縺繧縲阪Α繝・繝シ繧ク繝�け繝薙ョ繧ェ 逶」逹」�壻ス蝉ケ�俣邏菴ウ with 繧ェ繧ォ繝問�繝悶Λ繧カ繝シ繧コ 菴懆ゥ橸シ丈ス懈峇�壻クュ蟲カ縺ソ繧�″ 邱ィ譖イ...— \x48\x65\x6c\x6c\x6f (@u_ribo) July 20, 2015 Rで解析していると文…

📦seerパッケージでCRANに登録されているパッケージを探す

Rはパッケージを導入することでさまざまな用途に使用できるようになる。世の中には多種多様なパッケージが存在し、これらのパッケージを管理するCRAN (Comprehensive R Archive Network for the R programming language) において、今月12日に登録されたパッ…