cucumber flesh

Rを中心としたデータ分析・統計解析らへんの話題をしていくだけ

R

日本語プロットの文字化けストレスを低減する - RStudio v1.4とraggパッケージを使う

RStudio v1.4とraggパッケージの登場でRStudio上で日本語の作図が面倒な指定不要で行えるようになりました。記事中で紹介する方法をとれば、RStudioのPlotsパネルに出力する図が文字化けしなくなります。RStudioユーザで日本語での作図を行う方にはぜひ知っ…

郵便番号データの操作と祝日判定の機能を追加したzipangu v0.2.0を公開

昨年バージョン0.1.0をリリースした、日本人が扱う住所や年号、漢数字のデータ操作を楽にするRパッケージ、{zipangu}に新しい機能を追加し、バージョン0.2.0としてCRANに登録しました。この記事では0.2.0で扱える新機能を紹介します。表題の通り、郵便番号デ…

郵便番号データをtidyにする挑戦

日本人が頻繁に遭遇するデータ操作を効率的に行うための{zipangu}パッケージ、想定よりも多くの人が喜んでくれたようで、私としても嬉しく思っています。 はてなブログに投稿しました #はてなブログ住所や年号、漢数字のデータ操作を楽にするRパッケージをCR…

ハドリーに倣い、コンソールにブランチ名を表示&フォントを変える

何事も形から入るタイプの @u_ribo です。ネットストーキングに定評があります。 皆さんには憧れの人はいますか? 憧れの人が使っているものは、なぜか格好良く見えたり、自分も興味を抱くようになった経験はないでしょうか。 さて、憧れの人であるHadleyが…

標準的な公共交通機関の情報形式 GTFS をRで処理する: gtfsrouter編

この記事はRアドベントカレンダー2019の5日目の投稿です。昨日は id:ando_Roid さんの投稿でした。 はじめに 今回で4回目となる「東京公共交通オープンデータチャレンジ」の応募が始まりました。これは公共交通オープンデータやその他のオープンデータを活用…

住所や年号、漢数字のデータ操作を楽にするRパッケージをCRANに登録しました

副題「失われた『Nippon』を求めて」(仰々しい)。 Kajikazawa in Kai Province (Koshu Kajikazawa), from the series “Thirty-six Views of Mount Fuji (Fugaku sanjurokkei)”, 1825–1838 by Katsushika Hokusai. Image via Art Institute of Chicago Nipp…

RパッケージをGitHubからインストールする場合はPersonal Access Tokenを取得・設定しておきましょう

RのパッケージはCRANやBioconductorといったリポジトリに加えて、GitHubやGitLab、Bitbucketといった分散型Gitリポジトリサービス(リモートリポジトリ)からインストールすることが可能です。リモートリポジトリには開発版のものや、CRAN等に公開されていな…

名前空間の衝突をconflictedパッケージで防ぐ

R

要約 パッケージを複数利用すると関数名等の衝突が発生し、意図しない振る舞いを取ることがある conflictedパッケージは、こうした衝突を防ぐための機能を提供する 多少の手間を惜しんでも、衝突の恐れのある関数については名前空間を指定することを勧める

質問お待ちしております!できればreprex使ってね 😸

最近、チームで分析プロジェクトを進行していることもあり、人のコードをみてコメントしたり、自分もみてもらう、というやりとりが増えてきました。メンバーの中で私は、どちらかといえば「R言語チョットデキル」人間で、時々発生するトラブルや質問について…

macOS (High Sierra)で利用しているRからタイムゾーンの警告がでる件とその対策

タイトルの通り、macOSを使っている皆さん、こんな警告を見たことはないだろうか。 lubridate::today() # [1] "2017-11-30" Warning message: In as.POSIXlt.POSIXct(x) : unknown timezone 'zone/tz/2017c.1.0/zoneinfo/Asia/Tokyo' なにやらタイムゾーンで…

自分のRパッケージページにORCIDを表示させる

Rのパッケージについて、CRANでその情報を見る際、Authorの欄にORCIDを埋め込めるという話。 RのパッケージはAuthor欄にORCIDを埋め込めるって知ってました? 例:https://t.co/mDCdLxJZOw — Hiroaki Yutani (@yutannihilation) November 16, 2017 これにつ…

Rラジオをやってみての感想

R

先日、年始に立てた目標の一つである「Rラジオ」をやることができた。自分一人では成り立たなくて、ゲストとして id:yutannihilation さんに参加してもらった。感謝しかない。謝謝(収録後に坦々麺を食べに言った)。 uribo.hatenablog.com 口で喋るのは難し…

estatapiパッケージで読み込めないデータの取得を諦めない

先日、estatapiパッケージを使って政府統計の総合窓口 e-statが提供する統計データの取得を行おうとしました。 library(tidyverse) library(estatapi) df.list <- estat_getDataCatalog(appId = Sys.getenv("ESTAT_TOKEN"), searchWord = "自然公園") df.tgt …

2017年のRとの付き合い方: 分析環境編

R

ギョームでRを使い始めてから一年経っていないのだけど、それなりにスタイルが確立してきた気がするし、新年なので、現状で理想的だと思われる分析環境を整理しておく。ちなみに私のギョームは主にデータの前処理や地理空間データのマッピング、簡易アプリケ…

Rの話をしよう(深く、緩く、熱く)

R

先日開催されたTokyo.R#58でこんな話をした。 Rについて話すラジオ、正しくはPodcastをやりたい。 それについて経緯と詳細を書いてみる。 背景 プログラミングやデータ分析なんかは、基本的に孤独な作業なのかもしれない。しかし時々自分のやったことの評価…

📘 R言語徹底解説(原著: Advanced R)を読んだ

前置き 有難いことに去年は著者や関係の方から何冊かの本(じゃんけん大会での獲得を含む)をいただいておきながら、ついったー上でしか報告(宣伝?)できていなかったので今年はブログにも書くことにする(みなさまからの献本、お待ちしております)。 今…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 8 説明したい変数は独立と言えるのか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われている目的変数の独立性について議論する。 uribo.hatenablog.com データ解析時における統計的手法の多くは、観測されたデータが他と独立であることを仮定している…

⚙API暮らし時代におけるRでの環境変数の管理

先週はセキュリティ関係の記事をよく見かけた...気がした。これとか。 qiita.com RでもウェブAPIを利用するパッケージが増えてきて( {RGA}, {slackr}, {twitteR}, {qiitar}などなど)、誰もがAPI暮らしを夢見ている。 そんなわけでAPI生活の質を高めるため…

🍭.Last.valueの話: 保存して欲しければまずは結果を見せな

Rでパイプ処理をしていると、「あ、今の結果をオブジェクトに保存しとけば良かった...。もう一回実行するのメンドクセ」、ということがしばしばある。 そんな時は直前の処理をやり直す必要はなくて、.Last.valueを使って対処することもできる。???。以下…

⭐️GitHub API(JSON)を叩いて学ぶRでのリスト操作とストーキング事情(2015年版)

R Advent Calendar 2015の二日目です。 昨日は表形式のデータをR上で扱いやすく、さらに可視化やモデリングの関数との相性が良いtidy形式なデータフレームについての話をしました。昨日が表形式なら、今日はRでのデータ形式として主要なもう一つの形式、リス…

⭐️手を動かしながら学ぶモダンなデータ操作とtidyなデータ(2015年版)

R Advent Calendar 2015の第一日目です。 今日はタイトルの通り、{dplyr}と{tidyr}パッケージを使ったデータの整形と集計処理について、実際のデータを交えながら紹介したいと思います(タイトルは流行りの本からとってきました。オマージュです)。 {dplyr}…

📦{tm}パッケージで日本語のPDFからテキストを抽出する

男なら誰しも一度は「俺に落とせない女はいない」、的なことを言ってみたいと思うわけですが、どうやらそんなセリフを言う機会がありそうもないので、「俺に落とせないデータはない」くらいにスケールダウンかつハッカー感を出していければと思います。 とい…

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか?

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われているゼロ過剰問題を取り扱っている。 uribo.hatenablog.com 離散値の整数かならるカウントデータの多くはポアソン分布に従うことが一般的である。しかし、ある生…

🍵MEEに掲載されたRパッケージのAdevent Calendarは実現可能なのか?

"Methods in Ecology and Evolution"(以下MEE)というジャーナルがあります。イギリス生態学会が刊行している生態学及び進化学系の学術誌で、ISIでの2014年の生態学分野におけるインパクトファクターの順位が9位(IF 6.554)であるそうです(すごい)。 こ…

⭐️expand.grid()とdata.frame()では水準の扱い方が異なる

ちょっとしたメモ。 2015-11-26 追記 @dichika さんが検証してくださいました。Rの組み込み関数のソースを見たい場合には https://github.com/wch/r-source が良いですね。参考になります。 d.hatena.ne.jp data.frame()では、変数内の大きさ(ベクトルの長…

💮住所から緯度と経度を取得したい: 札幌市の保育所データを例にして

今北海道が熱い!(昨日、今年の初雪を観測したらしいが) 北海道関連の記事をよく見かける。例えば、 wafdata.hatenablog.com 「北海道認可保育所一覧」オープンデータ来た!ご尽力くださった皆さまどうもありがとうございますm(_ _)m 嬉しい。 http://t.co…

🍭データフレームからランダムにデータを抽出したい

北のマエショリストこと(面識もない私が勝手に呼んでいる) id:WAFkw さんがこんな記事を書いていた。 wafdata.hatenablog.com 手持ちのテーブルから、無作為(ランダム)にサンプルを抽出する(リサンプリング)、という記事。そしてそのレスポンスとして…

💮もっと自然に完了通知

昨日書いた記事に対して、ナイスなコメントをいただいた。 時間かかる処理でフックと組み合わせると良さそうhttp://t.co/CmPaUNqyXi— sinhrks (@sinhrks) September 22, 2015 これができるようになれば、いちいち通知用の関数を記述しなくても通知が飛ぶよう…

💮今日の作業を可視化する: Macのログをごにょる

R Mac

大変面白い記事を見つけた。 qiita.com 管理願望の強い私は、さっそく試してみようと思ったのだけど、なにせGo言語について知識がなかったので挫折した。 というわけでパートナーであるRを使って同様のことを行ってみる。もちろん肝心の可視化もやる。 これ…

💮ついに念願の「knitrで生成したPDF上で絵文字を出力する」ことに成功したぞ

進捗です。Rmarkdown (PDF)内にemoji ㊗ pic.twitter.com/geMjfSO8ip— \x48\x65\x6c\x6c\x6f (@u_ribo) August 28, 2015 そういえば我々はRで絵文字を扱うことに情熱を燃やしていた時期があった(2月14日になにしてるんだ、と今思った)。 ```{r , eval=FAL…