まだ厨二病

RとPyhtonを使ったデータ分析・統計解析らへんの話題をしていくだけ

formattable

⭐️PDFの情報・文章をRでごっそり取得する

便利なRパッケージを見つけたのでメモがてら紹介しておきます。以前、Rを使ってPDF上のテキストを取得するパッケージとして{tm}パッケージを紹介しましたが、同様の機能をもった{pdftools}は以下の特徴があります。 PDFがもつ各種の情報やテキストを取得でき…

🌱Google Cloud Vision API で生物の同定は可能?

機械学習ベースで画像認識・分類を行うGoogle Cloud Vision APIをR上で利用するコードをdichikaさんが書いてくれたので、それを使って手持ちの写真からいろいろな分類群の生物(主に植物)を同定することが可能なのかを検証してみたい。 d.hatena.ne.jp 植…

💮Moves + Rで行う行動データの可視化

私の趣味の一つにお気に入りユーザーのネットストーキングがあります。ネットストーキングをしている、というのを公言するとウケが良くないことは経験上明らかなので、ひとまず自分をストーキングしてみたい(というのを今年の目標の一つにしています)。今…

⭐️GitHub API(JSON)を叩いて学ぶRでのリスト操作とストーキング事情(2015年版)

R Advent Calendar 2015の二日目です。 昨日は表形式のデータをR上で扱いやすく、さらに可視化やモデリングの関数との相性が良いtidy形式なデータフレームについての話をしました。昨日が表形式なら、今日はRでのデータ形式として主要なもう一つの形式、リス…

📦{tm}パッケージで日本語のPDFからテキストを抽出する

男なら誰しも一度は「俺に落とせない女はいない」、的なことを言ってみたいと思うわけですが、どうやらそんなセリフを言う機会がありそうもないので、「俺に落とせないデータはない」くらいにスケールダウンかつハッカー感を出していければと思います。 とい…