☠webスクレイピングする際にページ番号をさくっと把握したい人生だった

前回の記事でも書いたが、webスクレイピングを行う際に、取得したいデータが複数のページに分割されて（いわゆるpagination）表示されていることがしばしばある。

対象のページがどれくらいあるのかを把握しておくと便利だよなと思ったので、paginationが行われているURLの（最大）ページ番号を取得するコードを書いてみた。例によってgistに置いてある。

{xml2}と{rvest}に大きく依存しており、xpathを指定する必要がある。paginationのクエリーとしてpage=が既定値として与えてあるが、そうでない場合はpath引数で指定する。数字だけならNULLにする。

devtools::source_gist("https://gist.github.com/uribo/6fda003fb35ab03f64f4")

実行結果。上手くいっているものと失敗しているものがある。失敗している理由については最後に書く。

# 成功
pagination("https://github.com/Rdatatable/data.table/issues",
           xpath = '//*[@id="js-repo-pjax-container"]/div/div/div/a',
           page = NULL)

## [1] 14

# 失敗
pagination(x = "http://www.slideshare.net/search/slideshow?searchfrom=header&q=data",
           xpath = '//*[@id="pagekey-slideshare_desktop_other"]/div/div/div/div/div/div/div/ul/li/a')

## [1] 9

pagination(x = "https://www.youtube.com/results?search_query=じょしらく",
          xpath = '//*[@id="content"]/div/div/div/div/div/div/div/a')

## [1] 7

pagination("http://eiga.com/now/",
           xpath = '//*[@id="now_movies"]/div[21]/div/a',
           page = NULL)

## [1] 10

pagination("http://www.amazon.co.jp/s/field-keywords=シドニアの騎士",
           xpath = '//*[@id="pagn"]/span/a',
           page = "pg_")

## [1] 3

pagination("http://www.jalan.net/gourmet/cit_104210000/?afCd=&rootCd=&screenId=OUW2203",
           xpath = '//*[@id="rankList"]/div/p/a',
           page = "page_")

## [1] 2

pagination("http://tabelog.com/rstLst/?vs=1&sa=&sk=%25E3%2583%25A9%25E3%2583%2586%25E3%2582%25A2%25E3%2583%25BC%25E3%2583%2588&lid=top_navi1&svd=20150920&svt=2330&svps=2&hfc=1&sw=%25E3%2583%25A9%25E3%2583%2586%25E3%2582%25A2%25E3%2583%25BC%25E3%2583%2588",
           xpath = '//*[@id="main-contents"]/div/div/span/a',
           page = NULL)