Tag : Web

Web上から画像を収集(スクレイピング)するスクリプトを書いた

投稿日: 2018年8月13日

機械学習などで画像を収集したいことがある。 学習用の画像は、買ったり、自分で撮影したり、公開されているデータセットを使ったり、インターネットから拾ってきたり、と様々な方法で入手可能である。 今回はインターネットから画像を拾ってくるスクリプトを書いたのでそれの記録を残す。 なお、ここで示すのスクリプトや規約は記事投稿時点での内容となっている。そこからWebサイトの仕様や規約が変わっていなければそのまま使えるはずである。(仕様は結構変わるのでその都度変更が必要になる。) 概要 画像検索サービスにはGoogle, Bing, Twitterなど様々なものがあるが、規約的にだめだったり、検索ページがJ…(続く)

[HTML]複数のドロップダウンリストで重複を許さず(ユニーク)に選択してもらう

投稿日: 2018年8月12日

HTMLのセレクトボックス(selectタグで作れるやつ; ドロップダウンリスト, スピナーなどとも呼ばれる)で同じ候補から順位をつけて選択してほしいときとかにセレクトボックスの中身を共有し、一つ選んだら別のセレクトボックスではその項目を選べないようにしたい。 背景 例えば、HTML+PHPで旅行の日程と行き先の希望を取るアンケートを作成する事を考える。 行き先は北海道・東北・中部・近畿・四国・九州から第一から第三希望、出発日を8/11~8/15から第一希望と第二希望選んでもらうとする。 その場合、一番愚直に書いたHTMLは以下のようになるだろう。 [crayon-5bcd2de928aee3…(続く)

Nokogiriを使ってWebページから情報を取得する

投稿日: 2018年7月22日

RubyのNokogiri(gem)を使って特定のWebページから特定の情報を抜き出す。 今回は乃木坂46公式サイトから本日のテレビとラジオとWEBの出演情報を取得する例を書く。 具体的にはトップページの下の図の赤い枠で囲ったスケジュールのWEB, RADIO, TVと書かれた情報を抜き出して表示する(青い枠で囲った部分にも同じようにメティア出演情報が載っており、どちらでもよいが今回は赤い枠の方を抜き出す)。 準備 まずはgem install nokogiriでNokogiriをインストール。 次に抜き出す情報のCSSのクラス名を調べる。 ブラウザのWeb開発ツールを用いるのが簡単である。 …(続く)

[Ruby] open-uriでのプロキシやユーザーエージェント(UA)の設定方法

投稿日: 2018年7月18日

Rubyのgem「open-uri」でプロキシ(proxy)やユーザーエージェント(user-agent: UA)の設定をしてhttpにアクセスしたいときの使い方のメモ。 プロキシを設定する URI::readやopenを使う場合は、proxyキーワード引数にプロキシサーバーのURIを渡す。 プロキシサーバーURIは「http://[user_name]:[password]@[address]:[port]」の形式で記述する。 例えば、プロキシサーバーのaddressがhttp://proxy.hoge, ユーザー名がfuga, パスワードがbarでポートが8080の場合は「http://f…(続く)

認証局がLet’s Encryptの証明書を更新しようとしたらエラーが出た

投稿日: 2018年3月2日

Let’s Encryptは無料でTLSの証明書を発行してくれる認証局である。 非常にありがたいのだが、発行される証明書の有効期限は90日しかない。 そこで、有効期限が近づいたら更新(sudo certbot renewコマンド)を行うのだが、そこで下のようなエラーが出た。 $ sudo certbot renew Saving debug log to *****************/letsencrypt.log ———————————&#82…(続く)