今回は、RPACommunityで開催したUiPath Talk のレポートをお届けします。
目次
はじめに
UiPath Talk 概要
UiPath Talkは、2021年5月28日(金)にオンラインで開催。 今回は「データスクレイピング」について、UiPath Japan MVP のはなっち!さんにお話していただきました。
https://twitter.com/trendlife200705/status/1398232515614179331?s=20データスクレイピングとは
データスクレイピングとは何か?
ウェブサイトから情報を抽出するソフトウェア技術のことです。ウェブクローラーやウェブスパイダーとも呼ばれています。簡単にいうと「ウェブからいろんな情報がとれます」ということです。
例えば、Amazonから使っている商品の情報が取れるとか、Yahooファイナンス上の株価データが取れるとか、図書館の蔵書の情報が取れるとか、、、ザクザク情報が取れます。
こういったことが、データスクレイピング、ウェブスクレイピングで実現することができます。
人が検索した情報よりも、スクレイピングをロボットでやることで簡単にデータが取れます。ロボットを動かせば勝手に動いてくれるので、24時間休まずに情報が取れます。これはRPAの特徴でありメリットでもあります。
例えば、1時間ごとに手作業で、ここをコピーして・・・とやるよりは、ロボットにこれやってと指示しておけば情報も正確です。人が5分かかってデータ取るところを、1分間隔でやれば単純に5倍です。
正確に取れるからこそ取得したデータにバグがあったり、間違いがあったという時に、例えば、株価情報だったら損失が発生してしまい、訴訟問題に発展する場合があるのではないかと考えます。
サーバーへの負荷や人手の格差というところで、こういったケースが起こりうる可能性もあり、利用規約上ロボットで情報収集を禁止しているサイトがあります。
ですから、基本的には利用規約を見ることが重要です。ページ内検索かけて「自動」「ボット」「スクレイピング」という文字列で検索してみると大抵は見つかります。何が禁止されているのか、ちゃんと文章を読んでみましょう。
無視してやってしまう人もいると思いますが、それが故意じゃなくても事件になったケースもありました。岡崎市の私立中央図書館事件で、2010年3月頃に利用者が逮捕されてしまいました。
Librahack事件とも言われ、逮捕された人は取り調べを受けています。このように事件に発展することもあるので気をつけてください。
まとめ
スクレイピングがダメと書かれていないサイトを対象にしましょう。
操作!データスクレイピング
実際のスクレイピングはどうやってやるのか。UiPathでどうやるのかは、このようなフローになっています!
抽出する第1要素、第2要素を選ぶ、というようにどの範囲かを選んだり、何件か?複数ページあるか?というような指定をしていきます。
UiPathでデータスクレイピングをするには、「アクティビティ」の機能を使うのが一番楽です。
抽出ウィザードが出てきたら「値を選択」し、必要事項を入れて進んでいきます。表形式のデータは表全体からデータを取れるので、「どうしますか」というポップアップで「はい」を選択するとデータが全て取れるようなモードになってくれます。
このように全体の表もとれるような親切設計もされているので、活用してみてください。
データスクレイピングは何をターゲットにしているかというと、http言語です。tableで括られた一連のタグで表現された表、これを対象にデータスクレイピングしていきます。これがキーワードとなって、UiPathのデータスクレイピングが解析して表を作ってくれます。
またデータにリンクがついているケースもあります。先ほどのやり方だとリンク情報は取得されません。取得するには、ハイパーリンクの入った文字列の部分を指定することです。表のセル部分を指定するとURLの取得はできません。
UiPath側ではハイパーリンクの入った文字列を指定した上で「テキストを取得」「URLを取得」のボックスにチェックを入れることでリンクの情報も取れるようになります。
次に何件のデータを取得するのかを指定することができます。膨大なデータの場合、予想がつかないので「0(ゼロ)」にしておきます。ゼロ以外の数字にするとその件数分だけのデータだけを取得します。「0(ゼロ)」にしておくと、そのページに関する全てのデータを取得してくれます。
操作の詳細はスライドをご覧ください。
まとめ
最後はオンライン集合写真
RPACommunity Automation Anywhere Talk vol.5集合写真
ご参加いただいた皆さんありがとうございました!
イラレコ
イラレコ支部 ひぐっちゃんさんのイラレコです。
イベント当日のツイートまとめ
YouTube
RPACommunityのYouTubeチャンネルではイベント動画も閲覧できます。QAタイムは文字起こしをして、より見やすい動画となっています。イベント動画は随時アップしていきますので、チャンネル登録 もよろしくお願いします。
株式会社コミュカルが運営するコミュニティ・イベントマガジンです。
色々なコミュニティの魅力やイベントのレポートを届けていきます。
コメント