MENU
  • コミュニティマネジメントを学ぶコミュニティ
  • 運営会社
コミュニティを学ぶコミュニティを紹介
COMUMAG
  • コミュニティマネジメントを学ぶコミュニティ
  • 運営会社
COMUMAG
  • コミュニティマネジメントを学ぶコミュニティ
  • 運営会社

UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!

2021 11/24
RPACommunity コミュニティレポート
2021-06-292021-11-24
  1. ホーム
  2. RPACommunity
  3. UiPath Talk~基本技!スクレイピングをシッカリ学ぶ!

今回は、RPACommunityで開催したUiPath Talk のレポートをお届けします。

目次

目次

  • 目次
  • はじめに
    • UiPath Talk 概要
  • データスクレイピングとは
  • 操作!データスクレイピング
  • まとめ
    • 最後はオンライン集合写真
    • イラレコ
    • イベント当日のツイートまとめ
    • YouTube

目次

  • はじめに
  • データスクレイピングとは
  • 操作!データスクレイピング
  • まとめ

はじめに

UiPath Talk 概要

UiPath Talkは、2021年5月28日(金)にオンラインで開催。 今回は「データスクレイピング」について、UiPath Japan MVP のはなっち!さんにお話していただきました。

https://twitter.com/trendlife200705/status/1398232515614179331?s=20

データスクレイピングとは

UiPath0528_はなっちUiPath Japan MVP 2020 はなっち!さん

データスクレイピングとは何か?
ウェブサイトから情報を抽出するソフトウェア技術のことです。ウェブクローラーやウェブスパイダーとも呼ばれています。簡単にいうと「ウェブからいろんな情報がとれます」ということです。
例えば、Amazonから使っている商品の情報が取れるとか、Yahooファイナンス上の株価データが取れるとか、図書館の蔵書の情報が取れるとか、、、ザクザク情報が取れます。
こういったことが、データスクレイピング、ウェブスクレイピングで実現することができます。

人が検索した情報よりも、スクレイピングをロボットでやることで簡単にデータが取れます。ロボットを動かせば勝手に動いてくれるので、24時間休まずに情報が取れます。これはRPAの特徴でありメリットでもあります。
例えば、1時間ごとに手作業で、ここをコピーして・・・とやるよりは、ロボットにこれやってと指示しておけば情報も正確です。人が5分かかってデータ取るところを、1分間隔でやれば単純に5倍です。

UiPath0528_発表1正確に取れるからこそ取得したデータにバグがあったり、間違いがあったという時に、例えば、株価情報だったら損失が発生してしまい、訴訟問題に発展する場合があるのではないかと考えます。

サーバーへの負荷や人手の格差というところで、こういったケースが起こりうる可能性もあり、利用規約上ロボットで情報収集を禁止しているサイトがあります。
ですから、基本的には利用規約を見ることが重要です。ページ内検索かけて「自動」「ボット」「スクレイピング」という文字列で検索してみると大抵は見つかります。何が禁止されているのか、ちゃんと文章を読んでみましょう。

無視してやってしまう人もいると思いますが、それが故意じゃなくても事件になったケースもありました。岡崎市の私立中央図書館事件で、2010年3月頃に利用者が逮捕されてしまいました。
Librahack事件とも言われ、逮捕された人は取り調べを受けています。このように事件に発展することもあるので気をつけてください。

まとめ
スクレイピングがダメと書かれていないサイトを対象にしましょう。

UiPath0528_発表2

操作!データスクレイピング

実際のスクレイピングはどうやってやるのか。UiPathでどうやるのかは、このようなフローになっています!

UiPath0528_発表3

抽出する第1要素、第2要素を選ぶ、というようにどの範囲かを選んだり、何件か?複数ページあるか?というような指定をしていきます。

UiPathでデータスクレイピングをするには、「アクティビティ」の機能を使うのが一番楽です。
抽出ウィザードが出てきたら「値を選択」し、必要事項を入れて進んでいきます。表形式のデータは表全体からデータを取れるので、「どうしますか」というポップアップで「はい」を選択するとデータが全て取れるようなモードになってくれます。
このように全体の表もとれるような親切設計もされているので、活用してみてください。

データスクレイピングは何をターゲットにしているかというと、http言語です。tableで括られた一連のタグで表現された表、これを対象にデータスクレイピングしていきます。これがキーワードとなって、UiPathのデータスクレイピングが解析して表を作ってくれます。

またデータにリンクがついているケースもあります。先ほどのやり方だとリンク情報は取得されません。取得するには、ハイパーリンクの入った文字列の部分を指定することです。表のセル部分を指定するとURLの取得はできません。
UiPath側ではハイパーリンクの入った文字列を指定した上で「テキストを取得」「URLを取得」のボックスにチェックを入れることでリンクの情報も取れるようになります。

次に何件のデータを取得するのかを指定することができます。膨大なデータの場合、予想がつかないので「0(ゼロ)」にしておきます。ゼロ以外の数字にするとその件数分だけのデータだけを取得します。「0(ゼロ)」にしておくと、そのページに関する全てのデータを取得してくれます。

操作の詳細はスライドをご覧ください。

まとめ

最後はオンライン集合写真

UiPath0528_集合写真RPACommunity Automation Anywhere Talk vol.5集合写真

ご参加いただいた皆さんありがとうございました!

イラレコ

イラレコ支部 ひぐっちゃんさんのイラレコです。

UiPath0528_イラレコ

イベント当日のツイートまとめ

https://togetter.com/li/1722960

YouTube

RPACommunityのYouTubeチャンネルではイベント動画も閲覧できます。QAタイムは文字起こしをして、より見やすい動画となっています。イベント動画は随時アップしていきますので、チャンネル登録 もよろしくお願いします。

ライター Julia 編集 Mitz

Julia

 

 

comumag

株式会社コミュカルが運営するコミュニティ・イベントマガジンです。
色々なコミュニティの魅力やイベントのレポートを届けていきます。

RPACommunity コミュニティレポート
RPACommunity RPALT UiPath
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
  • Power Automateを使おう!実務に役立つアプリを実演で作成!RPALT
  • RPA勉強会!WinActor Talk~マイクロソフト・Googleサービス連携&管理ツール紹介~

この記事を書いた人

comumagのアバター comumag

株式会社コミュカルが運営するコミュニティ・イベントマガジンです。
色々なコミュニティの魅力やイベントのレポートを届けていきます。

関連記事

  • AppSheet 202206
    Google AppSheet でタスク管理アプリをサクッとライブ作成〈RPALT レポート〉
    2022-09-21
  • 20220624_connpass
    「例のホームページ」を使ったフレーム選択や WinActor で使えるテクニックをご紹介〈RPALT レポート〉
    2022-09-21
  • 220613_connpass
    新卒女子からベテラン勢まで!コミュニティ運営に関わる人々が知見を共有する勉強会 〈開催レポート〉
    2022-08-04
  • PowerAutomate20220607_connpass 202206
    セレクターを使いこなそう!Power Automate for desktop 6月の最新情報もお届け!〈RPALT レポート〉
    2022-08-03
  • 220603_connpass
    2022年6月最新!WinActor ver.7.4 発表!開発ベンダーから最速で説明!〈RPALT レポート〉
    2022-07-26
  • 220523_connpass
    「”ブレスト”の自動化」や「バックオフィスの超便利ツール」など IT を活用した効率化をご紹介!〈RPALT レポート〉
    2022-07-03
  • 220531_connpass
    Power Apps と Power Automate を使って「社外」から「社内システム」を操作!〈RPALT レポート〉
    2022-07-02
  • 220514_conpass
    成果は数字で語り、対抗勢力も味方に!好評につき DXプロジェクトの停滞脱出方法第2弾〈RPALT レポート〉
    2022-06-27

コメント

コメントする コメントをキャンセル

© COMUMAG.

目次