Scene 3:

シーケンス - STEP1

STEP1: テストサイトに移動

クローリング対象は「テストサイト: 剣画面 1〜3ページ」です。

テストサイトの剣画面

URL
http://test.crawlbat.com/ja/item_list/sword
http://test.crawlbat.com/ja/item_list/sword?page=2
http://test.crawlbat.com/ja/item_list/sword?page=3
COPY
上書き 変更
保存ボタン クリック

今回は、URLを変更してテストするので、上書きを「変更」にします。

入力したら「保存」ボタンを押して次のSTEPに進みます。

クローリングするURLを入力してください。

URLの複数入力について

「URL遷移のURL」に複数のURLを入力した場合、上のURLから順番にSTEPが繰り返し実行されます。

STEPが実際に実行する順番を「実行番号」といいます。今回の自動化は以下の順番でSTEP実行されます。

STEP実行の順番

実行番号 STEP アクション 内容
1 1 URL遷移 剣画面1ページ目に移動
2 2 クローリング 剣画面1ページ目のデータを取得
3 1 URL遷移 剣画面2ページ目に移動
4 2 クローリング 剣画面2ページ目のデータを取得
5 1 URL遷移 剣画面3ページ目に移動
6 2 クローリング 剣画面3ページ目のデータを取得
7 2 クローリング 剣画面1・2・3ページのデーターを合体(CL生データ)してクローリング処理

クローリング処理について

すべてのデータを取得した後に、データを合体して「CL生データ(クローリング生データ)」としてクローリング処理を行います。

クローリングのデータ取得

今回のSTEP実行では「実行番号 2・4・6」がデータ取得です。

「剣画面1ページ目のデータ」 + 「剣画面2ページ目のデータ」 + 「剣画面3ページ目のデータ」 を合体させて CL生データ を作ります。

実行番号 STEP アクション 内容
2 2 クローリング 剣画面1ページ目のデータを取得
4 2 クローリング 剣画面2ページ目のデータを取得
6 2 クローリング 剣画面3ページ目のデータを取得

クローリング処理

実行番号 STEP アクション 内容
7 2 クローリング 剣画面1・2・3ページのデーターを合体(CL生データ)してクローリング処理

クローリング処理の詳細は「マニュアル:クローリングの流れ」に記載されていますが、難しいので興味がある方のみご覧ください。

マニュアル:クローリングの流れ   (注:難しいです)

「全画面のデータを合体 = CL生データ」 は重要なので覚えておいてください。

全画面のデータを合体 = CL生データ

CL生データーの「生」ってなに?

「CL生データ」は全画面のデーターを合体させただけで、クローリング処理をおこなっていないため「生 (未加工)」がついています。

 ここから「機能: CL対象」でデーターの絞り込みをすると「生」がとれた「CLデーター」になります。

「機能: CL対象」はまだ覚える必要がないので、そういうものと思ってください。

ページの先頭へ