helper.tenki module
requests-htmlでスクレイピング
requestsでスクレイピングできないページのスクレイピング
- requests-htmlのGitHub
- class helper.tenki.Tenki(target_value: TenkiValue | str = None, css_root: str = None, css_selectors: dict = None, attrs: dict = None)[ソース]
ベースクラス:
objectクローリングユーティリティ
指定のサイトを読み込み、指定のCSSセレクタ(css_selectors)と属性でクローリング(attrs)し、クローリング結果でTenkiValueを生成する
- tenki_value
TenkiValueオブジェクト
- Type:
- target_url
対象サイトのURL
- Type:
str
- css_root
スクレイピングルートCSSセレクタ
- Type:
str
- css_selectors
スクレイピングCSSセレクタ辞書
- Type:
dict
- attrs
スクレイピング属性辞書
- Type:
dict
- attrs: dict = None
- css_root: str = None
- css_selectors: dict = None
- load_text(load_path)[ソース]
独自フォーマットなファイルからデータを読み込む
- パラメータ:
load_path (str) -- ロードする独自フォーマットなファイルのパス
- 戻り値:
成功/失敗=True/False
- 戻り値の型:
bool
- request() bool[ソース]
target_urlに接続し、スクレイピングを実行してtenki_valueを更新する
- 戻り値:
成功, False: 失敗
- 戻り値の型:
True
- 例外:
RequestException -- リクエストエラーが発生した場合
- save_text(save_path)[ソース]
- データをファイルに、以下の独自フォーマットで保存する
処理対象サイトURL
ルートCSSセレクタ
CSSセレクタ
属性
タイトル
クローリング結果
- パラメータ:
save_path (str) -- セーブする独自フォーマットなファイルのパス
- 戻り値:
成功/失敗=True/False
- 戻り値の型:
bool
- target_url: str = None
- tenki_value: TenkiValue = None
- class helper.tenki.TenkiValue(target_url: str, css_root: str, css_selectors: dict, attrs: dict, title: str, forecasts: dict = <factory>, counters: dict = <factory>)[ソース]
ベースクラス:
objectクローリング値オブジェクト
- attrs: dict
- counters: dict
- css_root: str
- css_selectors: dict
- forecasts: dict
- target_url: str
- title: str