仕事の目的
- プロキシサーバーを使用してサイトを解析します。
- データをCSV形式で保存します。
- 見つかったデータの検索エンジンを作成しています。
- インターフェイスを構築します。

Pythonプログラミング言語を使用します。 データをダウンロードするサイトは
www.weblancer.net (このサイトの古いバージョンの解析は
ここに投稿され
ました )で、
www.weblancer.net / jobsで求人があります。 それからデータを受け取ります-これは、名前、価格、アプリケーションの数、カテゴリ、提案された仕事の簡単な説明です。
プロキシを使用してログインするとは、偽のアドレスでサイトにログインすることを意味します。 IPアドレスによる禁止保護のあるサイトの解析に役立ちます(つまり、頻繁に短期間にサイトにアクセスする場合)。
モジュールのインポート
直接解析のためのモジュール:リクエストとBeautifulSoup、それらは十分にあります。 データをcsv形式で保存するには、同じ名前のモジュールcsvが役立ちます。 tkinterモジュール(より良いインターフェイスを取得したいので、
pyQt5モジュールを使用することをお勧めします)は、インターフェイスの操作に役立ちます。 データの取得および置換作業は、reモジュールによって実行されます。
import requests
変数
以前に使用したプロキシと2つのテキスト変数を格納する配列を作成し、サイトアドレスを最初のものと同等にし、2番目のものをグローバルとして宣言します(グローバル変数を使用するとプログラムのパフォーマンスに悪影響を与える可能性がある、
ここでの使用について詳しく説明し
ます )関数でデータを受け取ります。
global proxy1
tkinterの変数:
root = Tk()
Variable.grid(行、列)-表示ウィンドウ内の要素の位置を決定します。 バインド-キーストローク。 次のコードは、プログラムの最後に配置されます。
btn1.bind('<Button-1>', main)
主な機能
まず、メイン関数を作成します(プロシージャではなく関数なのはなぜですか?将来、バインド(キーストローク)で実行する必要があります。これは関数を使用する方が簡単です)。後で他の関数を追加します。 私たちに役立つ手順:
- config-ウィジェット要素に変更を加えます。 たとえば、ラベルウィジェットのテキストを置き換えます。
- update-ウィジェットの更新に使用されます。 問題が発生します-ウィジェットはループが完了した後にのみ変更されます。更新により、サイクルパスごとにウィジェットのコンテンツを更新できます。
- re.sub(パターン、可変文字列、文字列)-文字列内のパターンを検索し、指定された部分文字列で置き換えます。 パターンが見つからない場合、文字列は変更されません。
- get-http-requestを作成します(「200」の場合)-サイトへの入り口は成功しました。
- content-HTMLコードを取得できます。
- L.extend(K)-リストLを拡張し、リストKのすべての要素を最後に追加します
def main(event):
サイトページのカウント
URLを取得する関数を作成します。
def get_html(url):
urlを使用して、すべてのページを探しています。
def get_page_count(html):
受信プロキシ
コードの一部は
Igor Danilovから取られました。
__init __(self) -クラスのコンストラクターを使用します。ここで、selfは、作成時にオブジェクトが置き換えられる要素です。 重要! __init__両側に2つのアンダースコア。
class Proxy:
ページの解析
これで、サイトの各ページに必要なデータが見つかりました。 新しい治療法:
- find_all-ページのhtmlコード内で、ブロック内のブロックと要素を検索します。
- テキスト-サイトに表示されるテキストのみをHTMLコードから受信します。
- L.append(K)-リストLの末尾にK要素を追加します。
def parse(html,parsing):
クリーニング機能
必要な削除手順は、指定された識別子またはタグでオブジェクトを削除することだけです。
def delete(event):
データ検索
この関数は、必要な単語が記載されている説明の文を検索します。 このフィールドは、正規表現の知識を考慮して記述する必要があります(たとえば、python | Python、C \ + \ +)。
- csv.DictReader-コンストラクターは読み取り用のイテレーターオブジェクトを返します
ファイルからのデータ。 - split-セパレーターを使用して文字列をパーツに分割し、これらのパーツをリストで返します。
- join-リストを文字列に変換し、各要素を文字列として扱います。
- 挿入-インデックスによってリストにアイテムを追加します。
def poisk(event):
データ保存
既に述べたように、データをcsv形式で保存します。 必要に応じて、関数を他の形式に書き換えることができます。
def save(projects, path):
この情報があなたの仕事に役立つことを願っています。 がんばって。