【悪用厳禁】Pythonのurllibライブラリの基本

（最終更新日：2023年6月）

✔このような方へ向けて書かれた記事となります

「Pythonのurllibってどんな機能があるのだろうか？」
「urllibを使ったPythonのコードの書き方が知りたい」
「urllibを活用した実際の実例を見てみたい」

✔当記事を通じてお伝えすること

Pythonのurllibの概要
urllibを使ったコードの書き方とその応用例
具体的なurllibを用いた実践例

この記事では、Pythonのurllibの基本概念から、そのオプションを駆使した応用例まで、具体的な実例に基づいて丁寧に解説していきます。

最後までお読みいただくことで、urllibを効果的に活用できるようになることでしょう。

筆者プロフィール

【現職】プロダクトマネージャー

【副業】ブログ（月間20万PV）/YouTube/Web・アプリ制作

「プログラミング × ライティング × 営業」の経験を活かし、30後半からのIT系職へシフト。現在はプロダクトマネージャーとして、さまざまな関係者の間に入り奮闘してます。当サイトでは、実際に手を動かせるWebアプリの開発を通じて、プログラミングはもちろん、IT職に必要な情報を提供していきます。

【当ブログで紹介しているサイト】

当サイトチュートリアルで作成したデモ版日報アプリ

Django × Reactで開発したツール系Webアプリ

✔人に見せても恥ずかしくないコードを書こう

「リーダブルコード」は、わかりやすく良いコードの定義を教えてくれる本です。

見るからにきれいなコードの書き方
コードの分割方法
変数や関数の命名規則

エンジニアのスタンダートとすべき基準を一から解説しています。

何回も読むのに値する本なので、ぜひ手にとって読んでみてください。

リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック

created by Rinker

¥2,640 (2024/07/26 14:34:16時点 Amazon調べ-詳細)

urllibの基本と使用方法

こちらでは、Pythonの標準ライブラリである「urllib」の基本についてお伝えしていきます。

urllibを利用することで、WebページやAPIとの通信が容易になります。

urllibとは？
urllibの主な機能
urllib.requestの利用
urllibの各機能における実例

urllibとは？

urllibはPythonの標準ライブラリの一部で、URLを扱うためのモジュールです。

このライブラリを使用することで、以下がおこなえます。

Webサーバーとの通信
Webページの情報取得
ファイルのダウンロード

urllibの機能と主な用途

urllibには、以下の機能が含まれています。

Webサーバーへのリクエスト送信
レスポンスの受け取り
URLの解析
エラーハンドリング

これらを利用することで、WebスクレイピングやAPIとのデータのやり取りが可能となります。

urllib.requestの利用

urllibライブラリ内のrequestモジュールにより、各機能が実装できます。

URLを開き、Webサーバーからデータを読み込むモジュールです。

以下のようにインポートして使いましょう。

import urllib.request

urllibの各機能における実例

urllibを使用したそれぞれの機能の例を示します。

Webサーバーへのリクエスト送信
レスポンスの受け取り
URLの解析
エラーハンドリング

Webサーバーへのリクエスト送信（urlopen）

import urllib.request

# URLを指定してリクエストを送信し、レスポンスを受け取る
response = urllib.request.urlopen("https://www.example.com")

# レスポンスの内容を表示する
print(response.read().decode())

レスポンスの受け取り

import urllib.request

# URLを指定してリクエストを送信し、レスポンスを受け取る
response = urllib.request.urlopen("https://www.example.com")

# レスポンスのステータスコードを表示する
print("ステータスコード:", response.status)

# レスポンスヘッダーを表示する
print("ヘッダー:", response.headers)

# レスポンスの内容を表示する
print("内容:", response.read().decode())

URLの解析（urlparse）

import urllib.parse

# URLを解析して、構成要素を取得する
url = "https://www.example.com/path/to/page?param1=value1&param2=value2"
parsed_url = urllib.parse.urlparse(url)

# 各要素を表示する
print("スキーム:", parsed_url.scheme)
print("ホスト:", parsed_url.netloc)
print("パス:", parsed_url.path)
print("クエリ:", parsed_url.query)
print("フラグメント:", parsed_url.fragment)

エラーハンドリング

import urllib.error

try:
    # 存在しないページにアクセスする
    response = urllib.request.urlopen("https://www.example.com/404")
except urllib.error.HTTPError as e:
    # HTTPエラーが発生した場合の処理
    print("HTTPエラーが発生しました:", e.code)
except urllib.error.URLError as e:
    # URLに関するエラーが発生した場合の処理
    print("URLエラーが発生しました:", e.reason)

URLから情報を取得する方法

こちらでは、URLからWebページの情報を取得する基本的な手法について解説します。

urllib.request.urlopen関数の基本
さまざまなオプションでURLをオープンする

urllib.request.urlopen関数の基本

urlopen関数は、指定されたURLを開き、データを読み込むために使用されます。

この関数を利用することで、HTTPまたはFTPのURLからデータを取得することができます。

import urllib.request

response = urllib.request.urlopen('http://example.com')
html = response.read().decode('utf-8')
print(html)

さまざまなオプションでURLをオープンする

urlopen関数は、さまざまなオプションを指定して、URLをカスタマイズして開くことができます。

たとえば、リクエストヘッダーをカスタマイズしたり、タイムアウトを設定したりすることができます。

import urllib.request

url = 'http://example.com'
headers = {'User-Agent': 'My User Agent'}
request = urllib.request.Request(url, headers=headers)

# タイムアウトを5秒に設定
response = urllib.request.urlopen(request, timeout=5)
html = response.read().decode('utf-8')
print(html)

GETとPOSTの違いと使い方

こちらでは、HTTPメソッドのGETとPOSTの違いと、それぞれの使い方を解説します。

GETリクエストの送信
POSTリクエストの送信

GETリクエストの送信

GETリクエストは、Webサーバーから情報を取得するために使用されます。

Webページにアクセスする際などは、GETメソッドが使われています。

GETは、URLにアクセスするだけでなく、パラメータを付加してリクエストを送ることも可能です。

import urllib.request

url = "http://example.com?param1=value1&param2=value2"
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
print(html)

POSTリクエストの送信

POSTリクエストは、データをWebサーバーに送信するために使用されます。

Webページ上のフォームを送るときなどに使われるのがPOSTリクエストです。

データはHTTPリクエストの本文内に含まれる仕組みです。

import urllib.request
import urllib.parse

url = "http://example.com"
data = {'param1': 'value1', 'param2': 'value2'}
encoded_data = urllib.parse.urlencode(data).encode('utf-8')

request = urllib.request.Request(url, data=encoded_data, method='POST')
response = urllib.request.urlopen(request)
html = response.read().decode('utf-8')
print(html)

Webページの情報取得と解析

こちらでは、Webページの情報を取得し、解析する方法について解説します。

HTMLファイルのダウンロード方法
Webページ内テキストやリンクの取得

HTMLファイルのダウンロード方法

HTMLファイルをダウンロードするには、urllibを使用してページの内容を取得し、ファイルに保存します。

import urllib.request

url = "http://example.com"
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

with open("example.html", "w") as file:
    file.write(html)

Webページ内テキストやリンクの取得

Webページ内のテキストやリンクを抽出するために、HTML解析ライブラリ（例: BeautifulSoup）と組み合わせることが一般的です。

import urllib.request
from bs4 import BeautifulSoup

url = "http://example.com"
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

soup = BeautifulSoup(html, 'html.parser')

# テキストの抽出
print(soup.get_text())

# リンクの抽出
for link in soup.find_all('a'):
    print(link.get('href'))

以下の手順で解析をしています。

urllibを使ってWebページのHTMLを取得
BeautifulSoupを使ってそのHTMLを解析

テキストやリンクを抽出する方法を示しています。

ファイルのダウンロードと保存

こちらでは、画像や音声などのファイルのダウンロードと、ダウンロードしたファイルを保存する方法について解説します。

画像や音声などのファイルダウンロード方法
ダウンロードしたファイルを保存する方法

画像や音声などのファイルダウンロード方法

urllibを使用して、画像や音声などのメディアファイルのダウンロードが可能です。

import urllib.request

url = "http://example.com/image.jpg"
urllib.request.urlretrieve(url, "local_image.jpg")

ダウンロードしたファイルを保存する方法

上記の例ではurlretrieve関数を使用してファイルをダウンロードし、ローカルに保存しています。

この関数はURLと保存先のファイルパスを引数として取ります。

実践的なWebスクレイピング例

こちらでは、実際のWebサイトからデータを取得し、解析する具体的な流れと、よくあるエラーとその対処法について解説します。

実際のWebサイトからデータを取得・解析する流れ
よくあるエラーと対処法

実際のWebサイトからデータを取得・解析する流れ

Webスクレイピングの実践的な例をご紹介します。

ニュースサイトから記事のタイトルを取得してみましょう。

import urllib.request
from bs4 import BeautifulSoup

url = "http://news.example.com"
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

soup = BeautifulSoup(html, 'html.parser')

# 記事のタイトルを抽出
for article in soup.find_all('h2', class_='article-title'):
print(article.get_text())

記事のタイトルが<h2>タグ内にあると仮定して、それを抽出して出力しています。