WebページのHTMLやWebのコンテンツを取得する - WebClient を利用
C#のアプリからWebのHTMLを取得するコードを紹介します。
概要
アプリからWebのHTMLやコンテンツを取得するには、WebClientを用いると簡単に実現できます。
補足
レスポンスヘッダやリファラCookie等を用いた行動な制御が必要な場合はHttpWebRequestを用います。HttpWebRequestを用いたWebファイルの取得は
こちらの記事を参照してください。
プログラムj玲
WindowsFormアプリを作成します。
UI
下図のUIを作成します。ButtonとTextBoxを1つずつ配置します。TextBoxはMultiLinesプロパティをtrueに設定します。
コード
下記のコードを記述します。
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using System.Net;
namespace HttpConnectionDemo
{
public partial class FormHttpWebClient : Form
{
public FormHttpWebClient()
{
InitializeComponent();
}
private void button1_Click(object sender, EventArgs e)
{
WebClient wc = new WebClient();
try {
string text = wc.DownloadString("http://www.ipentec.com");
textBox1.Text += text;
}
catch (WebException exc) {
textBox1.Text += exc.Message;
}
}
}
}
解説
下記のコードで httpでファイルを取得するためのWebClientクラスのインスタンスを作成します。
WebClient wc = new WebClient();
先のコードで作成したWebClientインスタンスのDownloadString()メソッドを呼び出しWebサイトからコンテンツ(HTML)を取得します。DownloadString()メソッドの第一引数にはアクセス先のURLを与えます。取得したコンテンツはDownloadString()メソッドの戻り値として取得できます。
string text = wc.DownloadString("http://www.ipentec.com");
実行結果
プロジェクトを実行します。下図のウィンドウが表示されます。[Get]ボタンをクリックします。
[Get]ボタンをクリックするとWebサイトにアクセスし、HTMLを取得します。取得したHTMLの内容がテキストボックスに表示されます。
スクロールしてコンテンツの内容を確認します。文字化けしていることが確認できます。これはUTF-8でエンコーディングされているHTMLをアプリ側でUnicodeとして扱っているためです。
次節で文字化けしないためのエンコーディング指定について紹介します。
WebClientのエンコーディングの指定 - WebClientで取得した文字列の文字化けを防ぐ
先のコードでは取得したHTMLファイルのテキスト場文字化けしました。これはHTMLファイルがUTF-8でエンコードされているのに対し、C#内部では文字列をUnicodeとして扱っているためです。正しく表示させるためには、WebClientでダウンロードする文字列のEncodingを指定します。
コード
button1_clickのコードを以下に変更します。
private void button1_Click(object sender, EventArgs e)
{
WebClient wc = new WebClient();
try {
wc.Encoding = Encoding.UTF8; //追加
string text = wc.DownloadString("http://www.ipentec.com");
textBox1.Text += text;
}
catch (WebException exc) {
textBox1.Text += exc.Message;
}
}
解説
下記のコードを追加します。このコードによりダウンロードするHTMLファイルはUTF-8でエンコードされていることをWebClientに設定します。ファイルがダウンロードされるとWebClientはテキストをUTF-8からUnicodeへ変換します。
wc.Encoding = Encoding.UTF8;
実行結果
アプリケーションを実行し、[Get]ボタンをクリックします。文字化けされずに表示されました。
著者
iPentecのメインプログラマー
C#, ASP.NET の開発がメイン、少し前まではDelphiを愛用