Personal tools
You are here: Home 清水川記 PythonでHTML解析 with BeautifulSoup
Document Actions

PythonでHTML解析 with BeautifulSoup

アクセス解析してみたところ、以前書いた pythonでHTML解析 のアクセス頻度がかなり高いことが分かったので、先日の Python Workshop 04 やPython合宿で紹介されていた BeautifulSoup でHTML解析するエントリを書いてみようかと思う。というかアクセス解析した時に大量のURLから各ページのタイトルを抜き出したくなって、試しに使ってみた。

>>> urls = [
... "/taka/blog/109",
... "/taka/blog/117",
... "/taka/blog/135",
... "/taka/blog/159",
... "/taka/blog/169",
... "/taka/blog/171",
... "/taka/blog/176",
... "/taka/blog/209",
... "/taka/blog/223",
... "/taka/blog/226",
... ]
>>> import urllib
>>> base = 'http://www.freia.jp'
>>> datas = [urllib.urlopen(base+x) for  x in urls]
>>> datas = [x.read() for x in datas]
>>> from BeautifulSoup import BeautifulSoup
>>> BS = BeautifulSoup
>>> datas2 = [BS(x).title.string.split()[0] for x in datas]
>>> for id,title in zip(urls,datas2):
...   print id,',',title
...
/taka/blog/109 , PloneのユーザーとグループをLDAPで管理する
/taka/blog/117 , CSSoverflowプロパティー
/taka/blog/135 , PSX(DESR-7500)のバグ、D端子ケーブルが届いた
/taka/blog/159 , FreeBSDのバックアップ
/taka/blog/169 , pythonHTML解析
/taka/blog/171 , vpopmail
/taka/blog/176 , YetiSportsおもしろすぎ
/taka/blog/209 , Drag
/taka/blog/223 , 新大久保の餃子「味むら」
/taka/blog/226 , Apacheの認証をLDAPActiveDirectoryに問い合わせ

と っ て も ら く ち ん だ!

なんと言っても、 BeautifulSoup.py 1ファイルで済むのが手軽で良いね。site-packagesに置いとこ。

Add comment

You can add a comment by filling out the form below. Plain text formatting.

(Required)
(Required)
(Required)

« July 2010 »
Mo Tu We Th Fr Sa Su
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
About this blog
Zope, Python, FreeBSD, その他色々について。つまり日記か。
Categories
Agile(XP) (0)
Event (10)
Pattern (0)
その他 (10)
Zope (11)
Memo (0)
(3)
python (17)
Programming (0)
Game (0)
OO (0)
Unix (0)
WZ (0)
work (0)
Plone (11)
Windows (1)
IT-PC (4)
自転車 (0)
TurboGears (0)
ダーツ (0)
JavaScript (0)
旅行 (0)
Web (3)
セキュリティー (1)
Django (0)
LDAP (0)
データベース (0)
vi/vim/gvim (0)
C/C++ (0)
ボドゲ (0)
RoR (2)
pyspa (1)
スタトレ (0)