2011年11月28日月曜日

Titaniumで普通のHTMLをスクレイピングする

YQLで「select * from html where url='http://...' and xpath='//....'」
でスクレイピングする方法があるが、対象サイトがxhtml準拠でないとエラーになってしまう。

そこで、Titanium.Network.HTTPClientでhtmlを取得すると、対象サイトがShift_JISの場合に
取得した文字列(responseText)が文字化けする。
※Androidの場合、responseXmlはnullになる。


ということで、対策。
http://d.hatena.ne.jp/hirata_yasuyuki/20110818/titanium_scraping

0 件のコメント:

コメントを投稿