프로그래밍언어/VB.NET

[2]웹파싱? httprequest를 통해 html을 따와서 잘라내봅시다

부산딸랑이 2013. 2. 1. 12:26

html소스를 받아서 잘라내는 방법을 설명합니다.

순서는 아래와같습니다.

1. 홈페이지의 HTML소스를 받아온다.(WebRequest)
2. 받아온 HTML소스에서 특정 문자데이터를 잘라낼 "정규식" 을 만든다(Regex)
3. 정규식과 받아온 HTML소스를 비교해서 배열로 저장한다.(MatchCollection)
4. 비교해서 나온 정보를 출력한다.

두번째, 정규식만들기

정규식을 이용하면 긴 문장중에서 특정 데이터를 뽑아낼수 있습니다.

Fom1에 버튼클릭이벤트에 아래와같이 선언합니다

 Dim 정규식ID As New Regex("characters/(.*?)/profileImage", RegexOptions.IgnoreCase)


여기에서 눈여겨볼 부분은 "characters/(.*?)/profileImage" 이부분입니다.


간단히 설명을 드리면 "characters/" 와 "/profileImage" 사이에 존재하는 문자를 검색하는것입니다.
(ex. "characters/HANDSOMEBOY/profileImage" 라는 부분에서 HANDSOMEBOY만 걸러냅니다. 앞뒤에 저 단어를 포함하는것만검색합니다)
정규식에대한부분은 http://blog.daum.net/pootbar/12 에 좀더 찾아놨습니다.