2008/02/17

[WAnts]使用說明

版本:0.3

更新日期:20080217

  1. 功能說明
  2. 進階說明
  3. 下載範例

功能說明

啟始網址

image

輸入要開始抓取的啟始網址,可輸入多行網址與使用{}方式。

[Top]

次頁關鍵

image

在啟始網頁與接下來的網頁中,使用連結來判斷下一頁的網址,可輸入多行與使用{}方式與*方式。

只需要輸入部份關鍵字串,即可使用。

如果空白則所有連結都會抓取。

image

當選取了不換頁,就不會抓取下一頁的連結。即次頁關鍵失效。

image

「建立資料夾」,使用次頁關鍵的第一筆網址,來當資料夾的名稱,常用來抓取討論區時,以每篇標題來分類,抓取的圖檔就會分在不同的資料夾中。如果需要抓取簡體論壇,就需要勾選「目錄簡轉繁」。

[Top]

下載關鍵

image image

網頁中的圖片連結判斷是否需要下載,可輸入多行與使用{}方式與*方式。

只需要輸入部份關鍵字串,即可使用。

如果空白則所有圖檔都會抓取。

圖檔長寬用來判斷圖檔長寬,大於等於設定值即下載。

目前支援 bmp、jpg、png、gif、psd,等5種。

[Top]

Cookie 使用

image

不使用Cookie

當抓取Yahoo漫畫時,如果開啟,下載會失敗。

<0.3之前版本因為預設使用,所以會下載失敗。>

Cookie

使用儲存在電腦中的Cookie資料,在登入網站或論壇時,通常會讓使用者選取Cookie的記錄時間,一般而言非「瀏覽器關閉」即失效的Cookie,就會存在電腦中。

Session Cookie

抓取IE瀏覽器的Cookie資料,使用時,請先用IE瀏覽器開啟要抓取的網址,並在抓取期間不能關閉。

[Top]

下載模式

image

文字模式

抓取網頁的HTML原始碼,判別連結和圖檔的網址,無法判別JavaScript產生的網址,速度較快,下載網頁內容同時判別網址。

網頁模式

使用IE瀏覽器開啟網址,抓取其中的網址連結和圖檔的連結,可視即可抓。速度較慢,因為要等網頁載入完畢。
目前只支援使用連結方式換頁,暫不支援使用按鈕等其他方式。

<程式中IE7 不支援 iFrame ,IE6可以 >

單網頁模式

由於在使用IE7時,同時開啟太多網址,會產生失敗訊息,使用單一網頁,可以減少失敗。

[Top]

Proxy模式

image

Host:Proxy網址 : ProxyPort

使用Proxy:勾選時使用Proxy

只在下載檔案使用:勾選後,文字模式下載網頁時不使用Proxy,下載檔案使用Proxy

以上 只適用於文字搜尋模式與下載檔案,網頁模式請自已設定IE瀏覽器。

[Top]

逾時設定

image

文字模式或下載檔案時超過逾時設定即會中斷下載,網頁模式會加長逾時設定。

[Top]

儲存網頁

只在文字模式時使用,方便取得網頁內容。

[Top]

進階說明

網址設定

{}模式

可使用{001-002} {a-z}{A-Z}

範例:

http://www.myweb.com.tw/{01-02}-{a-z}.html
會產生如下網址:

http://www.myweb.com.tw/01-a.html

http://www.myweb.com.tw/02-b.html

說明:

產生的網址數,由第一個{}產生的個數決定。

數字型態,可由數字的個數決定是否要填「0」

*模式

次頁關鍵與下載關鍵使用,當輸入如下

http://www.*.com.tw/01-*.html

以下網址都可成功

http://www.myweb.com.tw/01-abced.html

http://www.yourweb.com.tw/01-454645666.html

[Top]

INI格式

[Config]

SavePath 儲存目錄

Proxy Proxy網址

TimeOut 逾時(毫秒)

SaveHtml 是否儲存網頁(文字模式)

SaveHtmlPath 儲存網頁目錄

UseProxy 是否使用Proxy

UseProxyOnlyFile 是否只在下載使用Proxy

[UrlKeyWord]  判別網址HTML語法
Num 判別網址語法數量

[UrlKeyWord/KeyWord01]  判別網址HTML語法第一筆

Num 關鍵字數量
Word01 第一關鍵字

說明: 在HTML一般的網址連結方式是使用

<a href="test.html">test</a>

組成有 a 、 href 、 =

但是在ini檔中 可以看到 a、*、href、=

因為在 a 跟 href 可以插入其他的語法,所以 中間的 都以 * 代替

下載關鍵語語法 <img scr="p.jpg"> ,使用方式如上,如果有需要,可以自已更改。

[Top]

下載範例

文字模式

抓取Yahoo漫畫極樂地獄為例:

啟始網址:

image

http://tw.comics.yahoo.com/080122/260/3ta8j.html

次頁關鍵:

首先對次頁連結按右鍵->內容

image

取得網址

image

多幾個網頁的比較之後,都大概是以下網頁內容為主

輸入 http://tw.comics.yahoo.com/*/260/

下載關鍵:

對圖檔按右鍵->內容,取得如下資料

image

多幾個網頁比較之後,大概是以下網址為主

輸入 http://tw.news.yimg.com/comics/comics_whatthehell/

接下來就選取

image

再按下

image 

就可以抓取圖片了。

[Top]

[回到程式主頁]

如有使用上問題、Bug、建議,請至各版本更新資料中留言,謝謝

如有此說明意見,請在此留言,非與說明意見相關,將刪除,請見諒

1 則留言:

小朱 提到...

K大~~你的這個軟體實在是太棒了...
不過有幾點我希望能夠修改的地方...

1.我覺得他抓的速度有點慢...是否可以把現在的3線程改成更多(>10)或者自己設定呢???

2.圖片的大小是否可以改成 長大於X 寬大於Y 或者圖片大小大於Z KB之類的呢??

我要再一次感謝~~這個軟體實在太好用了...感謝k大^^b