Quantcast

ASP Parser

classic Classic list List threaded Threaded
4 messages Options
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

ASP Parser

Seth Taylor
I've recently just installed and configured Nutch from source.  From
what I've read by default, Nutch will parse text and html based
documents only.  I have a site I'm trying to crawl which is all asp
pages.  I put the asp mime type in the mime-type.xml document.  What
else do I need to do in order for Nutch to crawl asp pages?

 

Thanks,

Seth

 

[hidden email]

Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: ASP Parser

Jérôme Charron
>
> I've recently just installed and configured Nutch from source. From
> what I've read by default, Nutch will parse text and html based
> documents only. I have a site I'm trying to crawl which is all asp
> pages. I put the asp mime type in the mime-type.xml document. What
> else do I need to do in order for Nutch to crawl asp pages?

Corrects me if I'm wrong, but ASP is like JSP: a page that is interpreted on
the server side and generates any type of document (mainly some pure html).
So, you don't need to add ASP support on Nutch, since you ASP pages
certainly generate some HTML code.

Jerome


--
http://motrech.free.fr/
http://frutch.free.fr/
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [Nutch-general] ASP Parser

David Spencer-2
In reply to this post by Seth Taylor
Seth Taylor wrote:

> I've recently just installed and configured Nutch from source.  From
> what I've read by default, Nutch will parse text and html based
> documents only.  I have a site I'm trying to crawl which is all asp
> pages.  I put the asp mime type in the mime-type.xml document.  What
> else do I need to do in order for Nutch to crawl asp pages?

Probably you need to check out the URL filter (conf/crawl-urlfilter.txt)
and make sure the pages are not rejected. Note that there might be a
pattern that rejects argument to the URL so you might want to disable
that if the pages take args.

I would think that there is no ASP MIME type per-se -- surely the
average ASP page returns HTML documents?!

>
>  
>
> Thanks,
>
> Seth
>
>  
>
> [hidden email]
>
>

Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: ASP Parser

lnwpenza
In reply to this post by Seth Taylor
การถอนเงินในคาสิโนออนไลน์นั้น มีวิธีและขั้นตอนที่ไม่ยุ่งยาก ที่มีผู้คนนิยมเล่นมากสุดในไทย [url=http://royal1688online.blog.com/]royal1688 online[/url] เดี๋ยวนี้คนส่วนใหญ่นิยมเล่นแทงบอลในรูปแบบของการออนไลน์ ได้รับใบอนุญาตให้ผสมกิจการคาสิโนอย่างถูกกฎหมายจากรัฐบาลประเทศกัมพูชา ซึ่งได้รับรอง ดูแล ควบคุม ตรวจสอบความไม่ผิดพลาดอย่างสม่ำเสมอ [url=http://royal1688-online.blogspot.com/]casino online[/url] คุณภาพเกมส์ที่ให้คำชี้แนะของเรานั้น ภาพสวยสมจริง การใช้งานเสมือนคุณเข้าไปนั่งเล่นโดยตรง [url=http://holidaypalace.edublogs.org/]holiday[/url] เรายืนยันได้ว่าทางเราไม่มีการควบคุมเกมส์ และผลที่จะเกิดขึ้นของเกมส์ต่างๆ หากท่านต้องการที่จะตรวจสอบเราก่อนที่คุณจะเล่นด้วยเงินจริง [url=http://www.imgoal.com/football-news/]ข่าวฟุตบอล[/url] ก็สามารถร่วมสนุกกับเราได้ ไม่ว่าจะเป็น [url=http://sbobetth.wordpress.com/]sbobet[/url] หลังจาก Login ท่านสามารถตรวจสอบ ยอดเงินของท่าน ใน ยอดคงเหลือ ในเมนูด้านบนหรือวางพนันฟุตบอลในเมนูกีฬาด้านซ้ายมือ
Loading...