Question

0 0

请问为什么这个爬虫没有爬出内容啊

item.py


 python


 -*- coding: utf-8 -*
import scrapy
class BokeItem(scrapy.Item):
    url=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()

boke_spider.py


 python


 -*- coding: utf-8 -*-
from scrapy.contrib.spiders import CrawlSpider ,Rule
from scrapy.contrib.linkextractors import LinkExtractor
from boke.items import BokeItem

class BokeItem(CrawlSpider):
    name = 'blog'
    start_urls =['http://blog.sina.com.cn/s/blog_4701280b0102eo83.html']

    def parse_torrent(self,response):
        torrent=BokeItem()
        torrent['url']=response.url
        torrent['title']=response.xpath("//h2[@class='titName SG_txta']/text()").extract()[0]
        torrent['content']=response.xpath("//div[@style='min-height:22px']/text()").extract()[0]
        return  torrent

python scrapy

12 years ago

膜拜桂雏菊

share

膜拜桂雏菊 12 years ago

Answer 1

0

试试看看这个博客，专门针对 scrapy 的

answered 12 years ago

常盘台的电磁炮

share

常盘台的电磁炮 answered 12 years ago

Answer 2

0

试试去看看官方 doc

answered 12 years ago

只是只瓜瓜

share

只是只瓜瓜 answered 12 years ago

Answer 3

0

from scrapy.contrib.spiders import CrawlSpider ,Rule

你调用的是 CrawlSpider 类,但是显然没有写任何的规则

建议改为 Spider 类,并将 parse_torrent 改名为 parse ,如下:


 from scrapy.contrib.spiders import Spider
from boke.items import BokeItem
class BokeItem(Spider):

answered 12 years ago

Hamono

share

Hamono answered 12 years ago

请问为什么这个爬虫没有爬出内容啊

item.py

boke_spider.py

膜拜桂雏菊

Answers

常盘台的电磁炮

只是只瓜瓜

Hamono

Your Answer