大数据如何入门?爬虫软件有哪些?相关的网站或者聚集地是在哪里?


我先想从很多搜索引擎中 爬去 抓取我要的信息和智能请问:
需要哪些软件来执行爬取和抓取?
又需要哪些软件进行只能分析?
如何入门?哪里有相关的论坛 或者聚集地?

大数据处理 大数据 python go

进去切咖啡 9 years, 3 months ago

回答前我想先问一下,你标签里放了 python go ,但问题描述里问的都是 哪些软件 ,所以,你是想用代码开发还是用人家现成的软件?

如果你是想用现成软件的,我自删答案。
如果你想用代码开发,我认认真真回答。

看到有朋友在评论里让我回答Python,就更新一下。

由于本人正处于并将长期处于 Python自动化脚本开发 的工作当中,Python与网络相关的内容现在已经很少碰了,因此只简单回答,不作详细探讨,如有纰漏,还望指出~

第一个问题:

我先想从很多搜索引擎中 爬去 抓取我要的信息和智能请问:
需要哪些软件来执行爬取和抓取?

我权当是 需要怎样编写爬虫程序 了。
入门Python爬虫一般应按照如下几个顺序来学习,我这里斗胆抛个砖引个玉:


 1、了解网页的基本构成。大致能看懂HTML,会用浏览器审查元素,知道URL的基本组成就可以了。

2、了解爬虫的基本原理。即爬虫具体是做什么的,它为什么能抓取网页上的信息。

3、学习Python标准库的简单爬虫开发。即从urllib开始学习基础,期间还能顺带学习一些网络相关的东西。

4、待基本原理和基础都掌握后,可以学习一些工具和框架的开发及使用,如最著名的Scrapy。

至于更加深入的分布式啊什么的,就个人而言,一般也很难有条件去实践,所以……先打好基础吧。

这里奉上3个传送门:
知乎:如何入门Python爬虫,主要是一些大神对爬虫的介绍
爬虫教程一
爬虫教程二

爬虫简单说到这儿,接下来的问题:

又需要哪些软件进行只能分析?
如何入门?哪里有相关的论坛 或者聚集地?

题主这里问的是数据分析,依然来说Python,Python大数据分析目前最流行的应当是 pandas + numpy + scipy + matplotlib 的组合了,再加一个解释器 ipython

简单介绍一下吧:

1、pandas
pandas 最初就是作为数据分析工具被创造出来的,它本身基于 numpy ,就是名单上的第二个,我这里贴一个我不久前回答的一个问题,可以简单看到 pandas 的神奇效果: python多个字典合并包含同样key的字典项?

2、numpy
Python大数据分析的核心,以下摘自 百度百科 - numpy
NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。

3、scipy
这个说实话我也不是特别了解,一般配合numpy使用,里面也提供了强大的数学模型,欢迎大神来补充。

4、matplotlib
简单说,前三个是用来处理数据的,而 matplotlib 是用来将数据转化成各种图形(图表)的,即数据可视化,类似 Excel 中自动生成图表。

5、ipython
Python的一个解释器,交互式shell,比Python自带的要强大, pandas 官方的教程也是在 ipython 上完成的。

然后简单说一下怎么学。
由于市面上关于Python的中文书籍本身就不多,这些工具类的更是少之又少,单独的 pandas 入门级书一本都没有,想入门 pandas 基本上只能通过 官方文档 来,网上也有一些博客文章,但都比较零碎,而且很多也是改编或翻译的官方文档。

numpy 的倒是有一本 《Python数据分析基础教程:NumPy学习指南(第2版)》 ,而且它里面包含了 matplotlib scipy 以及 ipython 的安装和使用,是入门级的书籍。

然后基础入门的差不多了,可以看一本叫 《利用Python进行数据分析》 的书籍,里面是以 pandas 为主体,涵盖了大量用例。切记,本书一定要在有以上几个库的基础下看。
综合类的书籍并不止这一本,由于其他的不了解,上述两本均是我看过的,这里写出来推荐给大家,有更好的欢迎推荐~

差不多就这样吧,文章中有哪里不对的地方,望各路大神指出~轻喷呐~

louise. answered 9 years, 3 months ago

Your Answer