LOFTER for ipad —— 让兴趣,更有趣

点击下载 关闭
爬虫小白入门-1
ID1278930750 2023-01-31

一、前言

你是不是在为想收集数据而不知道如何收集而着急?


你是不是在为想学习爬虫而找不到一个专门为小白写的教程而烦恼?


Bingo! 你没有看错,这就是专门面向小白学习爬虫而写的!我会采用实例的方式,把每个部分都跟实际的例子结合起来帮助小伙伴儿们理解。最后再写几个实战的例子。


我们使用Python来写爬虫,一方面因为Python是一个特别适合变成入门的语言,另一方面,Python也有很多爬虫相关的工具包,能够简单快速的开发出我们的小爬虫。

本系列采用Python3.5版本,毕竟2.7会慢慢退出历史舞台~


那么,接下来,你得知道什么是爬虫、爬虫从哪里爬取数据的,以及,学习爬虫都要学习哪些东西。

二、什么是爬虫

来看看百度百科是如何定义的


网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。


什么?没看懂?没关系,我来给你解释一下


打开一个网页,里面有网页内容吧,想象一下,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是我们今天的主角:爬虫。


这样是不是更清晰了呢?


既然了解了爬虫是什么,那么爬虫是如何爬取数据的呢?

三、学习爬虫的必备知识

大家要先对以下内容有一定的了解再来学习爬虫哦,磨刀不误砍柴工


HTML

这个能够帮助你了解网页的结构,内容等。可以参考W3School的教程。


Python

如果有编程基础的小伙伴儿,推荐看一个廖雪峰的Python教程就够了

没有编程基础的小伙伴,推荐看看视频教程(网易云课堂搜Python),然后再结合廖雪峰的教程,双管齐下。

其实知乎上总结的已经非常好了,我就不多唠叨了。知乎-如何系统的自学Python


TCP/IP协议,HTTP协议

这些知识能够让你了解在网络请求和网络传输上的基本原理,了解就行,能够帮助今后写爬虫的时候理解爬虫的逻辑。

廖雪峰Python教程里也有简单介绍,可以参考:TCP/IP简介,HTTP协议


推荐文章
评论(0)
分享到
转载我的主页