Python3爬虫学习(一):糗百 & 百度贴吧

Introduction

爬虫接触很浅,但有时候自己折腾玩的时候,通过爬虫获取数据是一种比较好的方式。之前做项目的时候接触过PHP的爬虫,其本质是通过curl模拟网络请求,对爬虫有了个大概的认识。而Python爬虫最为火爆,因此想抽空折腾折腾。

学习资料

网上找了篇教程了解了下,Python爬虫主要在于:Python基本语法、urllib库应用、Python爬虫框架。其中,
Python基础语法:参照了廖雪峰
urllib则以官方doc为主
爬虫框架及爬虫概念,参照了崔庆才的博客

比较Python2和Python3,想尝试用新的技术,故选用Python3作为工具。学习过程中,参照崔庆才的博客做了些demo(原文基于Python2.7实现),可参照github demo