关于均数和标准差相关计算的梳理

练武的人都知道:练武不练功,到老一场空!

说的是只练花架子,不练习内功,最终也都是一个菜鸟级武师。

关于均数和标准差相关计算的梳理

学习编程何尝不是!我时常见到已经学习相当一段时间的程序员,连稍微深点的基本知识都没有掌握。可叹,可悲啊!根子不牢,注定走不远啊!

基于实例学习编程非常重要,也非常有效,但与此同时,我们也必须不断的加强基本功的学习,刻意的加强相关的技术。掌握技术脉络,加强各项技术,跳出编程语言本身,练好内功,才能爬的又快又好,成为一个高级的爬虫工程师!

关于均数和标准差相关计算的梳理

本文从爬虫的技术原理出发,讨论了Python爬虫工程师必须掌握和不断加强的几项技术。

技术脉络

关于均数和标准差相关计算的梳理

  1. 程序发送请求给网页服务器,请求基于HTTP协议。
  2. 服务器返回网页或者数据,格式为HTML,JSON,XML等。
  3. 程序从HTML,JSON,XML等文本中解析返回的网页,用的技术包括xpath, 正则表达式,css选择器等。
  4. 程序把解析好的保存到文件或者数据库中供后续分析使用。文件格式通常是cvs,数据库可以使用关系型数据库如MySQL,或者非关系型数据库如MongoDB。

关于均数和标准差相关计算的梳理

除此之外,网站会有各种反爬取技术,爬虫工程师和网站开发工程一个攻,一个守,斗智斗勇。

关于均数和标准差相关计算的梳理

另外,爬虫10个网页和爬取10000个网站是不同的概念,你需要维护要爬取的数以万计的URL,设置更新频率,去掉不需要的URL等等,查看各个网站的爬取状态等,这就是一个工程化的问题。商业级的爬虫涉及到很多工程化问题。

就像家庭作坊可以就在自己院子里,一家人就能生产出少量的产品。但要大量生成就需要厂房,财务,人事等企业框架和管理制度、

Python爬虫工程师的修养

下面列举了爬虫工程师需要不断掌握和精进的基本功技术:

HTTP协议

HTTP协议是爬虫和网页交流的语言,如果不懂这个语言,你肯定不能成为一个有效的爬虫工程师。你也不需要成为一个协议专家,主要掌握请求,相应,header,COOKIE等就可以了。

关于均数和标准差相关计算的梳理

网页格式:HTML和CSS

我们看到的网页基本都是HTML的格式,我们要从HTML的脚本中找出所需要的信息,就必须掌握HTML的格式。

关于均数和标准差相关计算的梳理

同样的一个HTML页面,我们可以展现不同的样式。我们通过CSS来指定样式,比如指定表格用什么背景颜色,文字用什么字体等。

这些样式,本来不是爬虫工程师在意的事情,因为我们只在意数据。但是通过CSS,我们可以有效的定位到某些数据,所以CSS还是需要学习的,后面的数据解析部分会再次提到CSS。

网页格式:Javascript

HTML是完全静态的网页,为了在网页上实现动态效果,就有了Javascript。很多网页上的数据并没有直接在HTML中给出,而是通过Javascript后续又加载出来的。

关于均数和标准差相关计算的梳理

实际上,Javascript是编程语言排行榜上很靠前的编程语言,所谓的前端开发者需要精通Javascript,而爬虫工程师了解基本的知识,知道Ajax请求的相关原理,有时候还要知道如何用Javascript加密,就差不多了。

网页格式:JSON

JSON是Javascript Object Notation的意思,可以理解成一种数据结构。一般的数据API都是以JSON格式的:

关于均数和标准差相关计算的梳理

数据解析 – xpath

我们需要用某种技术,从HTML中找出我们想要的数据,xpath是其中一种。简单说,就是通过路径来找到想要的数据:

关于均数和标准差相关计算的梳理

数据解析 – css选择器

通过指定样式,我们也可以定位到指定的数据,再解析数据:

关于均数和标准差相关计算的梳理

因为喜欢Jquery的原因,我个人更喜欢CSS选择器。

数据解析 – 正则表达式

前两种数据解析都是基于结构的解析方式,而正则表达式(re)就把HTML当成一个文本,不在意其中的结构,用字符串的规则解析数据:

关于均数和标准差相关计算的梳理

数据存储 – csv

CSV是用逗号隔开的一种纯文本的数据格式,是数据分析和处理中最常用的格式。CSV可以用记事本打开,也可以用Excel打开。

关于均数和标准差相关计算的梳理

数据存储 – 数据库

把数据存储在CSV等文本中很方便,但是数据的查询和处理不方便,为了解决这个问题,我们可以会把数据保存在数据库中。

这是很广阔的领域,数据库是计算机技术中最重要分分支之一。值得你不断地学习和精进。相比前面的HTML等,你只要几个小时就可以学会了,后面也不怎么需要更新知识。

关于均数和标准差相关计算的梳理

反爬技术 – ocr, selenium等

关于反爬技术,请看我另外一篇文章:

搞疯爬虫程序员的8个难点!!

工程化框架 – scapy

在Python的世界里,工程化最常用的就是Scrapy框架,它使用组件化的方式分解了爬虫所需要处理的事情,让你可以集中在最关键的地方,剩下的管理工作交给框架来完成。

关于均数和标准差相关计算的梳理

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023年 7月 14日 下午2:04
下一篇 2023年 7月 14日 下午2:09

相关推荐

  • 泰山童子,根植泰山的《东方经济学》(4)—泰山童子筑

    根植泰山的《东方经济学》(4) ——泰山童子筑 文化溯源:“天人合一,民惟邦本;万物共生,食色性也。” 研究方向:人类的各种需求 人类的需求欲壑难平,人的需求是无限的吗? 人类的需…

    综合百科 2023年 3月 15日
  • 吃辣火锅时,牛奶和豆浆,谁更解辣呢

    奶粉们,五一期间出行了没?奶叔在家带娃,没机会出去。不过在朋友圈看到好朋友的遭遇,奶叔乐了。 好朋友去了重庆,本来信心满满,觉得自己能征服这座魔幻的8D城市,但光是火锅店的微微微微…

    2023年 6月 8日
  • 花大色艳,花香浓郁持久“大将军”,开花爆盆,养在家里很喜庆

    花花世界,纷乱迷人心,不是没有理由的,因为花朵真的是千姿百态,很是漂亮,大家也都愿意为了看花,舍弃假期,去各个地方去旅游,见识花朵的绽放,了解每个花朵的喜好,这才是爱花人士应该关注…

    2023年 1月 4日
  • 《神武》4 新手日常玩法贴士

    1.师门任务 在进行师门任务时,会有要求购买物品或者宠物完成师门任务,购买物品可直接通过左侧的物品寄售中心进行购买。 如果要求购买宠物,可以通过物品栏的还童丹快捷购买,在物品栏右键…

    2022年 11月 5日
  • 女性时装设计师的创作有何不同

    本期我们的镜头下,汇聚了数位女性时装设计师的作品,她们的经历、见过的世界、越过的湍流、浪漫的臆想、沉重的思考……皆被糅杂进创作之中,以丰富而细腻的姿态,以坚定而温柔的视角,传递着不…

    2023年 9月 18日
  • 乾隆活到成年的有几个儿子

    乾隆是历史上最幸福的皇帝之一了,他在位期间朝堂安定,百姓安居乐业。 那么既然是个盛世,皇家最重要的事——开枝散叶自然成了头等大事,人人皆知乾隆生性风流,乾隆仅仅登记在册的妃子就有4…

    2022年 11月 24日
  • 黄河入什么海,观澜亭丨黄河史载行水2623年间,为什么多是从山东入渤海?

    □周学泽 此前2月15日,《山东省黄河流域生态保护和高质量发展规划》发布,其中第六章内容是“全力保障黄河下游长治久安”,要求坚持根治水患、防治干旱,开展“二级悬河”治理,强化综合性…

    2023年 4月 9日
  • 历届世界杯十六强分布图

    四年一度世界杯暨第22届世界杯,4天后将在卡塔尔拉开战幕。以1998年法国第16届世界杯为起点(决赛圈首次扩充到32队)。细数各大洲近6届世界杯晋级十六强队伍分布:欧洲51次,南美…

    2022年 11月 18日
  • 23个与发票相关的风险点有哪些

    一:业务真实发生但没有取得发票,找点发票来冲抵; 二:企业只有销项税,没有进项税,利润太高,找点发票来抵税; 三: 股东分红个税高,为了减少分红金额,找点发票来规避。 四:发票税率…

    2022年 12月 7日
  • 一公斤汽油大概有多少升

    1.标号90的汽油一公斤等于1.39升。2.标号93的汽油一公斤等于1.38升。3.标号97的汽油一公斤等于1.36升。不同标号的汽油会有些偏差,主要是因为不同标号的汽油的密度不一…

    2023年 4月 24日