宁波GQY视讯股份有限公司1月招聘面试题115道2020124

爬虫的源代码通过公开不会对被爬虫网站造成影响()

此题为判断题(对，错)。

正确答案:错

()爬行过程中最重要部分就是表单填写及处理。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫

参考答案：D

()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫

参考答案：D

()实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫

参考答案：B

以下关于网络爬虫的说法,不正确的是()。

A、网络爬虫还可以对网页建立索引

B、有些网络爬虫能够从网站抓取内容聚合起来

C、有些网络爬虫甚至能发动DDos攻击、发送垃圾邮件等

D、隐藏在表单后的信息无法被网络爬虫发现

参考答案：D

宁波GQY视讯股份有限公司1月招聘面试题面试题面试官常问到的一些题目整理如下：问题 Q1：遇到过得反爬虫策略以及解决方法?可用的回答：反爬虫策略: 1.通过headers反爬虫 2.基于用户行为的发爬虫(同一IP短时间内访问的频率,封IP) 3.动态网页反爬虫(通过ajax请求数据，或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码) 解决方法： 1. 对于基本网页的抓取可以自定义headers,添加headers的数据 2. 使用多个代理ip进行抓取或者设置抓取的频率降低一些， 3. 动态网页的可以使用selenium + phantomjs 进行抓取 4. 对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。问题 Q2：Python中的docstring是什么？可用的回答：Python文档字符串称为docstring，它是一种记录Python函数，模块和类的方法。可以通过内置方法_doc_获取问题 Q3：什么是Python中的单元测试？可用的回答：它支持共享设置，自动化测试，测试关闭代码，将测试聚合到集合等。包括unittest，pytest等框架问题 Q4：Python中的命名空间是什么？可用的回答：在Python中，引入的每个名称都有一个存在的地方，可以被连接起来。这称为命名空间。它就像一个框，其中变量名称映射到放置的对象。每当搜索到变量时，将搜索此框以获取相应的对象。问题 Q5：说说什么是爬虫协议？可用的回答： Robots协议（也称为爬虫协议、爬虫规则、机器人协议等）也就是robots.txt，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令，故需要搜索引擎自觉遵守。问题 Q6：为何基于tcp协议的通信比基于udp协议的通信更可靠？可用的回答： TCP的可靠保证，是它的三次握手双向机制，这一机制保证校验了数据，保证了他的可靠性。而UDP就没有了，udp信息发出后,不验证是否到达对方,所以不可靠。不过UDP的发送速度是TCP比不了的，而且UDP的反应速度更快。问题 Q7：写爬虫使用多进程好，还是用多线程好？可用的回答： IO密集型代码(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行效率)。在实际的数据采集过程中，既考虑网速和响应的问题，也需要考虑自身机器的硬件情况，来设置多进程或多线程问题 Q8：如何解释Python？可用的回答：Python语言是一种解释语言。Python程序直接从源代码运行。它将程序员编写的源代码转换为中间语言，再次转换为必须执行的机器语言。问题 Q9：写爬虫使用多进程好，还是用多线程好？可用的回答： IO密集型代码(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行效率)。在实际的数据采集过程中，既考虑网速和响应的问题，也需要考虑自身机器的硬件情况，来设置多进程或多线程问题 Q10：简述生成器、迭代器、可迭代对象以及应用场景？可用的回答： Python可迭代对象（Iterable） Python中经常使用 for 来对某个对象进行遍历，此时被遍历的这个对象就是可迭代对象，像常见的 list , tuple 都是。如果给一个准确的定义的话，就是只要它定义了可以返回一个迭代器的 _iter_ 方法，或者定义了可以支持下标索引的 _getitem_ 方法，那么它就是一个可迭代对象。 Python迭代器（iterator）迭代器是通过 next() 来实现的，每调用一次他就会返回下一个元素，当没有下一个元素的时候返回一个 StopIteration 异常，所以实际上定义了这个方法的都算是迭代器。 Python生成器（Generators）生成器是构造迭代器的最简单有力的工具，与普通函数不同的只有在返回一个值的时候使用 yield 来替代 return ，然后 yield 会自动构建好 next() 和 iter() 因为迭代器如此普遍，python专门为for关键字做了迭代器的语法糖。在for循环中，Python将自动调用工厂函数iter()获得迭代器，自动调用next()获取元素，还完成了检查StopIteration异常的工作。算法题面试官常问到的一些算法题目整理如下（大概率会机考）：算题题 A1：“结”构与解构题目描述如下：Given the root to a binary tree, implement serialize(root), which serializes the tree into a string, and deserialize(s), which deserializes the string back into the tree.给定一颗二叉树，serialize(root) 方法可以将此树弄成字符串，deserialize()则可以将转换成的字符串还原为树。这个要求让我想到翻译的一章Json，里有一个序列化自定义对象。序列化的时候，弄出它的 _class_，_dict_。在这里，root 是字符串，不用做特殊处理，left和right要么是None，要么是Node。但在Python的魔法方法中，有一种更好用的方式，思路还是Json，也要用到Json。因为是要转换为字符串，直接定义 _str_方法，返回 val: , left: , right: .format(self.val, self.left, self.right)这样只要调用一次 str，剩下的如果left和right是Node，则也会调用同样的 _str_方法，最终形成一个嵌套字典。标准的Json，要转换下引号。在解包的时候，用Json处理一下，然后循环，如果left/right是字典，就写成Node，直到left或right是None。这一步用递归比较容易。同时也要更改下Node，在构造left的时候，如果是字典，就要用Node封装，如果是No

增量式爬虫中的()指的是:爬虫根据个体网页的改变频率来重新访问各页面。

A、统一更新法

B、基于分类的更新法

C、个体更新法

D、随机更新法

参考答案：C

如果要采集指定的数据,则需要使用到(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A、增量式网络爬虫

B、聚焦网络爬虫

C、DeepWeb爬虫

D、全网爬虫

参考答案：B

实际的网络爬虫系统通常是几种爬虫技术相结合实现的。()

此题为判断题(对，错)。

参考答案：正确

聚焦网络爬虫常用的爬行策略有深度优先策略、广度优先策略。()

此题为判断题(对，错)。

参考答案：错误

聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。()

此题为判断题(对，错)。

参考答案：正确

niusouti.com

宁波GQY视讯股份有限公司1月招聘面试题115道2020124

更多 “宁波GQY视讯股份有限公司1月招聘面试题115道2020124” 相关考题

相关内容

最新试卷

热门试卷