首页 > 科幻 > 绝对掌控 > 第十一章 数据海洋和爬虫
下载

请安装我们的客户端

终生免费,永无广告!

第十一章 数据海洋和爬虫(2/2)

目录
好书推荐:

而筛选功能就是通用爬虫和专用爬虫之间的主要区别,莫回的爬虫需要具备一定的识别能力,能够辨别某个url中的内容是否具备相关性,如果不具备那么就跳过,如果具备就将其中的内容复制回来待用。

这个筛选功能同样需要一大堆的算法来解决,不仅如此,它还需要具备自然语言处理能力,就是说它得具备对语言文字的理解和解析的能力,它得能够识别哪些文字内容是与股票相关的,哪些是无用的。

仅仅识别文字还是不够的,它还得能够识别其他格式的数据,比如它得能够识别图案,像是股票相关的各种k线图、柱状图之类的,爬虫必须能够将其与风景画或者自拍照区别开。

除了图片,其他的像是视频、音频、各类数据库之类的,爬虫都需要一一辨别出来,确定是否属于相关内容。

这里面将会有无数个技术难题需要解决,如果这个工作让莫回一个人来完成,几乎是不可想象的。

不想错过《绝对掌控》更新?安装看书屋专用APP,作者更新立即推送!终生免费,永无广告!可换源阅读!

放弃 立即下载
书页 目录
阅读推荐: 宿命之环 帝国之刃 今天开始当城主 诸天窃贼 长生修仙:我能用族人的气血加点 大奥术师她今天赚钱了吗 这本小说很健康 我在星际炼丹封神 人道大圣 斗破:家祖玄帝萧玄
返回顶部