编辑:user06    发布日期:2020-09-15 12:15:48

Screaming Frog SEO Spider for Mac是一个网站爬虫,允许你抓取网站的网址,并获取关键要素,分析和审计技术和现场搜索引擎优化。在本篇文章中,我们介绍的是Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧。

Screaming Frog SEO Spider for Mac使用教程

1)点击“配置>自定义>提取”
该菜单可以在SEO Spider的顶级菜单中找到。自定义提取以进行网页抓取
这将打开自定义提取配置,允许您配置多达100个单独的“提取器”。2)选择CSS路径,XPath或正则表达式进行剪贴
在尖叫青蛙 SEO蜘蛛工具提供从网站抄袭数据的三种方法:

XPath – XPath是一种查询语言,用于从XML之类的文档(例如HTML)中选择节点。此选项使您可以使用XPath选择器(包括属性)来抓取数据。
CSS路径 –在CSS中,选择器是用于选择元素的模式,通常是三种可用方法中最快的一种。此选项使您可以使用CSS路径选择器来抓取数据。可选属性字段也可用。
正则表达式 –正则表达式当然是用于匹配数据模式的特殊文本字符串。这最适合高级用途,例如抓取HTML注释或内联JavaScript。
建议在大多数常见情况下使用CSS Path或XPath,尽管它们都有各自的优势,但是您可以简单地选择最适合使用的选项。

使用XPath或CSS Path收集HTML时,您可以使用下拉过滤器准确选择要提取的内容–

提取HTML元素 –所选元素及其所有内部HTML内容。
提取内部HTML –所选元素的内部HTML内容。如果所选元素包含其他HTML元素,则将它们包括在内。
提取文本 –所选元素的文本内容以及任何子元素的文本内容。
3)输入语法
接下来,您需要将语法输入到相关的提取器字段中。查找要抓取的数据的相关CSS路径或Xpath的快速简便方法是,只需在Chrome中打开网页,然后打开要收集的HTML行的“检查元素”,然后右键单击并复制提供的相关选择器路径。

例如,您可能希望开始抓取博客文章的“作者”,并且每个人都收到了评论。让我们以Screaming Frog网站为例。

在Chrome中打开任何博客帖子,右键单击并在每个帖子上的作者姓名上单击“检查元素”,这将打开“元素” HTML窗口。只需再次右键单击相关的HTML行(具有作者姓名),复制相关的CSS路径或XPath,然后将其粘贴到SEO Spider的相应提取器字段中即可。如果您使用Firefox,则也可以在其中进行相同的操作。
CSS Path Scraping作者您可以重命名“提取程序”,它对应于SEO Spider中的列名。在此示例中,我使用了CSS Path。定制提取作者和评论
每个提取器旁边的对勾确认所使用的语法有效。如果它们旁边有一个红叉,则可能需要进行一些调整,因为它们无效。

当您感到高兴时,只需按下底部的“确定”按钮即可。如果您想查看更多示例,请跳至本指南的底部。

请注意–这不是构建CSS选择器和XPath表达式的最可靠的方法。使用此方法给出的表达式可以非常特定于元素在代码中的确切位置。由于检查的视图是页面/ DOM的呈现版本,因此这是可以更改的,默认情况下,SEO Spider会查看HTML源代码,而SEO Spider在其中处理页面时会进行HTML清理是无效的加价。

这些内容在浏览器之间也可能有所不同,例如,对于上述“作者”示例,给出了以下CSS选择器–

Chrome:正文> div.mAIn-blog.clearfix> div> div.mAIn-blog-posts> div.mAIn-blog-posts_single-inside_author.clearfix.drop> div.mAIn-blog-posts_single-inside_author-detAIls.col- 13-16> div.author-detAIls-social>
Firefox: .author-detAIls-social> a:nth-child(1)

Firefox提供的表达式通常比Chrome提供的表达式更强大。即使这样,也不应将其用作理解各种提取选项并能够通过检查HTML源代码手动构建这些选项的完整替代。

关于CSS选择器的w3schools指南及其XPath简介是了解这些表达式基础的好资源。

4)抓取网站
接下来,在顶部的URL字段中输入网站地址,然后单击“开始”以爬网网站并开始抓取。5)在“自定义提取”选项卡下查看爬取的数据
抓取的数据开始在抓取过程中实时显示在“自定义提取”选项卡以及“内部”选项卡下,您可以将收集到的所有数据一起导出到Excel中。

在上面概述的示例中,我们可以看到每篇博客文章旁边的作者姓名和评论数已被抓取。

自定义提取
当进度条达到“ 100%”时,爬网已完成,您可以选择使用“导出”按钮来“导出”数据。

如果您已经有了想要从中提取数据的URL列表,而不是抓取网站来收集数据,则可以使用列表模式上载它们。

而已!希望以上指南有助于说明如何使用SEO Spider软件进行网页抓取。
显然,可能性是无限的,此功能可用于收集任何内容,从纯文本到Google Analytics(分析)ID,架构,社交元标签(例如Open Graph标签和Twitter卡),移动注释,hreflang值以及价格产品,折扣率,库存可用性等。我已经介绍了更多示例,这些示例按提取方法划分。

以上就是今天Macz为大家介绍的Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧,希望对您有所帮助。

热点资讯

更多
英特尔正与台积电接洽,虑将部分芯片生产外包给台积电 外媒报道称,英特尔正在与全球最大的芯片制造商台积电(TSMC)接洽,准备将自己的芯片制造业务外包出去。
苹果iPhone 12国行上季度热卖:拿下20%份额 销量达1800万 根据外媒报道,上季度中国大陆地区iPhone 12销量达到1800万,苹果拿下20%智能手机市场份额。
高通斥资约90亿收购芯片公司NUVIA 前苹果芯片架构大神加盟 据外媒报道,高通公司1月13日以14亿美元收购芯片初创公司Nuvia。
大公司晨读:B站计划3月港股上市;苹果斥资1亿美元力促种族平等 B站确定已在港提交上市申请;英特尔CEO 斯旺将于2月15日辞职。

相关教程

更多
官网上线家居板块,苹果在智能家居市场能掀起多大水花 对于较早布局智能家居的苹果来说,在该领域一直不温不火,存在感很低。一方面,苹果的HomeKit平台兼容性差,其认证及条件相对都更加严格复杂。另一方面,其在产品和市场上的推广也相对薄弱,产品售价过高并且产品线也不够完善。苹果现在进军中国智能家居市场,在笔者看来,它依旧是以一个初级者的身份来探索这片巨大市场,前有埋伏,而后有追兵,短时间内苹果也很难在智能家居市场逆袭。
2022年国内手机市场回顾:寒气传递到每个厂商,华为苹果抢占新高地 2022年的国内手机市场在寒冬中度过,尽管有着折叠屏市场这一股小小的暖流,并且有着非常不错的发展前景,但仅占据1%市场体量的这条新赛道,至少现在还无法帮助市场走出存量时代。
苹果不玩性能了?传iPhone15芯片或更注重电池续航而非性能 苹果iPhone的续航能力一直都遭网友吐槽,虽然近两年的机型续航能力有所提升,但对于如今大家对手机续航能力要求这么高的时代下还是不够的,任一部国产安卓机都能“吊打”。不过近日外媒9to5Mac报道称iPhone15芯片或更注重电池续航而非性能。
步子太大?工程设计失误或成A16升级不大的诱因 报道指出,苹果工程师们“在添加新功能方面过于雄心勃勃”,在开发周期后期发现原型芯片的GPU功耗远高于预期的模拟估计,这意味着会引发严重的散热问题,并且导致电池寿命受到影响而无法使用。稳妥起见,苹果无法将搭载“新功能”的GPU用于iPhone 14 Pro系列。

相关软件

更多
  • ios5.1固件 简体. 802.00 MBM · 苹果在新款iPad发布会结束后,发布了iOS5.1固件更新。本更新包含了数项改进及错误修正。完美为大家提供iOS设备全套ios5.1固件下载,有需要的朋友可免费 ...
  • 土豆Mac版 简体. 20.00 MBM · 土豆Mac版是土豆网官方为苹果系统所开发的一款桌面客户端,可在MAC平台上观看网络影视。土豆Mac版包含了电影、电视剧、综艺、动漫等多种分类,海量内容就在其中, ...
  • 魔方手机助手 for Mac 简体. 24.00 MBM · 魔方手机助手Mac版安装到Mac上,连接Android手机,您就可以在Mac上控制手机,实现短信收发、接打电话、通讯录编辑管理,资料备份了。另外还有海量的手机游 ...
  • 真实赛车2Mac版 多国语言[中文]. 718.00 MBM · 完美下载收集的真实赛车2Mac版这是一款竞速类游戏,让玩家感觉用手机控制赛车就如同手握方向盘驾驶真正的赛车一样,游戏包含个人职业生涯模式,除此以外还有丰富的多人 ...