同样的方法,找到结尾词旁边的标签为:
这就明确了文章的标题、作者、发布时间以及具体内容,紧接着,我们便需要在软件中详细地记录下相应的规则。
①标题
在提取标题时,我们倾向于采用正则表达式进行操作,同时将复制的变量在匹配到的内容里进行替换,并在生成结果时直接进行点击操作。

设置标题提取规则
②作者
我同样采纳了正则表达式提取方法,鉴于部分数据为变动信息且非必需,我们便以(*)符号进行替代;而对于所需信息,则进行替换处理,并在最终组合结果中进行筛选。

设置作者提取规则
③日期
由于我打算向大家阐述其中的原因,因此我选取了若干个变量来加以说明。
我选取了标签中的参数作为输出,而将标签内的具体信息弃之不顾,然而最终得到的结果却并未发生变化。

设置日期提取规则
在制定规则时,并不必拘泥于传统,照搬他人所传授的方法,关键是要确保信息的精确无误。
内容这部分无需过多赘述,前文已有详尽分析,我们已明确截取的代码内容,只需将其直接填充即可。

设置内容提取规则
然而,我们必须注意到,各个页面在起始和结束部分可能存在差异,因此,我们需要查阅更多文章以审视网页的源代码,因为某些页面的起始处包含前言,而有些页面的末尾则附有版权信息。
三、测试
规则已经制定完毕,接下来我们需要挑选一个页面进行测试。经过检查,我们确认数据收集是准确的,目前基础的数据收集工作已经告一段落。

找几个页面测试下
对我而言,AI写作训练无需标签,因此我在收集数据时便直接进行了筛选。在内容标签的数据处理环节,我选用了HTML标签进行过滤,并一次性勾选了所有标签。为了便于阅读,我移除了换行符和所有标签。当然,我们也可以通过数据处理的手段,输出所需的具体内容。

html标签过滤

html标签过滤
四、输出
我们不设置内容发布规则的话,会导致文章采集了无法输出。
由于我的需求仅限于将数据转换成文档形式以供AI进行学习,而web在线发布及导入数据库的过程涉及诸多繁复的匹配关系,因此在此仅对保存至本地文件的操作进行说明。

内容发布规则
在保存并打开本地文件的过程中,若以txt格式作为输出标准,我们需挑选txt格式,并自行设定文件保存的具体路径。至于文件模板,我采用的是:

文章格式
将文件存为txt格式,并选定该模板作为文件,软件便会依照此格式进行文章的输出。
完成所有设置后,直接进行保存并退出程序,转至主界面,对任务右侧的“采集网址”、“采集内容”、“发布”选项进行勾选,接着右键点击任务并启动,若运行日志显示一切正常,即可让其静默进行采集;若出现错误提示,需分析错误根源,并采取相应措施进行解决。

直接采集并发布
以下是输出的案例:

采集到的内容
五、注意事项
在采集过程中,我们不可能像我所描述的那样轻松,因此,我决定提前向大家透露我所遭遇的困难,以防止大家误入歧途。
1.数据为空
收集到的信息存在空缺,部分缘由在于原始资料本身就为空白,例如网页上的问答部分,若缺乏相应回答,其内容自然呈现空白状态。此外,现有的采集准则并不适用于所有网页,因此需重新设定规则,直至确保所有数据都能被成功采集。
偶尔在数据收集过程中,会遇到数据完全缺失的情况,这种情况很可能是由网络速度缓慢或网站故障所致。对此,只需再次进行数据采集即可解决,因为那些未被成功采集的数据会被标记为“未采集”和“未发送”。
2.输出数据相同
若文章被分置于不同的分类或区域,系统无法自动进行筛选,但我们可以对特定分类的内容进行筛选配置,通过勾选“禁止采集空内容”的选项来实现。(仅勾选“禁止采集空内容”同样能有效解决这一问题。)

内容过滤
3.替换部分数据
在采集过程中,我们常常会遇到众多版权标识词汇或需剔除的敏感字眼,此时无需调整采集规则,只需在本地数据集中挑选全部数据,然后对特定标签下的特定内容进行直接替换或筛选处理即可。

替换内容
本教程的原创内容仅供学术研讨之用,请勿擅自复制或将其用于非法活动,各位前辈请即刻关闭此篇文档。
英语不好也能做好外贸?看何胜第12篇原创日更揭秘
« 上一篇
2025-06-22
全网营销时代到来,小企业不懂SEO技术该如何做网络推广?
下一篇 »
2025-06-22
文章评论
该教程详细介绍了如何使用SEO文章采集工具进行地址栏和内容页的规则设置,包括过滤链接、获取数据等步骤,内容详实且实用性强适合初学者参考学习并应用于实际项目中提高数据采集效率和质量水平值得推荐!
该教程详细介绍了如何使用SEO文章采集工具进行地址栏和内容页的规则设置,包括过滤链接、获取数据等步骤,内容详细且实用性强!