首页 -  常见问题 -  数据迁移常见问题
爬虫工具抓取及导入操作文档

该工具旨在提供通过爬虫工具抓取数据后导入到GpowerCMSv8以上版本)的界面化功能操作。

1. 内容类型设计和选用

识别数据源待爬取的数据类型结构与导入目的端的GpowerCMS中的既有数据结构是否匹配,如不能一一对应的存储来源数据字段,需要预先在GpowerCMS中创建新的内容类型,用于承载导入数据的完整数据结构(字段),如以下示例:



数据源数据结构除了文章数据既有的标题、来源、作者、发布时间等字段,参照上图标注内容中还存在【1-专家姓名】【2-专家任职】【3-工作经历】【4-研究领域】等4个特殊字段;要将改数据结构的内容导如到目标GpowerCMS中,需要在CMS中创建一个新的内容类型【专家主页】:







配置完成基本内容字段配置后,为该类型添加扩展字段,用于接收以上数据源中的字段:





完成后即准备好目的端GpowerCMS接收数据导入的相关配置操作。

2. 下载导入模板

选择要进行数据导入的栏目后,点击爬虫导入,进入数据导入页面,如界面无对应功能联系系统管理员部署和提供改功能访问地址;

此处需要注意,数据导入是以栏目为颗粒度执行的,需核验站点id和栏目id是否已填充,这两个字段是作为数据源导入目的栏目的必填项,可以判断获取指定内容类型的依据;

下拉选择需要导入的文章内容类型后,点击下载模板;(如无特殊数据结构需求,选择通用的文章类型即可)



下载的数据模板是依照选定的数据类型生成的数据字段和导入对应方式的参照,需要严格按照模板约束填充数据。

3. 以八爪鱼为例描述抓取配置

数据源抓取的字段顺序需与模板待导入的字段顺序保持一致.



4. 使用八爪鱼辅助工具下载图片资源

图片url导入方式 选择excel导入



如文章正文/文章图片/相关图片/附件/扩展属性文件类中的图片资源,应为压缩包内相对路径

若要将正文内图片导入CMS中,需要将对应图片的相对路径配置在文章图片列,多个图片路径可以以换行符分隔。



八爪鱼辅助下载工具可能出现无法正确识别换行的报错,将导入的xlsx另存为xls即可修复。

5. 导入

注意,导入解析逻辑为参照已下载模板的既有字段顺序读取数据,而非识别表头内容,故一定不要调整已下载模板的列顺序,即需要爬取文件与模板中列的顺序相同

数据的读取和导入从第二行开始(忽略表头),完成后即可将抓取数据导入到目标GpowerCMS的指定栏目中。

页面导读