请选择 进入手机版 | 继续访问电脑版

吾爱汇站网官方联系方式

工作时间: 周一到周五早上09:00-11:00, 下午03:00-05:00, 晚上20:30-22:30(周六、日休息)
QQ: 211985957  168528823  97147700  53150916 汇聚、帮助、交流   E-Mail: postmaster@5ihz.cn
用户交流QQ群
1群21532443 2群413446685 ←提醒:请勿重复加群,谢谢!(本站提供低价收费技术服务,详情联系在线客服)

[Discuz教程] DISCUZ X3.2 采集教程 – 火车头采集器 V7.6 WEB发布配置管理

[复制链接]
查看5743 | 回复25 | 2019-1-19 15:37:40 | 显示全部楼层 |阅读模式
一般做站的人基本上都知道采集,尤其是做站群或者做论坛的人。但是现在网上的采集工具基本上都是收费的。而且不光软件收费,采集规则还收费。真是羊毛一把把的薅啊。像火车头这个软件,现在已经到 v9 了,但是经典款还是 v7.6 ,至于为什么,你们自己心里应该有数。一般采集内容大家都会,直接定义起始点和结束点就可以了。而火车头带的这个 Web发布配置管理就有点麻烦了。本教程针对的是 Discuz X3.2 / X3.3 / X3.4

1. 打开WEB发布配置管理
打开火车头采集器 v7.6 - 工具 - Web发布配置管理
20190119_153612_000.jpg

2. 新建规则

20190119_153612_001.jpg


3. 网站自动登录配置
弹出一个新窗口,我们一个一个配置,先来这个登陆配置,点击自动抓取登陆数据包
20190119_153612_002.jpg

4. 获取发布数据包
在之后弹出的窗口中输入 Discuz 论坛的地址(Forece 用的本地测试),然后登陆你注册过的用户。在 Post 数据框那里应该可以看到数据,然后点击确定。当然如果有的网站无法使用自动登录获取 POST 数据的话,你可以用 Fiddler 来获取 Post 数据。然后在上一个窗口中,选择粘贴 Post 数据。
20190119_153612_003.jpg

Post 数据一般是长这个样的:

  1. fastloginfield=username&username=forece&password=xxxxxxxxxxxxxx&quickforward=yes&handlekey=ls
复制代码

点击确定后,你可以看到大部分表格都已经填写完毕了

20190119_153612_004.jpg


我们还需要再做一下修改,需要将 username 和 password 的表单值改为 [用户名] 和 [密码],另外还需要加一个登陆失败标志码码和登陆成功标志码。

登陆失败标志码
登录失败

登陆成功标志码
  1. <script type="text/javascript" reload="1">
复制代码

最后截图如下:

20190119_153612_005.jpg


5. 网页随机值获取
然后我们进入下一个 Tab ,网页随机值获取。获取这个数值的原因是因为 Discuz 有一个叫做 formhash 的东西。这玩意还不是固定的,每次都变。

20190119_153612_006.jpg


然后依次填入以下数据:

获取页面:

  1. /forum.php?mod=post&action=newthread&fid=2
复制代码

来源页面

  1. /forum.php?mod=post&action=newthread&fid=2
复制代码

随机值前字符串

  1. name="formhash" value="
复制代码

随机值后字符串

  1. "
复制代码

然后将 每次请求都使用第一次获取的网页随机值 的选项关掉。

PS: 获取页面和来源页面是你发布帖子的页面。大家看到我后边的 fid=2 是我的版块名称,请根据自己 Discuz 论坛的情况配置。

最后设置截图如下:

20190119_153612_007.jpg


6. 内容发布参数
内容发布参数的设置和登陆的有点类似,也是需要获取 Post 数据

20190119_153612_008.jpg

登陆进论坛 - 选择发帖 - 填写标题 - 内容 - 按发帖 - 获取 Post 数据 - 按确定

20190119_153612_009.jpg


Post 数据应该是这样的:

  1. formhash=9c552f8e&posttime=1507576154&wysiwyg=1&subject=%E7%81%AB%E8%BD%A6%E5%A4%B4%E8%8E%B7%E5%8F%96+Post+%E6%95%B0%E6%8D%AE%E6%B5%8B%E8%AF%95%E5%B8%96&message=by+Forece&replycredit_extcredits=0&replycredit_times=1&replycredit_membertimes=1&replycredit_random=100&readperm=&price=&tags=&rushreplyfrom=&rushreplyto=&rewardfloor=&replylimit=&stopfloor=&creditlimit=&allownoticeauthor=1&usesig=1&save=
复制代码

按完确定后,表单数据获取完毕,我们还是需要修改一些表单。

20190119_153612_010.jpg

火车头采集-11.jpg


formhash: [网页随机值1] posttime: [系统时间戳] subject: [标签:标题] message: [标签:内容]

发表错误标志码
抱歉,您的请求来路不正确或表单验证串不符,无法提交
抱歉,您尚未输入标题或内容

成功标志码
帖子地址复制成功

最后截图如下:
20190119_153612_011.jpg

7. HTML 转换为 UBB 标签
其实到现在这个Web发布规则已经配置完毕,但是因为 Discuz 用的是 UBB 标签而不是 HTML 标签,所以我们再稍微使这个发布规则更完美一些。进入高级功能,选择操作类型,标签填写 [标签:内容] ,CMS 选择 Discuz , 按确定。
20190119_153612_012.jpg

然后回到内容发布规则里,将表单message里边的值替换成{0}
20190119_153612_013.jpg

8. 命名规则
20190119_153612_014.jpg

9. 保存配置
按照自己的情况来配置,是 UTF-8 就填写 UTF-8,是 GBK 就填写 GBK 别搞混了。
20190119_153612_015.jpg

PS: 不知道为什么保存完规则后网页随机值消失不见了,我测试的时候一直无法发布内容,重新把网页随机值加进去就好了。

回复

使用道具 举报

银月帝君 | 2019-1-19 15:38:24 | 显示全部楼层
这个应该是个很不错的功能,可以下载下来看看
回复 支持 反对

使用道具 举报

蛋疼是一种过程 | 2019-1-19 16:38:24 | 显示全部楼层
淡定,淡定,淡定……【吾爱汇站网】就是这么666!
回复 支持 反对

使用道具 举报

简玉凡456 | 2019-1-20 06:45:29 | 显示全部楼层
强烈支持,免费就是给力啊!
回复 支持 反对

使用道具 举报

商城路3号 | 2019-1-20 19:49:33 | 显示全部楼层
不错 支持下
回复 支持 反对

使用道具 举报

617954736 | 2019-1-20 20:24:44 | 显示全部楼层
好,很好,非常好!
回复 支持 反对

使用道具 举报

榴莲罐头I | 2019-1-20 23:36:58 | 显示全部楼层
楼主的帖子实在是写得太好了,不觉明厉啊!
回复 支持 反对

使用道具 举报

艾条的兔子 | 2019-1-21 13:41:38 | 显示全部楼层
看看有没有用啦谢谢啦
回复 支持 反对

使用道具 举报

飛雪千層 | 2019-1-21 14:58:45 | 显示全部楼层
前排支持下
回复 支持 反对

使用道具 举报

糖霜小布丁 | 2019-1-21 21:06:32 | 显示全部楼层
这个应该是个很不错的功能,可以下载下来看看
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则