代码学堂(uxuew.cn)提供付费解决PHP WEB开发等技术服务,如果需要请 点击加我QQ:1662935793.
>编程开发 > php教程 > PHP多进程网络爬虫框架Beanbun

PHP多进程网络爬虫框架Beanbun

php教程 围观5938次 更新日期:2017-09-23 16:00:00 留下足迹

简介

Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle

特点

  • 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)
  • 默认使用 guzzle 进行爬取
  • 支持分布式
  • 支持内存、Redis 等多种队列方式
  • 支持自定义URI过滤
  • 支持广度优先和深度优先两种爬取方式
  • 遵循 PSR-4 标准
  • 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)
  • 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...

安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun

快速开始

创建一个文件 start.php,包含以下内容
 

seed = [
	'http://www.uxuew.cn/',
	'http://www.uxuew.cn/php/5988.html',
	'http://www.uxuew.cn/php/681.html',
];
$beanbun->afterDownloadPage = function($beanbun) {
	file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

在命令行中执行

$ php start.php

接下来就可以看到抓取的日志了。

插件

beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser

转载请注明:代码学堂>编程开发 > php教程 > PHP多进程网络爬虫框架Beanbun

喜欢 (769) or 分享 (364)