php怎么抓取其它网站数据

发布网友 发布时间:2022-04-06 02:03

我来回答

10个回答

懂视网 时间:2022-04-06 06:24

推荐:《PHP视频教程》

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
//进入网页
$jar = new GuzzleHttpCookieCookieJar;
$client = new GuzzleHttpClient(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
 echo '网站状态不正常';die;
}
echo $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar,
 'headers' => [
 'Accept-Encoding' => 'gzip, deflate, br',
 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
 'Accept-Language' => 'zh-CN,zh;q=0.9,en;q=0.8',
 'Cache-Control' => 'no-cache',
 'Connection' => 'keep-alive',
 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
use QLExtChrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
 $page->goto('https://www.baidu.com');
 // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
 sleep(3);
 //输入关键词
 $wd = '简庆旺博客';
 $page->type("input[id='kw']",$wd);
 sleep(1);
 //点击搜索
 $page->click("input[type='submit']");
 //等待搜索结果
 sleep(3);
 //获取结果
 $html = $page->content();
 //用jquery选择器抽取结果
 $rules = array(
 'title'=>['#content_left h3 a','text'],//标题
 'url'=>['#content_left h3 a','href'],//跳转网址
 'description'=>['div .c-abstract','text'],//描述
 );
 $ql = QueryList::html($html);
 $rt = $ql->rules($rules)->query()->getData();
 //如果有需要,可以把$rt入库,以及做其他操作
 sleep(10);
 $browser->close();
 // 返回值一定要是页面的HTML内容
 return $html;
},[
 'headless' => false, // 启动可视化Chrome浏览器,方便调试
 'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d32930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

热心网友 时间:2022-04-06 03:32

可以用以下4个方法来抓取网站 的数据:

1. 用 file_get_contents 以 get 方式获取内容:
?

$url = 'http://localhost/test2.php';
$html = file_get_contents($url);
echo $html;

2. 用fopen打开url,以get方式获取内容
?

$url = 'http://localhost/test2.php';
$fp = fopen($url, 'r');
stream_get_meta_data($fp);
$result = '';
while(!feof($fp))
{
$result .= fgets($fp, 1024);
}
echo "url body: $result";
fclose($fp);

3. 用file_get_contents函数,以post方式获取url
?

$data = array(
'foo'=>'bar',
'baz'=>'boom',
'site'=>'www.jb51.net',
'name'=>'nowa magic');

$data = http_build_query($data);

//$postdata = http_build_query($data);
$options = array(
'http' => array(
'method' => 'POST',
'header' => 'Content-type:application/x-www-form-urlencoded',
'content' => $data
//'timeout' => 60 * 60 // 超时时间(单位:s)
)
);

$url = "http://localhost/test2.php";
$context = stream_context_create($options);
$result = file_get_contents($url, false, $context);

echo $result;

4、使用curl库,使用curl库之前,可能需要查看一下php.ini是否已经打开了curl扩展

$url = 'http://localhost/test2.php?site=jb51.net';
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
echo $file_contents;

热心网友 时间:2022-04-06 04:50

最基本的原理就是获取该网页的内容之后 通过正则去匹配 获取自己想要的内容

热心网友 时间:2022-04-06 06:25

哈哈,我以前写了一个查火车的,给你看一下好了。
http://blog.csdn.net/amandaxy/article/details/67506

热心网友 时间:2022-04-06 08:16

别人网站更新了,你也跟着更新啊。
我用的就是php的正则,觉得是很好用的。

热心网友 时间:2022-04-06 10:24

可以通过扩展类snoopy实现抓取网页内容

热心网友 时间:2022-04-06 12:49

具体网址发上来,本人采集过有几个网址了,包括国外的网站

热心网友 时间:2022-04-06 15:30

写一个js脚本去抓

热心网友 时间:2022-04-06 18:28

asda asdasdasdasdad

热心网友 时间:2022-04-06 21:43

curl
file_get_concent();

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com