发布网友 发布时间:2022-04-06 02:03
共10个回答
懂视网 时间:2022-04-06 06:24
推荐:《PHP视频教程》
PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:
<?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:58 */ require ('./vendor/autoload.php'); use QLQueryList; //进入网页 $jar = new GuzzleHttpCookieCookieJar; $client = new GuzzleHttpClient(['cookies' => true]); $ql = $client->request('GET', 'https://www.baidu.com', [ 'cookies' => $jar ]); if($ql->getStatusCode()!=200){ echo '网站状态不正常';die; } echo $ql->getBody();
百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。
修改后的header如下:
$ql = $client->request('GET', 'https://www.baidu.com', [ 'cookies' => $jar, 'headers' => [ 'Accept-Encoding' => 'gzip, deflate, br', 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Accept-Language' => 'zh-CN,zh;q=0.9,en;q=0.8', 'Cache-Control' => 'no-cache', 'Connection' => 'keep-alive', 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', ] ]);
我测试了下,网站打开了。
我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。
安装步骤:
1.安装依赖
在这之前,要先启用php的proc_open函数,否则无法安装完整
composer install jaeger/querylist composer install jaeger/querylist-puppeteer
2.安装nodejs
yum install nodejs
3.安装npm
4.安装@nesk/puphpeteer
npm install @nesk/puphpeteer
5.PHP启用proc_open
代码如下:
<?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:58 */ require ('./vendor/autoload.php'); use QLQueryList; use QLExtChrome; $ql = QueryList::getInstance(); // 注册插件,默认注册的方法名为: chrome $ql->use(Chrome::class); $ql->chrome(function ($page,$browser) { $page->goto('https://www.baidu.com'); // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动 sleep(3); //输入关键词 $wd = '简庆旺博客'; $page->type("input[id='kw']",$wd); sleep(1); //点击搜索 $page->click("input[type='submit']"); //等待搜索结果 sleep(3); //获取结果 $html = $page->content(); //用jquery选择器抽取结果 $rules = array( 'title'=>['#content_left h3 a','text'],//标题 'url'=>['#content_left h3 a','href'],//跳转网址 'description'=>['div .c-abstract','text'],//描述 ); $ql = QueryList::html($html); $rt = $ql->rules($rules)->query()->getData(); //如果有需要,可以把$rt入库,以及做其他操作 sleep(10); $browser->close(); // 返回值一定要是页面的HTML内容 return $html; },[ 'headless' => false, // 启动可视化Chrome浏览器,方便调试 'devtools' => false, // 打开浏览器的开发者工具 ])->find('title')->text();
$rt是我的结果集合,打印下,如下
热心网友 时间:2022-04-06 03:32
可以用以下4个方法来抓取网站 的数据:
1. 用 file_get_contents 以 get 方式获取内容:
?
$url = 'http://localhost/test2.php';
$html = file_get_contents($url);
echo $html;
2. 用fopen打开url,以get方式获取内容
?
$url = 'http://localhost/test2.php';
$fp = fopen($url, 'r');
stream_get_meta_data($fp);
$result = '';
while(!feof($fp))
{
$result .= fgets($fp, 1024);
}
echo "url body: $result";
fclose($fp);
3. 用file_get_contents函数,以post方式获取url
?
$data = array(
'foo'=>'bar',
'baz'=>'boom',
'site'=>'www.jb51.net',
'name'=>'nowa magic');
$data = http_build_query($data);
//$postdata = http_build_query($data);
$options = array(
'http' => array(
'method' => 'POST',
'header' => 'Content-type:application/x-www-form-urlencoded',
'content' => $data
//'timeout' => 60 * 60 // 超时时间(单位:s)
)
);
$url = "http://localhost/test2.php";
$context = stream_context_create($options);
$result = file_get_contents($url, false, $context);
echo $result;
4、使用curl库,使用curl库之前,可能需要查看一下php.ini是否已经打开了curl扩展
$url = 'http://localhost/test2.php?site=jb51.net';
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
echo $file_contents;
热心网友 时间:2022-04-06 04:50
最基本的原理就是获取该网页的内容之后 通过正则去匹配 获取自己想要的内容
热心网友 时间:2022-04-06 06:25
哈哈,我以前写了一个查火车的,给你看一下好了。
http://blog.csdn.net/amandaxy/article/details/67506
热心网友 时间:2022-04-06 08:16
别人网站更新了,你也跟着更新啊。
我用的就是php的正则,觉得是很好用的。
热心网友 时间:2022-04-06 10:24
可以通过扩展类snoopy实现抓取网页内容
热心网友 时间:2022-04-06 12:49
具体网址发上来,本人采集过有几个网址了,包括国外的网站
热心网友 时间:2022-04-06 15:30
写一个js脚本去抓
热心网友 时间:2022-04-06 18:28
asda asdasdasdasdad
热心网友 时间:2022-04-06 21:43
curl
file_get_concent();