当前位置:首页 > 代码 > 正文

js采集代码(js采集网页内容)

admin 发布:2022-12-19 20:09 144


今天给各位分享js采集代码的知识,其中也会对js采集网页内容进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

用JS翻页的网页如何用PHP实现采集

最简单的办法就是在你的所有中文页面上,一般在导航位置加一个英文页面首页的超链接。这样用户点英文那个链接就进入英文页面了。同样的,在所有的英文页面导航位置都加一个中文首页链接。推荐你用图片做这两个链接,这样不会因为用户没有装对应的语言系统而出现奇怪字符。比如欧美用户一般是不会装中文系统的,页面上有中文字符的时候必然显示为乱码。

网站目录当然要为中文和英文各建一个独立的目录,里面放置各自的页面了。

如果使用数据库的话,则思路是一样的。

如何采集javascript 生成的网页

爬虫是不能获取JS执行的代码的,所有的爬虫也都不会获取这些代码,这就是Ajax不利至Seo的地方。

如你想获取只有单独请求Ajax返回结果,因为Http本身是不会执行js的,执行JS的浏览器。你就是等上10年也不会有结果的,你说的过10秒之后的网页内容。那是在浏览器里可以看到。Http里是只有Html源代码的。不会有JS执行。

或者可以使用 webBrowser

请帮忙用js或php写一个可以采集淘宝和天猫商品优惠价格的代码用函数方

// ==UserScript==

// @name         JD

// @namespace    

// @version      0.1

// @description  try to take over the world!

// @author       You

// @match        *

// @grant        none

// ==/UserScript==

/* jshint -W097 */

'use strict';

// Your code here...

var divObj=document.createElement("input"); 

divObj.type="button";

divObj.value='获取抓取内容'; 

divObj.style.marginTop="20px";

divObj.style.marginBottom="20px";

divObj.style.marginLeft="50px";

var first=document.body.firstChild;

document.body.insertBefore(divObj,first);

var result={};

divObj.onclick=function(){

    //获取价格

    if(document.getElementById("jd-price")){

        var priceDiv=document.getElementById("jd-price");

        var price = priceDiv.innerText;

        price = price.substr(1);

    }else if(document.getElementById("price")){

        var pricePri=document.getElementById("price");

        var priceDiv=pricePri.firstElementChild;

        var price = priceDiv.innerText;

    }else if(document.getElementsByClassName("price")[0]){

        var priceClass=document.getElementsByClassName("price");

        var priceDiv=priceClass[0];

        var price = priceDiv.innerText;

    }

    

    result.price=price;

}

请问怎么去采集js生成的页面数据,在源代码里找不到想要的数据信息

可以采用最原始的方法就是就是自己去模拟一个请求,将js中ajax的链接地址拼接出来,再次进行请求,这个时候需要注意post方式还是get方法。

php如何采集js生成的内容

访问需要采集的页面,如果数据是用js输出的html,那么必定有接口或者本身页面中给js提供了数据,来遍历输出html。

用chrome的审查元素中的network,可以单独看xhr,看看是否是ajax请求的接口,如果数据是从接口来的,直接用PHP去获取那个接口的数据就可以了。

如果没有ajax请求,查看html源代码,在里面找数据。

asp采集js文件的代码

caiurl是采集源网址,pcontent=bytestobstr(getbody(caiurl),"gb2312") 是采集调用代码,如果采集的目标页面是utf-8格式的,请把gb2312修改成utf-8,即pcontent=bytestobstr(getbody(caiurl),"utf-8")

%

response.charset="gb2312"

response.expires = -9999

response.addheader "pragma","no-cache"

response.addheader "cache-ctrol","no-cache"

caiurl="网址/qqlogin.js"

function getbody(weburl)

dim objxmlhttp

set objxmlhttp=server.createobject("msxml2.serverxmlhttp")

'如果服务器不支持msxml2.serverxmlhttp,可以修改成msxml3.serverxmlhttp或msxml6.serverxmlhttp或msxml2.xmlhttp

objxmlhttp.open "get",weburl,false

objxmlhttp.send

while objxmlhttp.readystate 4

objxmlhttp.waitforresponse 10000

wend

getbody=objxmlhttp.responsebody

set objxmlhttp=nothing

end function

function bytestobstr(body,cset)

'-----------------

dim objstream

set objstream = server.createobject("adodb.stream")

objstream.type = 1

objstream.mode =3

objstream.open

objstream.write body

objstream.position = 0

objstream.type = 2

objstream.charset = cset

bytestobstr = objstream.readtext

objstream.close

set objstream = nothing

'-----------------

end function

pcontent=bytestobstr(getbody(caiurl),"gb2312")

response.write(pcontent)

%

这样就可以把 网址/qqlogin.js 这个js文件采集到了,并存在pcontent变量中,如果要加入自己的代码,再把pcontent修改一下即可。

js采集代码的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于js采集网页内容、js采集代码的信息别忘了在本站进行查找喔。

版权说明:如非注明,本站文章均为 AH站长 原创,转载请注明出处和附带本文链接;

本文地址:http://ahzz.com.cn/post/22268.html


取消回复欢迎 发表评论:

分享到

温馨提示

下载成功了么?或者链接失效了?

联系我们反馈

立即下载