• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

武飞扬头像
老秦包你会
帮助1

目录

这是我的gitee仓库:https://gitee.com/qin-laoda/python-exercises

有兴趣的小可爱们可以点进去看看,

_________________________________

下面我们来按照爬虫思路找一下我们要爬的网页,并获取数据

下面我以https://ggzyfw.fujian.gov.cn/business/list/来爬取想要的数据

首先我们进去找到该网页,打开开发者工具找到如下所示:

学新通

图中我们没有搜索到想要的内容,那我们就查看源代码看看,如图:

学新通

可以看出也没有找到我们想要的数据,那就有可能是被加密了,下面我们就找到对应的接口其看看

如下图:

学新通 当我们随机点击一个看看就会发现,返回的是一堆看不懂的数据,其实这就是js加密后返回来的数据,下面我们就来进入正题

js是什么

  • JavaScript 是世界上最流行的语言之一,是一种运行在客户端的脚本语言 (Script 是脚本的意思)

  • 脚本语言:不需要编译,运行过程中由 js 解释器( js 引擎)逐行来进行解释并执行

  • 现在也可以基于 Node.js 技术进行服务器端编程

___________________________

下面我来说一些思路:

python代码跑爬虫,js代码去做参数加密

例如:

from:en

to:zh

query:hello

transtype:realtime

simple_means_flag:3

sign:54706.276099

token:12cb0bfe4bc476dc010333cfb8148927

domain:common

ts:1686129751591

sign是通过js加密的!   !   !  !,要去找到网站的sign加密的位置,然后把这段js代码扣下来,放到js文件里面执行,执行的结果要和网页的一样 ,比如网页的sign:54706.276099,我们执行的结果也要是这样的

总结一小下:就是通过python代码运行js文件,js文件返回结果给python,然后python再利用

来发送请求

js文件的查找和扣代码

下面我来讲解怎么找到页面的js文件

以百度翻译为例https://fanyi.百度.com/translate?aldtype=16047&query=hello &keyfrom=百度&smartresult=dict&lang=auto2zh#en/zh/hello

第一步:学新通

 第二步:

学新通

 第三步:

学新通

第四步:

学新通

 第五步(找到含有对应内容的就是文件,然后打一个标记,再继续找直到找完全部): 

学新通第六步让js代码运行到断点那里就慢慢那调试

学新通

 第七步:

我们要好好分析一下

学新通

 第八步点击进去会有一下的提示

学新通

 第九步:学新通

 第十步:找到对应的js代码:

  1.  
    function n(t, e) {
  2.  
    for (var n = 0; n < e.length - 2; n = 3) {
  3.  
    var r = e.charAt(n 2);
  4.  
    r = "a" <= r ? r.charCodeAt(0) - 87 : Number(r),
  5.  
    r = " " === e.charAt(n 1) ? t >>> r : t << r,
  6.  
    t = " " === e.charAt(n) ? t r & 4294967295 : t ^ r
  7.  
    }
  8.  
    return t
  9.  
    }
  10.  
    function arr(t) {
  11.  
    var o, i = t.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
  12.  
    if (null === i) {
  13.  
    var a = t.length;
  14.  
    a > 30 && (t = "".concat(t.substr(0, 10)).concat(t.substr(Math.floor(a / 2) - 5, 10)).concat(t.substr(-10, 10)))
  15.  
    } else {
  16.  
    for (var s = t.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), c = 0, l = s.length, u = []; c < l; c )
  17.  
    "" !== s[c] && u.push.apply(u, function(t) {
  18.  
    if (Array.isArray(t))
  19.  
    return e(t)
  20.  
    }(o = s[c].split("")) || function(t) {
  21.  
    if ("undefined" != typeof Symbol && null != t[Symbol.iterator] || null != t["@@iterator"])
  22.  
    return Array.from(t)
  23.  
    }(o) || function(t, n) {
  24.  
    if (t) {
  25.  
    if ("string" == typeof t)
  26.  
    return e(t, n);
  27.  
    var r = Object.prototype.toString.call(t).slice(8, -1);
  28.  
    return "Object" === r && t.constructor && (r = t.constructor.name),
  29.  
    "Map" === r || "Set" === r ? Array.from(t) : "Arguments" === r || /^(?:Ui|I)nt(?:8|16|32)(?:Clamped)?Array$/.test(r) ? e(t, n) : void 0
  30.  
    }
  31.  
    }(o) || function() {
  32.  
    throw new TypeError("Invalid attempt to spread non-iterable instance.\nIn order to be iterable, non-array objects must have a [Symbol.iterator]() method.")
  33.  
    }()),
  34.  
    c !== l - 1 && u.push(i[c]);
  35.  
    var p = u.length;
  36.  
    p > 30 && (t = u.slice(0, 10).join("") u.slice(Math.floor(p / 2) - 5, Math.floor(p / 2) 5).join("") u.slice(-10).join(""))
  37.  
    }
  38.  
    r='320305.131321201'
  39.  
    for (var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107)), h = (null !== r ? r : (r = window[d] || "") || "").split("."), f = Number(h[0]) || 0, m = Number(h[1]) || 0, g = [], y = 0, v = 0; v < t.length; v ) {
  40.  
    var _ = t.charCodeAt(v);
  41.  
    _ < 128 ? g[y ] = _ : (_ < 2048 ? g[y ] = _ >> 6 | 192 : (55296 == (64512 & _) && v 1 < t.length && 56320 == (64512 & t.charCodeAt(v 1)) ? (_ = 65536 ((1023 & _) << 10) (1023 & t.charCodeAt( v)),
  42.  
    g[y ] = _ >> 18 | 240,
  43.  
    g[y ] = _ >> 12 & 63 | 128) : g[y ] = _ >> 12 | 224,
  44.  
    g[y ] = _ >> 6 & 63 | 128),
  45.  
    g[y ] = 63 & _ | 128)
  46.  
    }
  47.  
    for (var b = f, w = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(97)) "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(54)), k = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(51)) "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(98)) "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(102)), x = 0; x < g.length; x )
  48.  
    b = n(b = g[x], w);
  49.  
    return b = n(b, k),
  50.  
    (b ^= m) < 0 && (b = 2147483648 (2147483647 & b)),
  51.  
    "".concat((b %= 1e6).toString(), ".").concat(b ^ f)
  52.  
    }
  53.  
     
  54.  
     
  55.  
     
  56.  
    console.log(arr("你好"));
学新通

结果:

学新通

 这里我们不要高兴得太早,因为我们只完成了js,还有python代码没完成

利用python代码执行js

安装python模块PyExecjs

pip install PyExecJS

js文件:

  1.  
    function n(t, e) {
  2.  
    for (var n = 0; n < e.length - 2; n = 3) {
  3.  
    var r = e.charAt(n 2);
  4.  
    r = "a" <= r ? r.charCodeAt(0) - 87 : Number(r),
  5.  
    r = " " === e.charAt(n 1) ? t >>> r : t << r,
  6.  
    t = " " === e.charAt(n) ? t r & 4294967295 : t ^ r
  7.  
    }
  8.  
    return t
  9.  
    }
  10.  
    function arr(t) {
  11.  
    var o, i = t.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
  12.  
    if (null === i) {
  13.  
    var a = t.length;
  14.  
    a > 30 && (t = "".concat(t.substr(0, 10)).concat(t.substr(Math.floor(a / 2) - 5, 10)).concat(t.substr(-10, 10)))
  15.  
    } else {
  16.  
    for (var s = t.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), c = 0, l = s.length, u = []; c < l; c )
  17.  
    "" !== s[c] && u.push.apply(u, function(t) {
  18.  
    if (Array.isArray(t))
  19.  
    return e(t)
  20.  
    }(o = s[c].split("")) || function(t) {
  21.  
    if ("undefined" != typeof Symbol && null != t[Symbol.iterator] || null != t["@@iterator"])
  22.  
    return Array.from(t)
  23.  
    }(o) || function(t, n) {
  24.  
    if (t) {
  25.  
    if ("string" == typeof t)
  26.  
    return e(t, n);
  27.  
    var r = Object.prototype.toString.call(t).slice(8, -1);
  28.  
    return "Object" === r && t.constructor && (r = t.constructor.name),
  29.  
    "Map" === r || "Set" === r ? Array.from(t) : "Arguments" === r || /^(?:Ui|I)nt(?:8|16|32)(?:Clamped)?Array$/.test(r) ? e(t, n) : void 0
  30.  
    }
  31.  
    }(o) || function() {
  32.  
    throw new TypeError("Invalid attempt to spread non-iterable instance.\nIn order to be iterable, non-array objects must have a [Symbol.iterator]() method.")
  33.  
    }()),
  34.  
    c !== l - 1 && u.push(i[c]);
  35.  
    var p = u.length;
  36.  
    p > 30 && (t = u.slice(0, 10).join("") u.slice(Math.floor(p / 2) - 5, Math.floor(p / 2) 5).join("") u.slice(-10).join(""))
  37.  
    }
  38.  
    r='320305.131321201'
  39.  
    for (var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107)), h = (null !== r ? r : (r = window[d] || "") || "").split("."), f = Number(h[0]) || 0, m = Number(h[1]) || 0, g = [], y = 0, v = 0; v < t.length; v ) {
  40.  
    var _ = t.charCodeAt(v);
  41.  
    _ < 128 ? g[y ] = _ : (_ < 2048 ? g[y ] = _ >> 6 | 192 : (55296 == (64512 & _) && v 1 < t.length && 56320 == (64512 & t.charCodeAt(v 1)) ? (_ = 65536 ((1023 & _) << 10) (1023 & t.charCodeAt( v)),
  42.  
    g[y ] = _ >> 18 | 240,
  43.  
    g[y ] = _ >> 12 & 63 | 128) : g[y ] = _ >> 12 | 224,
  44.  
    g[y ] = _ >> 6 & 63 | 128),
  45.  
    g[y ] = 63 & _ | 128)
  46.  
    }
  47.  
    for (var b = f, w = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(97)) "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(54)), k = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(51)) "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(98)) "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(102)), x = 0; x < g.length; x )
  48.  
    b = n(b = g[x], w);
  49.  
    return b = n(b, k),
  50.  
    (b ^= m) < 0 && (b = 2147483648 (2147483647 & b)),
  51.  
    "".concat((b %= 1e6).toString(), ".").concat(b ^ f)
  52.  
    }
学新通

py文件:

  1.  
    ef get_js_function(js_path,js_function,js_args=None):
  2.  
    with open(js_path,"r",encoding="utf-8")as f:
  3.  
    js=f.read()
  4.  
    #编译js文件
  5.  
    ret=execjs.compile(js)
  6.  
    #执行js中的函数
  7.  
    dem=ret.call(js_function,js_args)
  8.  
    print(dem)
  9.  
    return dem
  10.  
     
  11.  
    # get_js_function("./demo.js","arr","你好")

execjs.compile(js)可以理解为创建一个对象

call(js的函数名,传入js函数的参数)

下面我再来一个例子:

https://ggzyfw.fujian.gov.cn/business/list/

由于前面我已经讲过了,小可爱可以套用,我们直接来到js加密

学新通

 学新通

 可以看出来这里加密的不是sign,而是response返回的数据进行了加密,

如果细心的小可爱也发现了,

学新通

 学新通

 这两个不一样,会造成我们访问失败,所以我们在遇见有Data的时候,post 请求就用data来接收,遇见Request就用json接收例如:requests.post(url,headers=header,json=data)

下面我写了一些代码爬取加密文件的:

学新通

 请求头加密了学新通

返回结果加密了

思路:加密发送请求头,解密获取数据

python文件:

  1.  
    import requests
  2.  
    import execjs
  3.  
    import time
  4.  
    from jsonpath import jsonpath
  5.  
     
  6.  
     
  7.  
     
  8.  
    def main():
  9.  
    """主要的业务逻辑"""
  10.  
     
  11.  
    # url
  12.  
    url="https://ggzyfw.fujian.gov.cn/FwPortalApi/Trade/TradeInfo"
  13.  
     
  14.  
    data={
  15.  
    'AREACODE':"",
  16.  
    'BeginTime':"2022-12-07 00:00:00",
  17.  
    'EndTime':"2023-06-07 23:59:59",
  18.  
    'GGTYPE':"1",
  19.  
    'KIND':"GCJS",
  20.  
    'M_PROJECT_TYPE':"",
  21.  
    'PROTYPE':"",
  22.  
    'createTime':[],
  23.  
    'pageNo':3,
  24.  
    'pageSize':20,
  25.  
    'timeType':"6",
  26.  
    'total':3537,
  27.  
    'ts':int(time.time()*1000)
  28.  
    }
  29.  
     
  30.  
     
  31.  
    def js_parth(js_path, js_function, js_args=None):
  32.  
    with open(js_path, "r", encoding="utf-8")as f:
  33.  
    js = f.read()
  34.  
    # 编译js文件
  35.  
    js_pa = execjs.compile(js,cwd=r"C:\Users\32288\WebstormProjects\untitled\node_modules\crypto-js")
  36.  
    # 运行js的函数
  37.  
    resuit = js_pa.call(js_function, js_args)
  38.  
    return resuit
  39.  
     
  40.  
    ps = js_parth("./02.js", "d", data)
  41.  
    header = {
  42.  
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",
  43.  
    "Host": "ggzyfw.fujian.gov.cn",
  44.  
    "Origin": "https://ggzyfw.fujian.gov.cn",
  45.  
    "Referer": "https://ggzyfw.fujian.gov.cn/business/list/",
  46.  
    "Portal-Sign":ps,
  47.  
    "Content-Type": "application/json;charset=UTF-8",
  48.  
    "Accept": "application/json, text/plain, */*"
  49.  
     
  50.  
    }
  51.  
    response=requests.post(url,headers=header,json=data)
  52.  
    # print(response.json())
  53.  
     
  54.  
    # 创建一个json对象
  55.  
    path=jsonpath(response.json(),"$..Data")[0]
  56.  
    print(path)
  57.  
    data_html=js_parth("./jiemi.js","b",path)
  58.  
    print(data_html)
  59.  
    # 发送请求获取响应
  60.  
    # 数据的提取
  61.  
    # 保存
  62.  
     
  63.  
    if __name__ == '__main__':
  64.  
    main()
学新通

js文件(加密版):

  1.  
    //导入
  2.  
    const CrypyoJS=require("crypto-js");
  3.  
    // import CryptoJS from "crypto-js";
  4.  
     
  5.  
     
  6.  
     
  7.  
     
  8.  
     
  9.  
    data={
  10.  
    'AREACODE':"",
  11.  
    'BeginTime':"2022-12-07 00:00:00",
  12.  
    'EndTime':"2023-06-07 23:59:59",
  13.  
    'GGTYPE':"1",
  14.  
    'KIND':"GCJS",
  15.  
    'M_PROJECT_TYPE':"",
  16.  
    'PROTYPE':"",
  17.  
    'createTime':[],
  18.  
    'pageNo':3,
  19.  
    'pageSize':20,
  20.  
    'timeType':"6",
  21.  
    'total':3537,
  22.  
    'ts':new Date().getTime()//时间戳
  23.  
    }
  24.  
    //57e776a8c23455410734cca06cd62a38
  25.  
    //0f3aa7843dfec2c0ac67e2c66d1d6418
  26.  
    //4ff85b173651722cc354ce032b2de64d
  27.  
    // 7ca9c7f6af67a6c3585984c61c49b0a1
  28.  
    function u(t, e) {
  29.  
    return t.toString().toUpperCase() > e.toString().toUpperCase() ? 1 : t.toString().toUpperCase() == e.toString().toUpperCase() ? 0 : -1
  30.  
    }
  31.  
     
  32.  
    function l(t) {
  33.  
    for (var e = Object.keys(t).sort(u), n = "", a = 0; a < e.length; a )
  34.  
    if (void 0 !== t[e[a]])
  35.  
    if (t[e[a]] && t[e[a]]instanceof Object || t[e[a]]instanceof Array) {
  36.  
    var i = JSON.stringify(t[e[a]]);
  37.  
    n = e[a] i
  38.  
    } else
  39.  
    n = e[a] t[e[a]];
  40.  
    return n
  41.  
    }
  42.  
     
  43.  
    function d(t) {
  44.  
    for (var e in t)
  45.  
    "" !== t[e] && void 0 !== t[e] || delete t[e];
  46.  
    var n = '3637CB36B2E54A72A7002978D0506CDF' l(t);
  47.  
    return CrypyoJS.MD5(n).toString()
  48.  
    }
  49.  
    // console.log(d(data))
  50.  
     
学新通

js解密版:

  1.  
     
  2.  
    const CryptoJS=require("crypto-js")
  3.  
     
  4.  
    function b(t) {
  5.  
    var e = CryptoJS.enc.Utf8.parse('BE45D593014E4A4EB4449737660876CE')
  6.  
    , n =CryptoJS.enc.Utf8.parse('A8909931867B0425')
  7.  
    , a = CryptoJS.AES.decrypt(t, e, {
  8.  
    iv: n,
  9.  
    mode:CryptoJS.mode.CBC,
  10.  
    padding: CryptoJS.pad.Pkcs7
  11.  
    });
  12.  
    return a.toString(CryptoJS.enc.Utf8)
  13.  
    }

运行最终结果:

学新通

 下面我来讲解一下问题所在:

1.当我们发送请求时如果没有响应,一般都会增加发送请求头的数量,在python文件中可以看出加了许多的请求头

2.execjs.complied(js,cwd=js文件中导入的模块的下载的文件路径)

3.要学会打断点

4.要知道页面的js文件有AES等字眼的一般都是加密算法,需要我们寻找对应的加密和解密

5.js的导入为:const CrypyoJS=require("crypto-js");
// import CryptoJS from "crypto-js";

这两个的其中一个

6.js时间戳的写法:

new Date().getTime()

7.还有一个python文件执行的js的老问题就是编码问题

总结:我们懂得JS逆向的思路,js执行js代码进行加密和解密(这个过程需要我们一步步找问题,解决问题,),利用python代码运行js文件,利用返回的结果进行发送请求或者提取数据进行保存

本篇文章来至:学新通

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通
  • 本文地址: https://www.swvq.com/boutique/detail/tanhckegga
  • 联系方式: luke.wu#vfv.cc
系列文章
更多 icon
同类精品
更多 icon
我要评论
我的头像
精彩评论
继续加载