射手网复活攻略:用百度快照和phantomjs让射手网起死回生

2014-12-01 +15 506982人围观 ,发现 40 个不明物体 其他头条

牢骚

射手网关门了,声讨的话网上已经铺天盖地,我不想多啰嗦,我只说一句:

某些部门的老爷有折腾字幕组的闲工夫,不如去整治一下铺天盖地的电视购物骗子广告,我会给你们烧香感谢的。

正题

射手网关站之后,网上流传一个射手下载器,简单研究了一下,发现这东西调用的是射手播放器的api,一部电影只能获取一个字幕,无法选择,而且很多字幕都不匹配。

那么问题来了,既然射手播放器仍然可以获取字幕,那么证明字幕文件仍然存在于射手的服务器上。因为它们是同一个来源,我们能不能用其他方法也从服务器上得到字幕呢?也就是说,射手网只是关闭了前台页面,我们只要获取字幕的文件名索引,仍然可以下载到字幕文件,于是我想到了百度快照。

只需在百度里输入site:shooter.cn 电影名称,就会出现很多结果,这些结果现在直接打开,会跳转到射手首页,可是我们可以点击快照:

有的快照是结果页的,有的快照打开会出现字幕列表,如果出现列表,打开其中的任意一项仍然会跳转到首页,怎么办呢?好办,我们先去看列表里任意一项的链接,链接的最后是一个xml文件,我们用这个xml文件名做关键字继续搜索,就能得到它的结果页快照:


好了,第一步已经完成了,百度快照几乎保存了所有射手字幕的索引,只要用一定的技巧,都可以搜出来,那么接下来,我们就要获取字幕。

通过分析快照结果页中的射手源码,我发现了一个猫腻,即,射手的每一个字幕文件都有一个唯一的id,而这个id以下载次数的形式显示在每个字幕的页面中,也就是说,页面中显示的下载次数,并不是真正的次数,而是字幕的id号:

有了这个id,一切好办,射手现在还能访问的页面,除了那个告别首页,还有一个字幕上传页面 http://shooter.cn/sub/upload.html,网站都关了还留着上传页面干嘛?一定有问题,那么打开这个页面,查看一下里面所有的js代码:

终于,在loadmain.js里面我发现了这样的代码:

function shtgdownfile(g, j, f, d) {
    var a = makeXmlReq();
    try {
        g.target = ""
    } catch (c) {
        alert(c)
    }
    a.open("GET", "/files/file3.php?hash=" + shtg_filehash + "&fileid=" + j, false);
    a.send("");
    if (a.status == 200 || a.status == 304) {
        var b = a.responseText;
        if (b && b.indexOf("ERR:") < 0) {
            showcounter("downcounter", j, "file", "total", 1);
            b = (shtg_calcfilehash(b));
            var h = "http://file1.shooter.cn" + b;
            if (!d) {
                g.href = h;
                g.target = "_blank"
            }
            if (f) {
                location.href = h
            }
            return true
        }
    }
    alert("文件获取失败:" + a.status + " _ " + b)
}

一切一目了然,我们只需照做即可

首先,在浏览器里面输入: 

http://www.shooter.cn/files/file3.php?hash=duei7chy7gj59fjew73hdwh213f&fileid=所要下载的字幕文件的id

(其中,duei7chy7gj59fjew73hdwh213f就是上面代码中的shtg_filehash,它是个常量,值同样来自于loadmain.js),会返回如下的结果。注意这里的编码要用utf8,否则显示乱码:

这是一段经过变换的post参数,要变换回去,我们按照上面代码中所写,利用射手自身的一个函数

shtg_calcfilehash,先用浏览器访问http://shooter.cn/sub/upload.html,然后让浏览器执行:javascript:var address=shtg_calcfilehash('刚才得到的字符串');alert(address);

非常好,直接弹出了正确的post参数,在这段参数的前面加上http://file1.shooter.cn,直接访问,bingo!!!,字幕终于成功下载了!  

神器:自动化下载脚本

上面的下载过程实在太繁琐,如果有很多字幕要下载,每个都这样来一遍,不得累死啊,所以,一个下载脚本是必须的。

在这里我要介绍一个强大的爬虫引擎:phantomjs,它可以用javascript做开发,只有一个可执行文件却非常强大,实际上它是一个没有界面的webkit引擎浏览器,而且是跨平台的,它的好处一个是脚本语言直接使用js,这样页面中很多js函数它可以直接使用和修改,另一个是它可以方便的抓取到用ajax异步生成的页面。

好了,介绍结束,脚本代码如下:

/*
    Name: phantomjs射手字幕下载脚本
    File: shooter.js
    Author: b41k3r
*/
var system = require('system')
var fileid = system.args[1]; 
var page = require('webpage').create();
var execFile = require("child_process").execFile
var fs = require("fs");
var filename = "address.txt";
if (!fs.exists(filename)) {
  var file = fs.open(filename, 'a');
}else{
  fs.remove(filename);
  var file = fs.open(filename, 'a');
}
var url = "http://www.shooter.cn/files/file3.php?hash=duei7chy7gj59fjew73hdwh213f&fileid="+fileid;
page.open(url, function (status) {
if (status !== 'success') {
 console.log('Unable to post!');
} else {
         if (page.injectJs('filehash.js')) {
             var address = 'http://file1.shooter.cn' + page.evaluate(function(post_parameter) {return shtg_calcfilehash(post_parameter);},page.plainText);
             console.log(address);
             file.write(address);
             file.close();
             execFile("wget", ["-O", fileid + ".rar","-i", "address.txt"], null, function (err, stdout, stderr) {
             console.log("execFileSTDOUT:", JSON.stringify(stdout))
             console.log("execFileSTDERR:", JSON.stringify(stderr))
             })
        }
}
setTimeout(function () { phantom.exit(0) }, 2000) 
});

phantomjs没有下载功能,这里的下载直接调用了wget,另外注意上面的page.injectJs('filehash.js'),这个包含进来的filehash.js文件的内容实际上就是射手的变换函数shtg_calcfilehash,我把它放在了本地执行,phantomjs的好处在这里完全体现。

在命令行执行: phantomjs shooter.js 字幕文件的id :

脚本成功的下载了字幕。
一切大功告成,射手网复活了。

phantomjs以及脚本源码和wget打包下载

http://pan.baidu.com/s/1o6JVdW2

[本文由作者b41k3r撰写并投稿FreeBuf,版权属于b41k3r,转载须注明来自FreeBuf.COM]

这些评论亮了

  • z7y 回复
    某些部门的老爷有折腾字幕组的闲工夫,不如去整治一下铺天盖地的电视购物骗子广告,我会给你们烧香感谢的。
    )142( 亮了
  • zzz@zzz.com 回复
    然后射手就被彻底封了
    )30( 亮了
  • isno 回复
    嗯哼,有点意思
    其实还有一些小思路,比如http://www.archive.org/、cache hacking、甚至迅雷离线都是可以的!
    )12( 亮了
  • 某些部门的老爷有折腾字幕组的闲工夫,不如去整治一下铺天盖地的电视购物骗子广告,我会给你们烧香感谢的。
    )9( 亮了
发表评论

已有 40 条评论

取消
Loading...
css.php