一天建立几十个全自动更新的外文站群挂Adsense之笔记

昨天的这个时候我开始着手做的,今天的这时候我终于完工了。相比于国内的百度、搜狗网盟,谷歌的Adsense的收入明显要高得多。但是国外站不好维护。我把关键的几个文件都传到Github了,因为抽风所以我在国内的oschina建了一个镜像:

http://git.oschina.net/cheneyveron/WebsiteGroup

https://github.com/cheneyveron/WebsiteGroup

一、批量建立网站
因为是外文站,所以域名都是类似于en.itmanbu.com的二级域名,所以略微修改一下以后新建网站的脚本在vhost.sh(因为有400多行所以不方便贴,github和oschina都放了一份),只需要拉到最下面,修改domain1数组和n的值就行了:

Add_Vhost() {
i=1
n=21
domain1[0]=”kor.itmanbu.com”
domain1[1]=”fra.itmanbu.com”
domain1[2]=”spa.itmanbu.com”
domain1[3]=”th.itmanbu.com”
domain1[4]=”ara.itmanbu.com”
domain1[5]=”ru.itmanbu.com”
domain1[6]=”pt.itmanbu.com”
domain1[7]=”de.itmanbu.com”
domain1[8]=”it.itmanbu.com”
domain1[9]=”el.itmanbu.com”
domain1[10]=”nl.itmanbu.com”
domain1[11]=”pl.itmanbu.com”
domain1[12]=”bul.itmanbu.com”
domain1[13]=”est.itmanbu.com”
domain1[14]=”dan.itmanbu.com”
domain1[15]=”fin.itmanbu.com”
domain1[16]=”cs.itmanbu.com”
domain1[17]=”rom.itmanbu.com”
domain1[18]=”slo.itmanbu.com”
domain1[19]=”swe.itmanbu.com”
domain1[20]=”hu.itmanbu.com”
for idx in ${!domain1[@]} ; do
echo
domain=${domain1[$idx]}
echo “adding $domain”
Choose_env
Input_Add_domain
Nginx_anti_hotlinking
Nginx_rewrite
Create_nginx_php-fpm_hhvm_conf
done
}
Bash
这个bash脚本我是直接改的Oneinstack中的vhost.sh,修改过的这个脚本一执行就会直接建立从en.itmanbu.com到hu.itmanbu.com这23个虚拟主机、绑定好域名、伪静态模式wordpress、有防盗链、无日志、无ssl。

二、安装wordpress
因为要安装不同语言版的wordpress所以我手动到官方找的各个语言版。

小提示
到谷歌搜索“wordpress 那个语言的语言名称”就能找到对应的wordpress版本,比如“wordpress česky”就能找到捷克语版wordpress

然后执行下面的语句解压文件和移动目录

cd ce.itmanbu.com
wget https://cs.wordpress.org/wordpress-4.3.1-cs_CZ.zip
unzip wordp*
mv ./wordpress/* ./
rm -rf ./wordpress
Bash
接下来打开ce.itmanbu.com安装就行。

什么?我要的自动化安装呢?
其实可以安装好一个以后复制数据库、写一个shell脚本复制文件、改mysql地址的。然而,我懒,而且预期工作量也不小。。。

三、Python爬虫采集并分离信息
因为我想采集的糗事百科禁止采集,所以得加一个伪装的浏览器头部信息(User-agent)才行,文件是testhttp.py,下面的内容最好别直接复制粘贴,毕竟空格不好办。

因为正规的网站往往源码很规范,所以用re.findall来分离的时候就比较好办,不过我还是查阅了正则表达式30分钟入门以后才搞定(.*)的意思。因为.是代表非换行符的任意字符所以在它的前后如果网页源码里有换行就不行,得用n来排除才行。*代表重复零次或更多次,组合起来就代表提取出任意非换行字符的组合。

#/usr/bin/env python
#coding=utf8
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8’)

#得到html的源码
def gethtml(url1):
#伪装浏览器头部
headers = {
‘User-Agent’:’Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6′
}
req = urllib2.Request(
url = url1,
headers = headers
)
html = urllib2.urlopen(req).read()
return html
#得到目标url源码
code1 = gethtml(‘http://www.qiushibaike.com/8hr/page/1’)
#提取内容
content1 = re.findall(‘

nn(.*)n