也谈rsync

目前工作的公司上线是通过rsync来同步代码的,前公司则是用ftp发布代码到预发布环境然后再用rsync实时同步到线上环境,今天就来看下rsync这个强大的工具

what’s rsync

rsync(remote synchronization)是*nix下一款同步软件,用于远程同步,备份文件,当然也可以本地做同步备份操作。

rsync 可以在中断之后恢复传输;它只传输源文件和目标文件之间不一致的部分;rsync 可以执行完整备份或增量备份。更棒的是,在所有风格的 UNIX 上都可以使用 rsync,包括 Mac OS X,所以很容易连接任何系统。

how to use rsync

shell模式(本地模式)

先来看下目录结构

[root@localhost tmp]# tree -L 2
.
├── rsync1
│   ├── 1.txt
│   ├── a.txt
│   ├── c.txt
│   └── v.txt
├── rsync2
│   └── 1.txt

要将rsync1中的内容完全同步到rsync2中

[root@localhost tmp]# rsync -avz rsync1/ rsync2
sending incremental file list
./
a.txt
c.txt
v.txt

sent 189 bytes  received 72 bytes  522.00 bytes/sec
total size is 0  speedup is 0.00

远程shell模式

[root@localhost tmp]# rsync -avz rsync1/ root@192.168.22.81:/tmp
root@192.168.22.81's password: 
sending incremental file list
./
1.txt
a.txt
c.txt
v.txt

sent 225 bytes  received 91 bytes  9.16 bytes/sec
total size is 0  speedup is 0.00

列表模式

[root@localhost tmp]# rsync rsync1/
drwxr-xr-x        4096 2014/02/20 13:42:21 .
-rw-r--r--           0 2014/02/18 16:41:47 1.txt
-rw-r--r--           0 2014/02/20 13:42:21 a.txt
-rw-r--r--           0 2014/02/20 13:42:21 c.txt
-rw-r--r--           0 2014/02/20 13:42:21 v.txt

这个和ll命令是一样的

服务器模式

在rsyncd下有下列rsync服务的配置

[root@localhost rsyncd]# pwd && ll
/etc/rsyncd
total 12
-rw-r--r-- 1 root root 808 Feb 19 16:21 rsyncd.conf
-rw-r--r-- 1 root root  36 Feb 19 15:10 rsyncd.motd
-rw------- 1 root root  12 Feb 19 15:10 rsyncd.secrets

rsyncd.conf是主要配置文件,

pid file = /var/run/rsyncd.pid  
port = 873
#address = *
uid = root  
gid = root  
use chroot = yes
read only = yes

#limit access to private LANs
hosts allow=*
#hosts deny=*

max connections = 5
motd file = /etc/rsyncd/rsyncd.motd

#This will give you a separate log file
log file = /var/log/rsync.log

#This will log every file transferred - up to 85,000+ per user, per sync
#transfer logging = yes

log format = %t %a %m %f %b
syslog facility = local3
timeout = 300

[root_tmpTrans]  
path = /tmp/rsnctrans
list=yes
ignore errors
auth users = root
secrets file = /etc/rsyncd/rsyncd.secrets
comment = balabala
exclude =   .git/ .svn/

rsyncd.secrets是执行同步、备份的账号,格式为user:password

root:123456

rsyncd.motd是执行时的欢迎信息(message of the day)

hi---------------------------------

现在我们启动rsync服务

rsync --daemon --config=/etc/rsyncd.conf

现在从另一台机器上看这个守护进程

root@ubuntu:/tmp# rsync 192.168.22.81::
hi---------------------------------

root_tmpTrans   balabala

指定模板名称

root@ubuntu:/tmp# rsync 192.168.22.81::root_tmpTrans
hi---------------------------------

Password: 
drwxr-xr-x        4096 2014/02/19 16:43:38 .
-rw-r--r--           0 2014/02/19 15:13:19 a.txt
-rw-r--r--           0 2014/02/19 16:43:38 c.txt
-rw-r--r--           0 2014/02/19 16:37:40 v.txt

注意上面两个例子,访问服务器模式的时候,有两个冒号
此时,直接利用rsync服务器模式,来备份,同步文件,和前面的模式类似

联系上crontab,写好需要的shell脚本,将备份和同步自动话,定时执行,这样就可以应用到更多的场景中。

题外话:1.这篇文章已经在草稿箱躺了2个月了,OMG.2.今天装了markdown插件,第一次用markdown写wordpress,有些地方不是很好用.3.最近心情不好,状态极差.

sed的模式空间和暂存空间

关于sed(stream editor):

————sed是一个批处理(非交互式)编辑器。它可以变换来自文件或者标准输入的输入流。它常被用作管道中的过滤器。由于sed仅仅对其输入扫描一次,因此它比其他交互式编辑器(如ed)更高效。大多数linux发行版都提供了GNU sed,Mac OS X提供了BSD sed。『A Practical Guide to Linux Commands, Editors, and Shell Programming, chapter 13』

sed和awk一样,都是经典的linux神器,网上有大量相关教程,比如很不错的左耳朵耗子博客。今天想记录下之前并没有理解透的暂存空间和模式空间相关的操作(感觉自己智商一直在下降- -)。

模式空间[pattern space]是一个缓冲区,该缓冲区最初保存sed刚刚从输入中读取的行。在将数据放入暂存空间之前,他的内容为空。

暂存空间[hold space]也是一个缓冲区,该缓冲区可以在操作模式空间中的数据时用来暂存数据。

几个命令:

g: 将hold space中的内容拷贝到pattern space中,原来pattern space里的内容清除
G: 将hold space中的内容append到pattern space\n后
h: 将pattern space中的内容拷贝到hold space中,原来的hold space里的内容被清除
H: 将pattern space中的内容append到hold space\n后
x: 交换pattern space和hold space的内容

看这样一个文件

aladdin@ubuntu:~/tmp$ cat sedtext 
line one
line two
line three

我们看这样一条命令

aladdin@ubuntu:~/tmp$ sed '2,$G;h;$!d' sedtext 
line three
line two
line one

我们来分析一下:

首先,这边sed对sedtext有3个命令的操作

2,$G:从第二行到最后一行执行G命令

h:执行h命令

$!d:删除除了最后一行的所有行

然后看其中具体操作

第一步,sed扫描到第一行,直接执行第二个命令,将模式空间中的内容拷贝到暂存空间中,此时模式空间中是line one,暂存空间中是line one,然后执行第三个命令,删除了模式空间中的第一行,此时模式空间中为空,暂存空间中为line one,

第二步,sed扫描到了第二行,会执行第一个命令G了,此时模式空间中是line two,暂存空间中是line one,G将换行符和暂存空间内容追加到模式空间中,此时模式空间是line two\nline one,暂存空间是line one,然后执行第二个命令,将模式空间中的内容拷贝到暂存空间中,此时模式空间不变,暂存空间为line two\nline one,执行第三个命令之后,模式空间为空,暂存空间为line two\nline one

第三步,sed扫描到第三行,会执行第一个命令G,模式空间为line three,暂存空间是line two\nline one,执行之后模式空间是line three\nline two\nline one,暂存空间是line two\nline one,然后h命令,模式空间不变,暂存空间line three\nline two\nline one然后不执行第三条命令,ok,结束,打印的就是最后模式空间爱你中的内容line three\nline two\nline one

我们可以看下sed '1!G;h;$!d' sedtext也可达到同样效果。

如何用linux神器AWK查询开房记录

前一段时间火热的2000w开房记录,加菲同学给了我一份,话说当初拿到文件的时候,我二话没说,写了一个php脚本,在windows下往mysql插,不曾想,插了1w余条便502而死。而后又改进脚本,在cli模式下,开了11个窗口,跑了十几分钟的样子终于都入了mysql,但是在未建索引的情况下,搜索varchar类型的字段,每次搜索都超过2分钟。如此低效,令人发指。正好近期学习完awk章节,期间拿记录文件来测试,效率极高,今日总结此文,权当巩固知识之用了,如若看官能从此文习得一招两式,荣幸之至。

关于AWK,介绍如下:

AWK的作者(Alfred V.Aho && Peter J.Weinberger && Brain W.Kernighan),他是一种模式扫描与处理语言,搜索一个或者多个文件,以查看这些文件中是否存在匹配指定模式的记录(通常是文本行)。每次发现匹配的记录时,它通过执行动作的方式(比如将该记录写到标准输出或者将某个计数器递增)来处理文本行。与过程语言相反,AWK属于数据驱动语言:用户描述想要处理的数据并告诉AWK当它发现这些数据时如何处理他们。

我手里拿到的是一份2000w开放记录的csv文件压缩包(对于其完整性不要太抱期望),因为此次泄漏的记录本身只是部分时间段的部分文件而已。文件列表如下

-rw-------  1 aladdin aladdin 303M Jun 27 21:23 1000W-1200W.csv
-rw-------  1 aladdin aladdin 294M Jun 27 21:30 1200W-1400W.csv
-rw-------  1 aladdin aladdin 333M Jun 27 20:24 1-200W.csv
-rw-------  1 aladdin aladdin 306M Jun 27 21:43 1400W-1600W.csv
-rw-------  1 aladdin aladdin 296M Jun 27 22:07 1600w-1800w.csv
-rw-------  1 aladdin aladdin 285M Jun 27 22:20 1800w-2000w.csv
-rw-------  1 aladdin aladdin 297M Jun 27 20:32 200W-400W.csv
-rw-------  1 aladdin aladdin 297M Jun 27 20:49 400W-600W.csv
-rw-------  1 aladdin aladdin 295M Jun 27 21:02 600W-800W.csv
-rw-------  1 aladdin aladdin 297M Jun 27 21:15 800W-1000W.csv
-rw-------  1 aladdin aladdin 7.2M Jun 27 22:25 last5000.csv

如果你迫不及待想用你的姓名,生日,身份证号等等信息查询你是否在记录中,一条语句便可

awk '/王X/ && /靖江/' 1000W-1200W.csv 1200W-1400W.csv 1-200W.csv 1400W-1600W.csv 1600w-1800w.csv 1800w-2000w.csv 200W-400W.csv 400W-600W.csv 600W-800W.csv 800W-1000W.csv last5000.csv

这语句很易懂,就是在这些数据文件中将匹配模式  ‘/王X/ && /靖江/’  的记录打印出来,我们先来看结果,10秒多的时间,搜寻近3G的文件内容之后,cpu和内存占用没有明显的数据变化,结果已然如列:

王X,,,ID,321XXXXXXXXXXX5028,F,19xxxxxx,江苏省靖江市XXXXXX,,F,,CHN,32,3201,,,,,,,,,,汉,,,,,,,0,2012-12-29 17:50:49,13773207
王X,,,ID,321XXXXXXXXXXX5218,M,19xxxxxx,江苏省靖江市XXXXXXXXXXXX,,F,,CHN,32,321282,,,,,,,,,,汉,,,,,,,0,2012-6-6 13:52:38,14885090
王X,,,ID,321XXXXXXXXXXX043X,M,19xxxxxx,江苏省靖江市XXXXXXXXXXX,,F,,CHN,32,3201,,,,,,,,,,汉,,,,,,,0,2011-1-19 3:05:42,5593856
王X,,,ID,321XXXXXXXXXXX1817,M,19xxxxxx,江苏省靖江市XXXXXXXXXX,,F,,CHN,32,320105,,,,,,,***********,,,汉,,,,,,,0,2011-6-12 13:52:38,8115281
王X,,,ID,320XXXXXXXXXXXX92X,F,19xxxxxx,江苏省靖江市XXXXXXXXXXXX,,F,,CHN,32,3201,,,,,,,,,,汉,,,,,,,0,2011-9-14 7:21:50,9908197

姓名,身份证号,性别,生日,户口住址,开房时间……一目了然,我们来分析下这个语句

awk '/pattern/' file-lists  # 这里的pattern支持与/或等各种逻辑,斜杠表示:这里是个正则表达式

其实这里是有个缺省动作{print}的,打印(即复制到标准输出)匹配出的记录,原理了然。

 

为方便实验,我们下面拷贝下last5000.csv这个文件,用拷贝的文件来做实验。假定拷贝的文件是test.csv.用下面这个命令

awk '{print}' test.csv | less

大概看下文件,列一下字段名,内容截屏就不放了

Name,CardNo,Descriot,CtfTp,CtfId,Gender,Birthday,Address,Zip,Dirty,District1,District2,District3,District4,District5,District6,FirstNm,LastNm,Duty,Mobile,Tel,Fax,EMail,Nation,Taste,Education,Company,CTel,CAddress,CZip,Family,Version,id

将文件中的字段分割符用制表符代替,生成tmp.csv文件

sed 's/,/\t_/g' test.csv > tmp.csv

通过awk得到我们需要的字段,存到dealed.csv文件中

awk '{print $1,$5,$6,$7,$8,$32}' > dealed.csv

好的,现在有了处理好的文件dealed.csv,那么我们来把玩一番

先来看下男女比例

 awk '$3 ~ /_M/' dealed.csv | wc && awk '$3 ~ /_F/' dealed.csv | wc

输出

31179  187081 2792791
16085   96513 1455873

我们看到,是31179:16085,没有性别的忽略了,仅最小的这个文件来看,男比女大概是2:1的样子,额,说明了什么问题?看官自己发挥想象力吧

再来看看年份情况

awk '$4 ~ /^(_196)/' dealed.csv | wc && awk '$4 ~ /^(_197)/' dealed.csv | wc && awk '$4 ~ /^(_198)/' dealed.csv | wc && awk '$4 ~ /^(_199)/' dealed.csv | wc

输出

4885   29310  447630
9706   58239  884200
20533  123201 1831734
8100   48601  784771

明显看出80后占据开房主力地位!

再来看各年龄层女性占比

awk '$4 ~ /^(_196)/ && $3 ~ /_F/' dealed.csv | wc && awk '$4 ~ /^(_197)/ && $3 ~ /_F/' dealed.csv | wc && awk '$4 ~ /^(_198)/ && $3 ~ /_F/' dealed.csv | wc && awk '$4 ~ /^(_199)/ && $3 ~ /_F/' dealed.csv | wc

输出

   1359    8154  122638
   2922   17533  259771
   7124   42746  634798
   3736   22416  360216

擦,90后女生比例明显高了。

ok,这边先这样。

 

来看看awk 带有-f选项的用法,又能对开放记录做什么手术呢?

引入文件ald

{
if ($4 ~ /^(_199)/ && $3 ~ /_F/) $1 = "阿拉丁和"$1"开房了,今天是"$6
if ($1 ~ /阿拉丁/) print
}

然后awk -f之

awk -f ald dealed.csv | less

xx

我靠,楼主一下子和n个90后妹纸开房了,开个玩笑~

楼主表示,不会泄漏任何信息,也别向楼主提出任何查询请求,本文仅用于技术探讨,over。

 

vps开通最低权限的ssh用于科学上网

vps增加SSH账号用来代理上网,即开通没有shell权限的SSH帐号的方法:(说明:此账号没有SSH登陆权限)

useradd -M -s /sbin/nologin -n username # 说明,username表示开通的ssh账号
userdel -r username # 删除用户
passwd username # 修改用户密码

操作实例演示:
比如要添加用户名为 SSH001 的账号,账号密码为:123 可以进行如下操作:
首先以root身份登录vps

[root@hc] useradd -M -s /sbin/nologin -n ssh001
[root@hc] passwd ssh001
Changing password for user ssh001
New UNIX password:123 # 实际操作中,这里的密码是不会显示的
Retype new UNIX password:123 # 实际操作中,这里的密码是不会显示的
passwd: all authenication tokens updated successfully.

注意:当你输入密码时,屏幕是没有任何字符显示的,系统会让你输入两次密码,来确认是否一致。
当出现最后一行的提示时,说明密码修改成功

[来源]