sed替换unicode字符
前言
有时需要使用sed替换一些unicode字符,但sed本身是不支持unicode字符的
解决
需要将unicode字符转算为utf-8编码后使用类似C语言风格的16进制转义方法写入sed
比如A(U+0041)
- \65
- \x41
- \0101
再比如U+00A0
- \160
- \xC2\xA0
- \0302\0240
备注
10进制和8进制不可
工具
使用该网站可以获得字符对应的utf8编码
http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=A0&mode=hex