sed替换unicode字符

前言

有时需要使用sed替换一些unicode字符,但sed本身是不支持unicode字符的

解决

需要将unicode字符转算为utf-8编码后使用类似C语言风格的16进制转义方法写入sed
比如A(U+0041)

  • \65
  • \x41
  • \0101

再比如U+00A0

  • \160
  • \xC2\xA0
  • \0302\0240

备注

10进制和8进制不可

工具

使用该网站可以获得字符对应的utf8编码
http://www.ltg.ed.ac.uk/~richard/utf-8.cgi?input=A0&mode=hex