代码: 全选
convmv -f gbk -t utf8 *.pdf
回想起下载页面的文字也为乱码,分析html,发现其使用charset=windows-1252,但html的实际编码为gbk,几经辗转,终于发现乱码导致的原因如下:
网页本身使用gbk,确声称自己使用windows-1252,Linux下载时文件名被从windows-1252编码转换成Linux的默认编码utf8。解决办法就是,把文件名进行uft8 -> windows-1252,得到原来的gbk编码,再进行gbk -> uft8 得到utf8编码的正确的文件名。命令如下:
代码: 全选
convmv -f utf8 -t windows-1252 --notest
convmv -f gbk -t utf8 --notest