【已解决】pdf转txt有不合理的断行,应该如何解决?

系统字体配置、中文显示和输入法问题
回复
头像
yq-ysy
论坛版主
帖子: 4463
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

【已解决】pdf转txt有不合理的断行,应该如何解决?

#1

帖子 yq-ysy » 2021-11-12 18:04

最近想把英文版的 LibreOffice 电子表格《 Calc 7.0 指南》PDF文件上传到国内的谷歌文档翻译,
结果提示“超过10M”无法翻译,压缩图片文件6.3M能上传了,但等了半天的结果是断开服务器。

于是用 pdftotext 命令转换为 txt 文件,发现pdf转txt有不合理的断行,
似乎一句话不能超过一行,超长的英文句子在第二行被算作另一句了。
用网上的“在线pdf转txt”也是这样的结果,不知应该如何解决?

这个PDF英文原版地址:
https://documentation.libreoffice.org/a ... rGuide.pdf

【解决方法】
先用这个网站 https://www.alltoall.net/ 把PDF转为word格式,
(这网站不限文件大小,几百页的书籍也能转,很棒!)
然后用 LibreOffice 的 Writer 把 docx 转为 txt 就行了,段落句子很完整,没有不合理的强制断行。
头像
astolia
论坛版主
帖子: 6499
注册时间: 2008-09-18 13:11

Re: pdf转txt有不合理的断行,应该如何解决?

#2

帖子 astolia » 2021-11-12 19:51

这个没有特别好的办法。因为对于pdf文件格式而言,不存在“段落”这个概念。pdf中的文本对象,仅仅是页面上特定坐标区域中的一段文字。而在制作pdf文件时,为了保证排版的精确性,软件基本都会将段落拆分成多个区域。并不存在一个简单可靠的方法来判断多个区域是否属于原始文本中的同一段落。
头像
yq-ysy
论坛版主
帖子: 4463
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

Re: pdf转txt有不合理的断行,应该如何解决?

#3

帖子 yq-ysy » 2021-11-12 20:13

astolia 写了: 2021-11-12 19:51 这个没有特别好的办法。因为对于pdf文件格式而言,不存在“段落”这个概念。pdf中的文本对象,仅仅是页面上特定坐标区域中的一段文字。而在制作pdf文件时,为了保证排版的精确性,软件基本都会将段落拆分成多个区域。并不存在一个简单可靠的方法来判断多个区域是否属于原始文本中的同一段落。
是啊,在 Linux 下试了几个软件都是这样。
在Linux下,LibreOffice里的Draw也是显示为行一个框框,Scribus也是这样显示。
用windows下的福昕Foxit来转换txt也是按格式断行。看来真没什么办法。

好在找到一个解决方法:
先用这个网站 https://www.alltoall.net/ 把PDF转为word格式,
(这网站不限文件大小,几百页的书籍也能转,很棒!)
然后用 LibreOffice 的 Writer 把 docx 转为 txt 就行了,段落句子很完整,没有不合理的强制断行。

话说我现在对PDF没什么好感了,不支持动图,编辑转换又麻烦……还不如用 HTML5 好。
头像
astolia
论坛版主
帖子: 6499
注册时间: 2008-09-18 13:11

Re: pdf转txt有不合理的断行,应该如何解决?

#4

帖子 astolia » 2021-11-13 11:18

yq-ysy 写了: 2021-11-12 20:13 话说我现在对PDF没什么好感了,不支持动图,编辑转换又麻烦……还不如用 HTML5 好。
PDF最初是为精确显示/打印而设计的,本身就不打算让人编辑
头像
驿窗project
帖子: 226
注册时间: 2019-01-17 12:17
系统: Arch/Debian
联系:

Re: 【已解决】pdf转txt有不合理的断行,应该如何解决?

#5

帖子 驿窗project » 2021-11-13 16:04

如果是翻译的话,使用官方提供的odt格式应该会更方便。

odt格式可以保存成txt文本,比pdf完美,除了时间长一点~

开始翻译calc guide么?
头像
yq-ysy
论坛版主
帖子: 4463
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

Re: 【已解决】pdf转txt有不合理的断行,应该如何解决?

#6

帖子 yq-ysy » 2021-11-13 17:44

驿窗project 写了: 2021-11-13 16:04 如果是翻译的话,使用官方提供的odt格式应该会更方便。
odt格式可以保存成txt文本,比pdf完美,除了时间长一点~
开始翻译calc guide么?
现在仍在做 Impress guide 的翻译整理、截图、排版,
已经做到英文版的第94页了(总共331页)。

Impress guide 4.0 版之前网友翻译完了文字稿,但和 7.2 差别挺大的。
而且语言表述也都需要重新整理,不是复制粘贴就完事的。等于之前他的辛苦是白用功。
所以,还是一人一本书这样翻译才行。
多人合作翻译的实验,已经证明不可持续了,我已经修改了翻译认领公告

LibreOffice 7.2 以后的官方英文版 guide 只提供 PDF 版,没有提供 odt 格式。
我是用之前翻译好的《Write 6.2 指南》odt 文件,直接套用格式来修改的。

《 Calc 7.1 Guide 》确实是很想翻译的,但毕竟有531页啊!
所以还是得看情况,因为还得打工挣个吃饭钱,不能“全职”花时间来翻译。
而且,我更想写一本新版的Blender入门教程(十年前写的23万字已经变旧版了)。

哈,有时我在想,如果能开个“翻译开源软件书籍”的直播就好了,一边翻译一边卖货,
还能顺便给大家看看,我是如何用“单手笔顺输入法”打字的。
(很显然,这是不切实际的幻想,“翻译直播”绝对是没人看的,我自己也不想看。)
头像
驿窗project
帖子: 226
注册时间: 2019-01-17 12:17
系统: Arch/Debian
联系:

Re: 【已解决】pdf转txt有不合理的断行,应该如何解决?

#7

帖子 驿窗project » 2021-11-13 22:18

别从官网那个链接下,从这里下载odt版本:
https://wiki.documentfoundation.org/Doc ... blications

单手笔顺输入法,我没时间和精力,如果有的话,把它移植到手机上,使用起来肯定比其它输入法强~

即使在电脑上,也有很多人没有认识到它的强大,因为它可以解放出一只手。一共就两只手,解放出来一只,哪那么容易,而你这个输入法就做到了!

blender教程写起来会不会比calc工作量大?我没概念~

直播我没想过,不过我尝试过在西瓜视频和抖音上发开源相关的教程,效果都特别差,想来是要么关注开源的人太少,要么抖音这类的平台不适合,要么我做的视频太差;我倾向于关注开源的人太少。所以,开源知识需要一个精准的渠道;在找到精准渠道之前,我觉得还是集中资源继续做内容比较好~
头像
yq-ysy
论坛版主
帖子: 4463
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)

Re: 【已解决】pdf转txt有不合理的断行,应该如何解决?

#8

帖子 yq-ysy » 2021-11-13 23:21

驿窗project 写了: 2021-11-13 22:18 别从官网那个链接下,从这里下载odt版本:
https://wiki.documentfoundation.org/Doc ... blications
原来竟然来还有这个地方可下载!之前我用BIng搜索都搜不到,没梯子用不了谷歌搜索。
谢谢告知!早知道有这个就方便了。
驿窗project 写了: 2021-11-13 22:18 单手笔顺输入法,我没时间和精力,如果有的话,把它移植到手机上,使用起来肯定比其它输入法强~
即使在电脑上,也有很多人没有认识到它的强大,因为它可以解放出一只手。一共就两只手,解放出来一只,哪那么容易,而你这个输入法就做到了!
有网友做了个“单手笔顺输入法”手机版,在百度的Rime贴吧这个帖子的6楼:https://tieba.baidu.com/p/6848375902
他在百度网盘提供了下载,现在仍有效:https://pan.baidu.com/s/14QDxgq1XFXlpnTzg8GTmwQ 提取码:dhh1
驿窗project 写了: 2021-11-13 22:18 blender教程写起来会不会比calc工作量大?我没概念~
我在职业学校教过几个班学生Blender,以及我在翻译《 LibreOffice Impress 指南》的时候,都有一种感觉——
——就是觉得如果这类指南、教程、课本,做得太详细、太全面,就更像是一本手册,枯燥乏味,很难吸引年轻人去看的。

而网上的Blender视频教程大多是案例操作演示,缺乏系统性的、有逻辑的、整体性的指导。某些“系列教程”也讲得太割裂。
所以,我就想构思一部篇幅不太冗长(带动图几十页以内)、能让学员很清晰地理解Blender各个部分之间的关系、很有条理的教程。
驿窗project 写了: 2021-11-13 22:18 直播我没想过,不过我尝试过在西瓜视频和抖音上发开源相关的教程,效果都特别差,想来是要么关注开源的人太少,要么抖音这类的平台不适合,要么我做的视频太差;我倾向于关注开源的人太少。所以,开源知识需要一个精准的渠道;在找到精准渠道之前,我觉得还是集中资源继续做内容比较好~
对,先做内容。但内容该怎么做?
我目前的想法是,先出一个有趣的、能吸引人的基础教程,然后吸引想学的人来到某个网站,例如你的“驿窗”网站。

到了网站后,他们就能(付费)继续深入学习、或者(付费)得到疑难解答。
不论是用“5G直播”、或者用“腾讯会议”,都能很方便地一对一演示教学。
关键是:这个网站必需变成一项“有收入”的事业,才能可持续性地发展。否则热情再高,人也终究会老去。

如何构思,才能把(视频)教程做得有趣、吸引人?——这反而不难,因为我的强项就是“编剧”,哈。
难的是:把精彩的构思,拍摄制作成一部部(多集)教程系列片。
——如果有投资、有团队,有场地……好吧,有一个公司养一帮人来操作,实现起来就很快。否则再好的构思也只是梦想。
头像
驿窗project
帖子: 226
注册时间: 2019-01-17 12:17
系统: Arch/Debian
联系:

Re: 【已解决】pdf转txt有不合理的断行,应该如何解决?

#9

帖子 驿窗project » 2021-11-14 8:48

感觉我们两个某些地方很像,都想推广开源应用,且已经身处其中~

我的概念里,学习资料分两种,一种是手册/指南,比如我们翻译的《Writer Guide》《Start Guide》,这类的资料更像是词典,它比较适合用来查询某个功能如何实现及操作方法;另一类是教程,这个和你想要构思的blender教程类似,它不适合查询软件的某个功能,但可以用来做为主要的学习资料来上手blender。

相比之下,如果一个人想上手一个软件,第二种资料远比第一种资料有效,打个比方就是,第一种(手册/指南)应该定义为工具书,第二种(教程)应该定义为教材。

所以,我有点期待你构思blender教程~

你提到的“可持续性地发展”,我研究这个问题已经有几年了,主要就是开源的可持续问题,其中已经发布的一个角度是开源协议。另外还有几个角度处于研究状态,不过都涉及到一些基础支撑条件,所以短时间内无法尝试。不过,我一直认为开源的大方向是对的,所以,我会继续研究。

驿窗项目网站,其实是一个副产品,原计划在网站上只提供一些清单和链接,研究到后来发现,我的很多想法和做法会打破现有的规则:论坛、wiki、平台,等等,这会造成混乱,所以必须有一个能够完全贯彻自己想法的形式,踌躇良久,在去年的时候对网站进行改版,做成现在的样子,这花费了我很多精力,也导致开源教程的编写和发布计划一再延迟。还好现在网站本身已经基本成型,也确实能够给需要的用户带来便利,所以后续会以这个网站为主要发布渠道进行更新。基于我这个网站的设想和经验,我非常赞同你创建独立网站;知识产权问题最好提前做一下规划,毕竟这种网站不是公共平台~

你提到的投资、团队,我的理解是,现有的资本运作方式,本质上是不喜欢我们这类内容的,所以我们需要另辟蹊径,需要创新,比如,不从资本/投资角度考虑,而是从钱的角度、价值角度、生存角度、发展角度等等重新进行考虑和创新,创新是最有可能真正解决“可持续”这个关键问题的点~
回复