怎么识别抖音文字

anth · #1

重新整理一下

最近在整理抖音视频有一天突然想到抖音视频的共同特点是第一图就有创作者账号这能够极大的方便我做整理本来打算bash为主python辅助我只会bash 没想到python这么简单做着做着就偏过去了

感谢2楼朋友在二值化正则算法等方面的提点

代码放论坛上缩进是乱的没法看就不留了说一下现在的情况吧人机交互放弃cv2.waitKey 放弃input 放弃matplotlib.pyplot.show 用时间控制超时就自动默认人工审核成功退出就放弃改名效率方面的问题也解决了之前程序那么慢是因为我习惯了cpp或者bash这种高效的互相调用 bash调用bash很快的但是如果bash调用python再关闭python再开python就很慢切到纯python就很快了现在我把延时调到0.9秒了基本上程序已经远远快过人工观察的速度了

但是识别成功率只有90或者不到百分之90 可遇见的未来暂时不打算改进了已经够用最近忙着整理视频了每天五分钟整理几百个一个月就能弄完

最后一次更新抖音的小姐姐们大部分分类了任务完成做这个有以下几点经验
1 还是要全自动识别成功率不高大概百分之60到百分之95之间取决于视频内容识别错误率很低几乎没错误所以没错的前提下成功率反而完全不重要切成全自动完全放弃人工审核只用了不到半个小时就处理结束了

2 开局思路有错误识别抖音作者只适合识别小姐姐对我来说最最重要的还是文字这个还是要走中文分词的方案 gayhub上面有现成的照搬就可以了

3 图片预处理比想象中复杂的多虽然二值化能用但是从抖音拓展到快手哔哩哔哩或者某些fbi警告的视频就很困难了代码不能通用我后来想过这个问题本质是缺乏人工智能于是用抖音标签的漏洞加上预处理绕开了这个问题那么我现在急需处理手头的新闻图片和各地的旅游和工作的视频和图片导致代码无法通用这个已经完成的项目就没有意义了也不是完全没意义我从完全不会Python到现在很熟练了已经学会挑剔搬运的代码质量自己再改了结论是还是必须用cnn卷积神经网络这个绕不开的

4 用linux十几年了想放弃了对系统很满意但是手头的电脑老旧了去年维修联想小新让我很不爽不会再买联想想转macbook air 我用电脑只有两个用处 steam游戏和手机的电影服务器 mac可以做到同时续航预期可以增加五倍至于数据的openssl和luks加密 btrfs备份这些在mac下面直接就是指纹识别加云备份简单程度和安全程度被碾压了唯一的问题是m1处理器太特殊又封闭可以会很麻烦而且m2快出来了可以等等

astolia · #2

识别之前都要根据情况进行一些预处理的，tesseract自己的预处理不见得适用于各种情况。反正离不开降噪、二值化等步骤。

anth · #3

astolia 写了： ↑2022-03-04 12:58 识别之前都要根据情况进行一些预处理的，tesseract自己的预处理不见得适用于各种情况。反正离不开降噪、二值化等步骤。

谢谢二值化成功了

jiandan23 · #4

想求教下楼主，抖音视频是用什么工具下载的？

anth · #5

jiandan23 写了： ↑2022-03-04 17:31 想求教下楼主，抖音视频是用什么工具下载的？

用右手

anth · #6

编辑一下有点乱放到第一楼去

astolia · #7

anth 写了： ↑2022-03-06 12:35 只要提取连续的数字字母就可以了怎么提取

正则表达式

anth 写了： ↑2022-03-06 12:35 另外快手和抖音差别好大抖音用220的灰度做二值化快手220一片黑 150一片噪音还没试完好像210 200能用

按我以前做类似项目的经验，部分情况下经过滤波和自适应直方图均衡化之后再二值化效果比直接二值化好。二值化也可以试试otsu算法，说不定有奇效

anth · #8

最近这个东西取得突破性进展还是需要补充一下整个项目ajiu分成ajiu_pre识别和ajiu_cluster分类两部分目前识别的第三阶段完工应该是彻底完工了全自动匹配抖音快手成功率百分之98点多失败的改成author=none不会再耗费资源错误率基本降低到0了下面说说算法的差别

第一阶段pre采用的是小尺寸截图-固定阈值二值化-全自动运行不交互速度比较快错误率不高成功率也不高一个很大的问题是不同的视频适合的阈值是不一样的更严重的一个问题是同一个视频作者在不同的视频中识别结果不太一样比如lxylxylxy的l有时候识别成1 I有十几个相似名称给后续分类带来极大的麻烦

第二阶段测试了图像锐化的索贝儿算子和canny算法很不满意最后使用的是多阈值二值化然后选举出最高得票数成功率特别高至于相似名称的问题采用了人名仓库加模糊识别方案识别名称和仓库名称相近就直接用仓库名称彻底解决了成功率的问题严格控制人名仓库加人名采用了人工方案成功率百分百累个半死

第三阶段全面修改regular expression 改善代码可阅读性修正文件名的小数点带来的bug 修正图片预览函数imshow的bug 取消人工操作采用了限时判断自动识别是否正确的方案

现在感觉完美同时也深刻了解了图片预处理的缺陷所谓的预处理就是没有自动识别能力通过死板的算法来解决问题现在我宁愿用python try多范几次错也不愿意去预处理

怎么识别抖音文字

怎么识别抖音文字

Re: 怎么识别抖音文字

Re: 怎么识别抖音文字

Re: 怎么识别抖音文字

Re: 怎么识别抖音文字

Re: 怎么识别抖音文字

Re: 怎么识别抖音文字

Re: 怎么识别抖音文字