怎么识别抖音文字

sh/bash/dash/ksh/zsh等Shell脚本
回复
anth
帖子: 172
注册时间: 2010-11-09 3:06

怎么识别抖音文字

#1

帖子 anth » 2022-03-04 12:30

重新整理一下

最近在整理抖音视频 有一天突然想到抖音视频的共同特点是第一图就有创作者账号 这能够极大的方便我做整理 本来打算bash为主python辅助 我只会bash 没想到python这么简单 做着做着就偏过去了

感谢2楼朋友在二值化 正则 算法等方面的提点

代码放论坛上缩进是乱的 没法看 就不留了 说一下现在的情况吧 人机交互放弃cv2.waitKey 放弃input 放弃matplotlib.pyplot.show 用时间控制 超时就自动默认人工审核成功 退出就放弃改名 效率方面的问题也解决了 之前程序那么慢是因为我习惯了cpp或者bash这种高效的互相调用 bash调用bash很快的 但是如果bash调用python再关闭python再开python就很慢 切到纯python就很快了 现在我把延时调到0.9秒了 基本上程序已经远远快过人工观察的速度了

但是识别成功率只有90或者不到百分之90 可遇见的未来暂时不打算改进了 已经够用 最近忙着整理视频了 每天五分钟整理几百个 一个月就能弄完

最后一次更新 抖音的小姐姐们大部分分类了 任务完成 做这个有以下几点经验
1 还是要全自动 识别成功率不高 大概百分之60到百分之95之间 取决于视频内容 识别错误率很低 几乎没错误 所以没错的前提下成功率反而完全不重要 切成全自动完全放弃人工审核 只用了不到半个小时就处理结束了

2 开局思路有错误 识别抖音作者只适合识别小姐姐 对我来说 最最重要的还是文字 这个还是要走 中文分词的方案 gayhub上面有现成的 照搬就可以了

3 图片预处理比想象中复杂的多 虽然二值化能用 但是从抖音拓展到快手 哔哩哔哩 或者某些fbi警告的视频就很困难了 代码不能通用 我后来想过这个问题 本质是缺乏人工智能 于是用抖音标签的漏洞加上预处理绕开了这个问题 那么我现在急需处理手头的新闻图片和各地的旅游和工作的视频和图片 导致代码无法通用 这个已经完成的项目就没有意义了 也不是完全没意义 我从完全不会Python到现在很熟练了 已经学会挑剔搬运的代码质量自己再改了 结论是还是必须用cnn卷积神经网络 这个绕不开的

4 用linux十几年了想放弃了 对系统很满意 但是手头的电脑老旧了 去年维修联想小新让我很不爽 不会再买联想 想转macbook air 我用电脑只有两个用处 steam游戏和手机的电影服务器 mac可以做到 同时续航预期可以增加五倍 至于数据的openssl和luks加密 btrfs备份 这些在mac下面直接就是指纹识别加云备份 简单程度和安全程度被碾压了 唯一的问题是m1处理器太特殊又封闭可以会很麻烦 而且m2快出来了 可以等等
上次由 anth 在 2022-05-09 20:10,总共编辑 5 次。
头像
astolia
论坛版主
帖子: 6454
注册时间: 2008-09-18 13:11

Re: 怎么识别抖音文字

#2

帖子 astolia » 2022-03-04 12:58

识别之前都要根据情况进行一些预处理的,tesseract自己的预处理不见得适用于各种情况。反正离不开降噪、二值化等步骤。
anth
帖子: 172
注册时间: 2010-11-09 3:06

Re: 怎么识别抖音文字

#3

帖子 anth » 2022-03-04 13:57

astolia 写了: 2022-03-04 12:58 识别之前都要根据情况进行一些预处理的,tesseract自己的预处理不见得适用于各种情况。反正离不开降噪、二值化等步骤。
谢谢 二值化成功了
头像
jiandan23
帖子: 86
注册时间: 2010-12-17 22:31
系统: Mint 19.2

Re: 怎么识别抖音文字

#4

帖子 jiandan23 » 2022-03-04 17:31

想求教下楼主,抖音视频是用什么工具下载的?
anth
帖子: 172
注册时间: 2010-11-09 3:06

Re: 怎么识别抖音文字

#5

帖子 anth » 2022-03-04 17:59

jiandan23 写了: 2022-03-04 17:31 想求教下楼主,抖音视频是用什么工具下载的?
用右手
anth
帖子: 172
注册时间: 2010-11-09 3:06

Re: 怎么识别抖音文字

#6

帖子 anth » 2022-03-06 12:35

编辑一下 有点乱 放到第一楼去
上次由 anth 在 2022-03-11 16:45,总共编辑 1 次。
头像
astolia
论坛版主
帖子: 6454
注册时间: 2008-09-18 13:11

Re: 怎么识别抖音文字

#7

帖子 astolia » 2022-03-06 15:58

anth 写了: 2022-03-06 12:35 只要提取连续的数字字母就可以了 怎么提取
正则表达式
anth 写了: 2022-03-06 12:35 另外 快手和抖音差别好大 抖音用220的灰度做二值化 快手220一片黑 150一片噪音 还没试完 好像210 200能用
按我以前做类似项目的经验,部分情况下经过滤波和自适应直方图均衡化之后再二值化效果比直接二值化好。二值化也可以试试otsu算法,说不定有奇效
anth
帖子: 172
注册时间: 2010-11-09 3:06

Re: 怎么识别抖音文字

#8

帖子 anth » 2022-07-13 23:02

最近这个东西取得突破性进展还是需要补充一下 整个项目ajiu分成ajiu_pre识别和ajiu_cluster分类两部分 目前识别的第三阶段完工 应该是彻底完工了 全自动 匹配抖音快手 成功率百分之98点多 失败的改成author=none不会再耗费资源 错误率基本降低到0了 下面说说算法的差别

第一阶段pre采用的是小尺寸截图-固定阈值二值化-全自动运行不交互 速度比较快 错误率不高 成功率也不高 一个很大的问题是不同的视频适合的阈值是不一样的 更严重的一个问题是同一个视频作者在不同的视频中识别结果不太一样 比如lxylxylxy的l有时候识别成1 I有十几个相似名称 给后续分类带来极大的麻烦

第二阶段测试了图像锐化的索贝儿算子和canny算法 很不满意 最后使用的是多阈值二值化 然后选举出最高得票数 成功率特别高 至于相似名称的问题 采用了人名仓库加模糊识别方案 识别名称和仓库名称相近就直接用仓库名称 彻底解决了成功率的问题 严格控制人名仓库 加人名采用了人工方案 成功率百分百 累个半死

第三阶段 全面修改regular expression 改善代码可阅读性 修正文件名的小数点带来的bug 修正图片预览函数imshow的bug 取消人工操作 采用了限时判断自动识别是否正确的方案

现在感觉完美 同时也深刻了解了图片预处理的缺陷 所谓的预处理就是没有自动识别能力通过死板的算法来解决问题 现在我宁愿用python try多范几次错也不愿意去预处理
回复