怎么识别抖音文字
发表于 : 2022-03-04 12:30
重新整理一下
最近在整理抖音视频 有一天突然想到抖音视频的共同特点是第一图就有创作者账号 这能够极大的方便我做整理 本来打算bash为主python辅助 我只会bash 没想到python这么简单 做着做着就偏过去了
感谢2楼朋友在二值化 正则 算法等方面的提点
代码放论坛上缩进是乱的 没法看 就不留了 说一下现在的情况吧 人机交互放弃cv2.waitKey 放弃input 放弃matplotlib.pyplot.show 用时间控制 超时就自动默认人工审核成功 退出就放弃改名 效率方面的问题也解决了 之前程序那么慢是因为我习惯了cpp或者bash这种高效的互相调用 bash调用bash很快的 但是如果bash调用python再关闭python再开python就很慢 切到纯python就很快了 现在我把延时调到0.9秒了 基本上程序已经远远快过人工观察的速度了
但是识别成功率只有90或者不到百分之90 可遇见的未来暂时不打算改进了 已经够用 最近忙着整理视频了 每天五分钟整理几百个 一个月就能弄完
最后一次更新 抖音的小姐姐们大部分分类了 任务完成 做这个有以下几点经验
1 还是要全自动 识别成功率不高 大概百分之60到百分之95之间 取决于视频内容 识别错误率很低 几乎没错误 所以没错的前提下成功率反而完全不重要 切成全自动完全放弃人工审核 只用了不到半个小时就处理结束了
2 开局思路有错误 识别抖音作者只适合识别小姐姐 对我来说 最最重要的还是文字 这个还是要走 中文分词的方案 gayhub上面有现成的 照搬就可以了
3 图片预处理比想象中复杂的多 虽然二值化能用 但是从抖音拓展到快手 哔哩哔哩 或者某些fbi警告的视频就很困难了 代码不能通用 我后来想过这个问题 本质是缺乏人工智能 于是用抖音标签的漏洞加上预处理绕开了这个问题 那么我现在急需处理手头的新闻图片和各地的旅游和工作的视频和图片 导致代码无法通用 这个已经完成的项目就没有意义了 也不是完全没意义 我从完全不会Python到现在很熟练了 已经学会挑剔搬运的代码质量自己再改了 结论是还是必须用cnn卷积神经网络 这个绕不开的
4 用linux十几年了想放弃了 对系统很满意 但是手头的电脑老旧了 去年维修联想小新让我很不爽 不会再买联想 想转macbook air 我用电脑只有两个用处 steam游戏和手机的电影服务器 mac可以做到 同时续航预期可以增加五倍 至于数据的openssl和luks加密 btrfs备份 这些在mac下面直接就是指纹识别加云备份 简单程度和安全程度被碾压了 唯一的问题是m1处理器太特殊又封闭可以会很麻烦 而且m2快出来了 可以等等
最近在整理抖音视频 有一天突然想到抖音视频的共同特点是第一图就有创作者账号 这能够极大的方便我做整理 本来打算bash为主python辅助 我只会bash 没想到python这么简单 做着做着就偏过去了
感谢2楼朋友在二值化 正则 算法等方面的提点
代码放论坛上缩进是乱的 没法看 就不留了 说一下现在的情况吧 人机交互放弃cv2.waitKey 放弃input 放弃matplotlib.pyplot.show 用时间控制 超时就自动默认人工审核成功 退出就放弃改名 效率方面的问题也解决了 之前程序那么慢是因为我习惯了cpp或者bash这种高效的互相调用 bash调用bash很快的 但是如果bash调用python再关闭python再开python就很慢 切到纯python就很快了 现在我把延时调到0.9秒了 基本上程序已经远远快过人工观察的速度了
但是识别成功率只有90或者不到百分之90 可遇见的未来暂时不打算改进了 已经够用 最近忙着整理视频了 每天五分钟整理几百个 一个月就能弄完
最后一次更新 抖音的小姐姐们大部分分类了 任务完成 做这个有以下几点经验
1 还是要全自动 识别成功率不高 大概百分之60到百分之95之间 取决于视频内容 识别错误率很低 几乎没错误 所以没错的前提下成功率反而完全不重要 切成全自动完全放弃人工审核 只用了不到半个小时就处理结束了
2 开局思路有错误 识别抖音作者只适合识别小姐姐 对我来说 最最重要的还是文字 这个还是要走 中文分词的方案 gayhub上面有现成的 照搬就可以了
3 图片预处理比想象中复杂的多 虽然二值化能用 但是从抖音拓展到快手 哔哩哔哩 或者某些fbi警告的视频就很困难了 代码不能通用 我后来想过这个问题 本质是缺乏人工智能 于是用抖音标签的漏洞加上预处理绕开了这个问题 那么我现在急需处理手头的新闻图片和各地的旅游和工作的视频和图片 导致代码无法通用 这个已经完成的项目就没有意义了 也不是完全没意义 我从完全不会Python到现在很熟练了 已经学会挑剔搬运的代码质量自己再改了 结论是还是必须用cnn卷积神经网络 这个绕不开的
4 用linux十几年了想放弃了 对系统很满意 但是手头的电脑老旧了 去年维修联想小新让我很不爽 不会再买联想 想转macbook air 我用电脑只有两个用处 steam游戏和手机的电影服务器 mac可以做到 同时续航预期可以增加五倍 至于数据的openssl和luks加密 btrfs备份 这些在mac下面直接就是指纹识别加云备份 简单程度和安全程度被碾压了 唯一的问题是m1处理器太特殊又封闭可以会很麻烦 而且m2快出来了 可以等等