Archive

Archive for the ‘PHP’ Category

敏感词过滤,PHP实现的Trie树

7月 3rd, 2012 13 comments

项目需求,要做敏感词过滤,对于敏感词本身就是一个CRUD的模块很简单,比较麻烦的就是对各种输入的敏感词检测了。用Trie树来实现是比较通用的一种办法吧,之前一直没机会用过这种数据结构,正好试着写了一下。

因为用PHP实现,关联数组用的很舒服。第一个要解决的是字符集的问题,如果在Java中就比较好办统一的Unicode,在PHP中因为常用UTF-8字符集,默认有1-4个字节不同的长度来表示一个字符,于是写了个Util类来将普通的UTF-8字符串转换成字符数组,每一个元素是一个UTF-8串形成的字符。这一点比较容易实现的,根据UTF-8字符集的格式而来就好。
阅读更多…

各大视频网站的视频截图抓取

6月 28th, 2012 3 comments

新的一个项目,要有视频的功能,当然只是简单的贴URL和标题罢了,不会涉及到要去上传视频文件,但是在展示视频的时候就需要用到视频截图了,自己去生成截图难度太大了也不现实,去视频的源网站抓取是可行也比较方便的方法。

试过优酷、土豆、酷6、56、腾讯、新浪、搜狐这些国内最大的视频门户,基本都成功获取到截图,其中属优酷最麻烦。

阅读更多…