我想用python对全网的网站进行扫描记录,想用mysql建个表记录每个网站的信息,数据量大后怎么能快速的判断这个网站已经记录过呢?基本表结构有:id,url,name,datetime等相关字段,url想有唯一性,是拿到url查询一下判断没有数据再插入还是怎么办?如果做了唯一性索引直接插入时会报错,谢谢,或是有没有别的有效的解决办法?
python 数据库 mysql
对url进行hash,就是微博短域名一样,然后用kv,mysql都行
推荐使用Bloom Filter存储已经抓取到的url. Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考 百度百科 和这篇 博文 .
如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.
分布式kv数据库 对url分组
把主键暴露在URL中是好的选择吗?
Mysql 外键为什么不能多对多啊
mysql有没有类似和memcached里那样的CAS版本控制?
网站的专题模块怎么设计?
MySQL有限个数的数据用tinyint存和varchar存哪种更好些?
数据查询数据权限
Instagram初期技术架构