如何对XML大文件中的数据去重?


目的 :xml->mysql

困难 :xml中可能存在重复数据,但xml文件有400+M

问题 :如何去掉这些重复数据?

目前的想法 :每次insert数据之前,把待插数据和表存数据进行比对,但感觉效率不高。

请教:有没有更好的办法?

python 去重

超级点钞机 9 years, 8 months ago

才 400M 就算是大文件了么……

先做去重再导入数据呗。才400M的数据,拿个 dict 存需要去重的 key 就可以了。

天才你好。。 answered 9 years, 8 months ago

Your Answer