Answers
-
堆排序应该能适应一维海量数据的排序需求。
-
一维的最近邻查询。如果也要支持海量数据,那么数据结构可以用 B 树,在对 B 树进行深度优先遍历的过程中进行剪枝,不断向最近邻目标逼近。如果只是在内存里查找最近邻,用二叉搜索树也行。
其实用第 2 种方法我说的 B 树,也可以解决第 1 个问题。先建 B 树,然后从文件中最小的数据开始,以此寻找最近邻就可以了。比如最小数据为 a,从树中删除 a,再查询它的最近邻,得到 b,从树中删除 b,现在就有了 a->b。继续查询 b 的最近邻,得到 c,从树中删除 c,这样就得到 a->b->c……以此类推。时间复杂度应该是 O(nlog n)的。
是香菜不是香蕉
answered 9 years, 4 months ago
第一个问题是典型的外排序问题,最简单的方法就是归并排序,详见 https://zh.wikipedia.org/wiki/%E5%A4%96%E6%8E%92%E5%BA%8F
第二个问题可以通过二分法找到给的数字相邻两边的数字。
你这个文件二分的时候需要向前或者向后找到临近的逗号,然后再读取逗号两边的数。
可悲的小悲桑
answered 9 years, 4 months ago