摘要:在海量数据检索应用中, 基于哈希算法的最近邻搜索算法有着很高的计算和内存效率. 而半监督哈希算法, 结合了无监督哈希算法的正规化信息以及监督算法跨越语义鸿沟的优点, 从而取得了良好的结果. 但其线下的哈希函数训练过程则非常之缓慢, 要对全部数据集进行复杂的训练过程. HAMA是在Hadoop平台基础上, 按照分布式计算BSP模型构建的并行计算框架. 本文尝试在HAMA框架基础上, 将半监督哈希算法的训练过程中的调整相关矩阵计算过程分解为无监督的相关矩阵部分与监督性的调整部分, 分别进行并行计算处理. 这使得使得其可以水平扩展在较大规模的商业计算集群上, 使得其可以应用于实际应用. 实验表明, 这种分布式算法, 有效提高算法的性能, 并且可以进一步应用在大规模的计算集群上.