您现在的位置是:首页 > 人工智能人工智能

向量将死,哈希是 AI 未来

查看 cc博主 的更多文章cc博主2021-10-09【人工智能】755人已围观

向量将死,哈希是 AI 未来 第1张作者 | Hamish Ogilvy编译 | 冉启行
校对 | 青暮

人工智能是建立在向量算法的基础上的,但最新的进展表明,对于某些 AI 应用程序而言,它们可以使用其他二进制来表示(例如神经哈希),以提供更小的内存占用和更快的反馈速度。

事实上,人工智能的许多领域都可以从向量变为基于哈希的结构,带来飞跃的提升。本文将简要介绍哈希背后的应用逻辑,以及它为什么可能会成为 AI 的未来。


1
哈希

哈希函数(Hash function):一个哈希函数H(x)可用于将任意大小的数据 x 映射成固定大小(通常选256bit)的值。返回值(映射后的值)又称为哈希值(hash values)、摘要(digests)或哈希(simply hashes)。

向量将死,哈希是 AI 未来 第2张

哈希在数据的准确性识别、数据存储大小、性能、检索速度等方面具有突出的优势。更重要的是,它们本质上是概率性的,因此多个输入项可以共享相同的哈希值。

在向量表示中,浮点数往往是首选的数据表示形式,尽管它们在本质上比哈希更绝对,但它们却并不精确。


2
浮点数

要了解 AI,首先需要了解计算机是如何表示非整数数字的

对于微小的数值变化(关于向量计算),二进制表示也可以有很大的不同,这些数值变化对模型预测几乎没有影响。

例如:取 0.65 vs 0.66 在 float64(64 位浮点)二进制中可以分别用这两个二进制数表示:

  • 11111111100100110011001100110011001100110011001100110011001101

  • 11111111100101000111101011100001010001111010111000010100011111

从这里可以非常清楚看到,虽然从 0.65 到 0.66 仅仅只有 1% 的大小变化,但是转化为二进制后,在 64 位数字中就有 25 位是不同的,差别巨大。

对于神经元来说,这听起来像是一件愚蠢的事情,人类的大脑肯定不会这样工作,它们显然不会使用浮点二进制表示来存储数字,除非有人可以记住圆周率小数点后六万多位。

事实上,我们的大脑神经网络是非常形象的,在处理复杂的小数和分数方面非常擅长。但是,当我们算到一半或四分之一时,就会立即想象出一些东西,比如半杯水、四分之一杯水或者披萨等其他东西,可能根本没有想到尾数和指数。

一个常用的提高浮点运算速度和使用更少空间的方法是将分辨率降低到 float16(16位),甚至是float8 (8位),它们的计算速度非常快,但缺点是,它会造成分辨率的明显下降。

由于浮点数运算很慢,所以它真的没有一点优势吗?

答案是否定的。芯片硬件和它们的指令集被设计来提高效率,并使更多的计算并行处理,而 GPU 和 TPU 现在正在被广泛使用,因为它们处理基于浮点的矢量算法更快。


3
神经哈希

事实证明,二进制的计算速度比基于浮点数的算术快得多。那么,如果可以在局域敏感的二进制哈希空间中表示 0.65 和 0.66,这能使模型在推理方面更快吗?

研究表明,有一系列哈希算法的确可以做到这一点,它被称为局部敏感哈希(LSH)。原始项越接近,其哈希中的位也越接近相同。

向量将死,哈希是 AI 未来 第3张

不过,这个概念并不是什么新鲜事,只是最新的技术发现了更多的优势。从历史上来看,LSH 使用了诸如随机投影、量化等技术,但它们的缺点是需要较大的哈希空间来保持精度,因此其优点在某种程度上被抵消了。

对于单个浮点数来说这是微不足道的,但是具有高维数(多个浮点数)的向量呢?

因此,神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术,以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。

这听起来虽然很复杂,但实际上并不太难。总体来看,神经网络就是优化了一个哈希函数,具体表现如下:

  • 与原始向量相比,几乎完美地保留了所有的信息;

  • 生成比原始向量尺寸小得多的哈希;

  • 计算速度明显更快;

也就是说,以一种较小的二进制表示,它不仅可用于非常快速的逻辑计算,并且信息分辨率也是几乎不变的,是一个两全其美的解决方案。

一般研究用于密集信息检索近似最近邻 (ANN)时,往往可以使用向量表示来搜索信息,这样可以帮助用户找到概念上相似的一些东西。但是,哈希中的局部敏感性却拥有更加强大的优势。


4
密集信息检索

互联网时代,数据库是不可计数的,但搜索索引却寥寥无几,而且大多数索引都是基于相同的老技术,这主要是因为历史上语言是一个基于规则的问题。

标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯,但仍未完全解决。

谷歌创始人拉里佩奇(Larry Page)曾说过,在我们的有生之年,“搜索”并不能得到解决。

向量将死,哈希是 AI 未来 第4张

想想看,这一代如此绝顶聪明的人,投资数十亿美元为何还得不到解决?

很明显,搜索技术落后于数据库主要是由于语言问题,我们在过去几年中看到了语言处理方面的革命,而且还在加速。并且从技术角度来看,我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。

参考来源:https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee

向量将死,哈希是 AI 未来 第5张

cc博客网cc博客网(公众号:cc博客网)cc博客网

cc博客网版权文章,未经授权禁止转载。详情见转载须知。

Tags:机场 v2raypc端免费梯子

文章评论

猜你喜欢

  • 最新实时免费ssr节点,永久免费节点每天更新v2ray2022/5/22

    技术好文最新实时免费ssr节点,永久免费节点每天更新v2ray2022/5/22

    最新实时免费ssr节点,永久免费节点每天更新v2ray,今日周日,为大家提供最新白嫖ssr节点及v2ray节点链接分享建议点击付费节点右侧栏目图。资源在2022年5月22日15点更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源,并尽最大努力更新更...

    查看 cc博客 的更多文章2022-05-222928人已围观

    阅读更多
  • 最新免费ssr机场节点分享-v2ray机场节点-24小时更新(2022/4/28)

    技术好文最新免费ssr机场节点分享-v2ray机场节点-24小时更新(2022/4/28)

    最新免费ssr机场节点分享-v2ray机场节点-24小时更新今日周四,为您提供免费SSR节点和v2ray节点链接共享,并于2022年4月27日17:01更新。建议点击付费节点右侧栏目图。资源在星期天更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源...

    查看 cc博客 的更多文章2022-04-281461人已围观

    阅读更多
  • 向真实世界应用进军:持续自监督学习的挑战

    人工智能向真实世界应用进军:持续自监督学习的挑战

    在 Yann Lecun 等人的推动下,自监督学习成为了深度学习领域最受瞩目的技术之一。互联网世界源源不断产生的数据流无疑是充分发挥自监督学习能力的最佳土壤。然而,将自监督学习应用于自然场景将面临哪些严峻的挑战?且看来自 CMU 的 Abhinav Gupta...

    查看 cc博客 的更多文章2022-04-27347人已围观

    阅读更多
  • 荣耀联合高通深度打磨,荣耀Magic4系列充分释放骁龙8顶级性能

    业界荣耀联合高通深度打磨,荣耀Magic4系列充分释放骁龙8顶级性能

    3月17日,荣耀新一代智慧旗舰荣耀Magic4系列在国内正式发布。作为荣耀科技创新实力的又一力证,荣耀Magic4系列再度携手全新一代骁龙8移动平台,实现屏幕、影像、性能、安全等领域的全方面进阶。骁龙8系移动平台一直都是顶级安卓移动体验的代名词。荣耀Mag...

    查看 cc博客 的更多文章2022-03-18375人已围观

    阅读更多
  • 检查性功能障碍的方法

    健康问答检查性功能障碍的方法

    男性朋友在生活当中总会出现一些难言之隐,因为性功能障碍疾病会影响到自己的家庭生活,也会给自己的身心健康造成一定的隐患,在出现了性功能障碍疾病时,往往会造成患者阳痿、早泄、遗精、不射精或者是性欲障碍,那么检查性功能障碍的方法有哪些呢,下面我们就一起来看看吧。...

    查看 cc博客 的更多文章2022-03-09378人已围观

    阅读更多

   有免费节点资源,我们会通知你!  加入纸飞机订阅群  

×
天气预报查看日历分享网页电报扫码留言评论电报频道链接