您现在的位置是:首页 > 人工智能人工智能
大数据究竟有多“大”?谷歌搜索的规模为 62 PB,排名倒数第一
cc博主2022-03-07【人工智能】46人已围观


LHC 的数据量根据 Luca Clissa 的调查,2021年各大知名数据源的体量大约如下:
2
大厂数据量对比大公司的数据量很难追踪,且数据通常不会公开。对此,Luca Clissa 采用了费米估算法(Fermi estimation),将数据生产过程分解为其原子组成部分,并做出合理的猜测。比如,针对特定数据源,检索在给定时间窗口内产生的内容量。然后通过对这些内容的单位大小的合理猜测来推断数据总量,例如平均邮件或图片大小,1 小时视频的平均数据流量等等。他对谷歌搜索、YouTube、Facebook等等数据源进行了估算,结论如下:谷歌搜索:最近的一项分析估计,Google 搜索引擎包含 30 到 500 亿个网页。根据 Web Almanac 所提供的信息,假设谷歌的年度平均页面大小约为 2.15 MB,截至 2021 年,Google 搜索引擎的数据总规模应约为 62 PB。YouTube:根据 Backlinko 的数据,2021 年用户每天在 YouTube 上上传的视频时长为 72 万小时。假设平均大小为 1 GB(标准清晰度),2021年 YouTube 的数据大小约为 263 PB。Facebook 与 Instagram:Domo 的 Data Never Sleeps 9.0 报告估计,2021 年 Facebook 与 Instagram 每分钟上传的图片数量分别为 240k 和 65k。假设平均大小为 2 MB,则总共大约为 252 PB 和 68 PB。DropBox:虽然 Dropbox 本身不产生数据,但它提供了云存储解决方案来托管用户的内容。2020年,公司宣布新增用户 1 亿,其中付费订阅用户达到 117 万。通过推测免费和付费订阅的占用率分别为 75%(2 GB)和 25%(2 TB),Dropbox 用户在 2020 年所需的存储量约为733 PB。电子邮件:根据 Statista 的数据,从 2020 年 10 月到 2021 年 9 月,用户大约传送了近 131,000 亿次电子通信(包含 71,000 亿封电子邮件和 60,000 亿封垃圾邮件)。假设标准邮件和垃圾邮件的平均大小分别为 75 KB 和 5 KB ,我们可以估计电子邮件的总流量约为 5.7k PB。Netflix:Domo 估计,2021 年 Netflix 用户每天消耗 1.4 亿小时的流媒体播放,假设每小时 1 GB(标准定义),总计大约 51.1k PB。亚马逊:亚马逊网络服务 (AWS) 的首席布道师 Jeff Barr称,截至 2021 年,亚马逊 S3 (Simple Storage Service)中存储了超过 100 万亿个对象。假设平均每桶的对象大小为 5 MB ,那么存储在 S3 中的文件的总大小则约等于 500 EB。总的来说,科学数据可以在数量上与商业数据源相媲美。参考链接:1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced2.https://firstsiteguide.com/google-search-stats/3.https://backlinko.com/4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=15.https://backlinko.com/dropbox-users6.https://www.statista.com/7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/8.https://atlas.cern/

雷峰网(公众号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
Tags:
相关文章
热评文章
-
免费ssr节点订阅地址,永久免费v2ray节点每天更新5/15
-
俄罗斯云服务器 2核2G 20M 128元/月 德国高防云服务器 2核2G 20M 128元/月 特网科技
-
奈飞要进军直播领域 跟Disney +杠上了?
-
前微软首席 AI 科学家邓力再易东家,加入梵蒂冈投资
-
知网涉嫌垄断被立案调查
-
Alexei Efros 团队发布 BlobGAN:灵活组合物体的布局与外形特征
-
爱用云互联–免费香港VPS云服务器,免费国内挂机宝,免费高防CDN,免费云空间,真的免费送啦!直接0元开通即可,优惠码:aiyongyun
-
腾讯云发布全新非关系型数据库KeeWiDB 搭载全自研存储引擎
-
浙大蔡登团队:基于序列对比学习的长视频逐帧动作表征
-
达摩院加持 阿里云数据库前沿技术研究获三大国际顶会认可