本文隶属于 观察报告 分类,点击分类名称可以查看更多相关文章;

主理人说

见微知著,本着格物致知的精神,探索移动互联网影响下的真实世界缩影;(谁能想到这个假能放这么久,干

网民基数

网民规模达8.54亿

中国互联网络信息中心30日发布《第44次中国互联网络发展状况统计报告》,报告显示,截至2019年6月,我国网民规模达8.54亿,互联网普及率达61.2%。手机网民规模达8.47亿,我国网民使用手机上网的比例达99.1%。 via 第44次中国互联网络发展状况统计报告.pdf

大数据

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。 适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。 via 大数据- MBA智库百科

大数据与隐私

当今,由于社会信息化和网络化的发展导致产生的数据爆炸式增长。据统计,平均每一秒都有100万用户在使用谷歌搜索,Facebook用户每天共享的东西超过40亿,Twitter每天处理的推特数量超过3.4亿。

同时,各种监测、感应设备也在源源不断的产生数据,科学计算、医疗卫生、金融、零售业等各行业也有大量数据不断产生。2012年全球信息总量已达到2.7ZB,而2015年这一数值预计会达到8ZB。显然,大数据时代已经到来。

...

大数据(Big Data) 已成为学术界和产业界的研究热点,正影响着人们日常生活,工作习惯及思考方式。但是目前大数据在收集,存储和使用过程中面临着诸多安全风险,大数据所导致的隐私泄露为用户带来严重困扰。

via 大数据安全与隐私保护.pdf

信息孤岛

CNNIC.jpg

截至2019年6月,我国网站数量为517万个,较2018年底下降1.1%。 via 第44次中国互联网络发展状况统计报告.pdf

www.similarweb.com.png
*数据来自 similarweb.com,(水份有多大,暂不得而知...

0.目前全球排名8w+,全国排名1w+;
1.本博客75%左右的流量来自搜索引擎;
2.且大部分来自Google;
3.本站允许知名搜索引擎的爬虫抓取;
4.由于墙的原因,在百度/搜狗等国内知名搜索引擎不会出现关于本博客的任何相关搜索结果;
5.特供爬虫应该爬不了墙;
6.以及适当的过滤;

Cloudflare known bots.png

*Google bots 每天爬3-5K次,以保证索引内容更新,数据来自 Cloudflare 控制面板;

禁止爬虫

社交网站或App,例如微信/微博/即刻/Nice/均不对部分搜索引擎的爬虫开放;

以微博举例,https://weibo.com/robots.txt

Sitemap: http://weibo.com/sitemap.xml User-Agent: Baiduspider Disallow: User-agent: 360Spider Disallow: User-agent: Googlebot Disallow: User-agent: Sogou web spider Disallow: User-agent: bingbot Disallow: User-agent: smspider Disallow: User-agent: HaosouSpider Disallow: User-agent: YisouSpider Disallow: User-agent: * Disallow: / User-agent: * Disallow: / allow: /ads

如上,微博目前只给百度的爬虫爬;禁止360/谷歌/搜狗/bing/好搜/易搜爬。
robots.txt文件放在网站根目录,本博客亦如是:https://limbopro.xyz/robots.txt

审查与后真相时代

1.我们或许很难想象 “我国网民规模达8.54亿,互联网普及率达61.2%” 是什么样的概念;
2.太依赖搜索引擎反而不是什么好事,但...可靠的信息来源也日渐稀少,就像地球不是平的一样,信息的流通也是不对称的;

3.我们所能看到的,正是别人所想要让我们看到的;
4.“后真相”(Post-Truth)时代来临,“诉诸情感及个人信念,较陈述客观事实更能影响舆论的情况。” 真相被一次次刺破,还记得“罗一笑事件”吗?

5.当然,保持个体的正直也还是十分的必要;
6.自我审查或许不是什么好词,但造谣终归是不对的;

社交平台

2016 中国社交应用用户行为研究报告.pdf

隐私保护法案

CCPA

2018 年美国加州通过消费者隐私法案(CCPA),缓冲一年多后,将于2020年1月生效。

GDPR

2018年,5月25日,欧洲里程碑式的个人隐私保护法案《通用数据保护条例》(GDPR)正式生效。英国《独立报》称,这场被舆论称为“互联网诞生以来的最大变革”,旨在通过更严格的法律保护欧盟所有公民的数据隐私安全,并加强对企业管理个人信息的监管。《纽约时报》预测,这一法案的影响将遍及全球。GDPR只适用于欧盟成员国,但它的影响将遍及全球。

数字千年版权法

数字千年版权法(英語:Digital Millennium Copyright Act, DMCA)是一个美国版权法律,它实现了两个世界知识产权组织(WIPO)在1996年通过的条约。

via 维基百科

大家在使用谷歌搜索引擎搜索资料时,或多或少会在第一页搜索结果底部,看到类似 DMCA 的提示:部分搜索结果被隐藏或删除;

最后修改:2020 年 02 月 04 日 05 : 22 PM