点网歌以特 蓝止数抓取屏蔽原推已经引擎以阻外的据被所有搜索除谷
发布时间:2025-10-05 12:53:39 作者:玩站小弟
我要评论

7 月初埃隆马斯克带领的 X 曾屏蔽谷歌搜索爬虫抓取内容,这导致谷歌搜索无法在用户搜索 X 用户名时展示最新的推文摘要,不过后面 X 对谷歌解封了。但其他搜索引擎就没那么幸运了,如果使用 site:t
。
7 月初埃隆马斯克带领的原已经有搜 X 曾屏蔽谷歌搜索爬虫抓取内容,这导致谷歌搜索无法在用户搜索 X 用户名时展示最新的推特推文摘要,不过后面 X 对谷歌解封了。屏蔽
但其他搜索引擎就没那么幸运了,除谷如果使用 site:twitter.com 指令在必应搜索上查询的歌外话,你会发现必应收录的索引 X 内容只有 12.1 万条,而谷歌搜索则是擎阻 4.22 亿条。
发生了什么?止数抓原因是 X 屏蔽了除谷歌搜索以外的所有搜索引擎爬虫,至于原因嘛也很简单,据被埃隆马斯克不想 X 的蓝点数据被其他人抓取拿去训练 AI,所有屏蔽了诸如 Bingbot、原已经有搜MSNbot、推特Yandex 等搜索引擎爬虫。屏蔽
那谷歌为什么是例外的呢?估计马斯克都要骂街了,因为之前有传闻称杰克多西时代的歌外推特与谷歌达成了相关协议,允许谷歌抓取内容,目前这一协议尚未到期。
蓝点网通过互联网档案馆排查发现,X 是在 2023 年 7 月 24 日执行屏蔽操作的,更新后的 robots.txt 文件仅允许 Googlebot 抓取内容,其他所有爬虫均被封禁。
所以现在诸如必应搜索上的推特内容极少也就是这个原因,后面估计索引数量会进一步降低,如果谷歌的协议到期了估计内容也都会消失。
不过 robots.txt 毕竟只是君子协定 (这不是法律规定,之前某大数字被某度起诉抓取某度百科内容时,就辩称这是 robots.txt 只是行业管理而非法律规定),所以仍然有各种来路不明的爬虫试图抓取推特上的内容拿去卖数据。
对于这种情况埃隆马斯克也早有准备,在协议规定未经同意获取内容属于违反协议的行为,马斯克对这些未经同意的抓取行为直接起诉。
附 X robots.txt 的最新内容:
# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止搜索爬虫抓取内容# ========================================================User-agent: *Disallow: /
相关文章
- 《粘粘世界2》宣布8月2日正式发行不在Steam上架2024-07-29 09:33:28编辑:柒柒 《粘粘世界2》是由22025-10-05
- 来日诰日便是腊月两十三北圆的小年了,那也意味着人们筹办干浑干净过个好年,表示新年要有新气象,表达了中国劳动听仄易远一种辞旧迎新、迎祥纳祸的夸姣欲看。从小年开端的一些年雅,您晓得多少呢?又有哪些家电好物2025-10-05
- 北京悲乐谷现在针对医护职员推出了门票免费活动啦,快去看看需供甚么前提吧。重视每天限量出售哦,每天5000张,卖完即止啦,快去抢购吧。北京悲乐谷医护职员免费进园【活动时候】:2021年8月28日-2022025-10-05
- 10月31日早8面,京店主电11.11周齐放价,各家电品牌迎去新一轮比武。正在经历了4小时的鏖战后,比拟预卖期间,各家电品牌的排名又产逝世了巨大年夜窜改。正在齐品类收卖榜单中,海我、好的稳坐京店主电开2025-10-05
- 擅驭变量,专注游戏 | 全球游戏产业大会圆满落幕2024-07-27 14:20:03编辑:Reset 2024年7月262025-10-05
- 【足机中国消息】光枯已确认将正在12月26号公布新一代旗舰机——光枯V20,也便是讲,本周三我们便能够睹到那款新机。没有过到古晨为止,民圆战役易远间的动静借出有完整将光枯V20的奥秘里纱掀下,比如该机2025-10-05
最新评论