关于搜索引擎定义是否收录的robots.txt文件

0 0

关于搜索引擎定义是否收录的robots.txt文件

网上我查过了！如果在网站源码的主目录定义robots.txt文件，它是尊照了robots搜索引擎协议！
它的作用是定义子目录下的网站不允许搜索引擎收录，或者允许搜索引擎收录。
网站的每个模块可以区分定义！
如果我想把网站的（联系我们）的模块不允许搜索引擎收录使用:Disallow /加路径名（子目录）
如果我想把网站的（新闻信息）的模块允许搜索引擎收录使用:Allow /加路径名（子目录）
注意：这边定义robots.txt都使用路径（子目录）的！
如果网站开发是使用php的framework的话，使用单一入口文件的话
如何我想让xx单个模块不允许搜索引擎收录如何做？
是不是定义robots.txt把入口文件Disallow了，
这样做是不是把整个网站都定义为不允许搜索引擎收录了？

google 搜索引擎百度

11 years, 4 months ago

芙兰的胸罩

芙兰的胸罩 11 years, 4 months ago

注意一个本质： robots.txt 的本质是对URL的字符串匹配，而不是去深挖服务器的目录结构。

借助URL重写技术，看似有着 /articles/category-1/post-1/page-1/ 这样复杂“目录”结构的网站，其实内部可能半个文件都没有。但无论是访问者还是爬虫，都不知道，也不关心这一点。

在大多数网站上“URL”和目录结构的等同，确实在有些时候为理解概念制造了迷惑。还是要注意这一点的。

所以一切都取决于你网站的URL路由，是怎么具体实现的。

如果是完全重写( /article/1/ )：封 index.php 没用，最多影响某些误撞进 /index.php 的访问请求。
如果依赖index.php做路由( /index.php/article/1/ 或 /index.php?action=article&id=1 )：那就要小心了。

answered 11 years, 4 months ago

szxer

szxer answered 11 years, 4 months ago