网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么情况下访问了你网站的哪个页面,是否访问成功等等。
网站日志存放在哪里?
大部分主机包括虚拟主机都会提供一个网站日志功能。网站日志不同于流量统计,流量统计只是统计网站的IP、PV、UV等信息,而网站日志则是整个网站的运行情况,包括用户的IP,访问详情,页面来源,还有用户的UA等等。站长们可以根据用户UA来判断是否有假的蜘蛛来采集网站内容。
虚拟主机日志存放路径:
-
阿里云虚拟主机:需要登陆虚拟主机"控制台"=>"文件管理"=>"网站日志下载",选择某一天的日志点击下载,之后会在网站里创建一个文件夹名为
wwwlogs
的文件夹,从FTP里下载即可。 -
西部数据虚拟主机:需要登录虚拟主机管理页面,找到"网站情报系统"下的"WWW日志",点击下载WebLog日志,之后会在网站里创建一个名为
logfiles
的文件夹,同样从FTP里下载即可。(西部数据的日志有日期限制,只能下载近几天的日志。) -
百度云虚拟主机:需要登录虚拟主机管理页面,点击"日志管理"=>"主机日志",开启FTP日志,保存目录为根目录
/ftplogs
。 - 其他虚拟主机请咨询客服。
云服务器的日志存放路径
-
Windows Server系列操作系统:一般情况下在C盘下的
intepub/logs/LogFiles
文件夹下,比如W3SVC6000
,其中"6000"为站点的ID。 - Linux系列系统因使用的管理软件不同其日志文件存放路径也不同,以宝塔面板为例,登录宝塔管理面板,找到左侧的"文件",打开路径"根目录=>www=>wwwlogs"文件夹,使用宝塔面板创建的网站日志文件通常会在一个文件里保存,网站日志文件名通常以创建网站时的名称+"access_log"命名,错误信息通常以网站名称+"error_log"结尾。
如何查看IIS站点的ID:
打开IIS,找到要查看ID的站点,在右侧点击高级设置,在常规栏目下找到ID即可。
分析日志文件
从服务器上下载日志文件后,可以利用第三方日志分析网站来分析日志详情,也可以使用Excel等工具分析网站日志。
利用第三方日志分析网站分析
将网站日志上传到第三方日志分析网站上,比如 LogHao日志分析工具,上传之后输入网站URL,点击分析即可在右侧看到日志分析详情。
利用Excel工具查看
在导入到Excel之前,需要打开日志文件把列表头的一些无用字段删除掉,比如"#Software: Microsoft Internet Information Services 10.0"、"#Version: 1.0"等等字段。打开Excel,在菜单里找到"数据=>获取外部数据=>自文本",打开导入文件对话框,将右下角的文件类型选择"所有文件(*.*)",选中日志文件。
接着会出现文本导入向导对话框,在原始数据类型中选择"分隔符号",点击"下一步","分割符号"选择"空格",点击下一步、完成,将数据放置到=$A$1
位置下即可。
导入成功后会在表格中显示整个日志信息,其中一些列表头的意义为:
date | time | s-ip | cs-method | cs-uri-stem | cs-uri-query | s-port |
---|---|---|---|---|---|---|
日期 | 时间 | 服务器内网IP | 方法 | URL地址 | URL参数(?后面的字符) | 服务器端口 |
c-ip | cs(User-Agent) | cs(Referer) | sc-status | sc-win32-status | time-taken |
---|---|---|---|---|---|
用户(访问者)IP | 浏览器UA(用户标识) | 链接来源(从哪个页面点击进来,通过该信息可以找到盗取资源的家伙) | 服务端状态码 | 是否64为操作系统("0"为32位,"64"为64为) | 访问延迟(单位:毫秒ms) |
站长们需要重点关注的几点是:访问的URL地址、浏览器UA(非常重要,此字段可以分辨真假蜘蛛)、服务器状态码(重要,如果有404
或非200
等正常状态码就需要检查网站链接)、访问延迟(最好关注下,如果延迟很高说明服务器带宽低或者有人在盗取你网站上的资源)。
重要关注点说明
访问的URL地址(cs-uri-stem)
cs-uri-stem
为用户访问、搜索引擎抓取的地址,如果搜索引擎抓取了不是自己网站上的链接,请及时向站站长平台反馈信息;如果出现经常有用户访问css、img和js等文件,却没有访问网页的情况时,需要站长们注意自己网站的资源是否已经被别人盗用,被别人盗用会增加自己网站的请求量,增加用户打开网站加载时间,甚至还会增加你的流量费用(有流量限制的虚拟主机)。如果被盗用资源可以联系主机服务商是否可以开启防盗链功能。
用户UAcs(User-Agent)
用户UA代表用户是以哪种浏览器访问,或搜索引擎的标识,比如"Sogou+web+spider"、"compatible;+Baiduspider/2.0"等等,如果你没有提交站点给某一个搜索引擎,用户UA却出现了这个搜素引擎的标识,比如国外的“MJ12bot”等等(需要注意的是,搜索引擎抓取频率过多也会导致网站服务器压力过大),请及时将其他没有提交的搜索引擎标识写进robots.txt文件里并设置禁止抓取(Disallow: /);如果发现有其他网站采集本站的数据,需要站长们做好防采集功能。
常见的搜索引擎UA有:
搜索引擎名称 | 搜索引擎标识 |
---|---|
百度蜘蛛 |
compatible;+Baiduspider
|
Google蜘蛛 |
compatible; Googlebot/2.1
|
Google图片蜘蛛 |
Googlebot-Image/1.0
|
必应蜘蛛 |
msnbot/2.0b
|
搜狗蜘蛛 |
Sogou+web+spider
|
请求状态码(sc-status)
请求状态码反映了网站的链接或者资源是否可以打开,常见的状态码有:200(ok)表示访问正常;301(永久重定向);302(暂时重定向);403(禁止访问);404(页面或资源不存在);500系列(通常为网站内部错误,比如代码语法错误等原因导致页面无法呈现)。
如果网站上出现了大量的400、500等状态码,需要站长们重点注意:网站是否有死链;是否有拼写错误的链接;网站的环境配置是否正确,比如php
、.Net
环境等,以及php代码或asp(x)代码是否书写正确。
访问延迟(time-taken)
访问延迟(或者说响应时间)一般在30~200毫秒之间为最佳,超过了1000毫秒则说明网站配置较低或带宽低,客户访问的地理位置和服务器的地理位置比较远,也不排除有其他网站盗用资源或者采集数据。建议选购主机时选择离客户地理位置近的区域或是升级服务器配置、增加网站带宽。
参考链接:
简书:如何分析网站日志文件
![]()
我们在微信上24小时期待你的声音
解答:网站优化,网站建设,搜索引擎优化,APP 开发,小程序开发非常感谢您有耐心的读完这篇文章:"如何下载并分析网站的日志文件",此文章仅为提供更多信息供用户参考使用或为学习交流的方便。如果对您有帮助,请收藏我们的网址:https://www.91webs.cn。