如何下载并分析网站的日志文件

发布时间:2019-08-20 09:39:29 阅读:131
网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么情况下访问了你网站的哪个页面,是否访问成功等等。

网站日志存放在哪里?

大部分主机包括虚拟主机都会提供一个网站日志功能。网站日志不同于流量统计,流量统计只是统计网站的IP、PV、UV等信息,而网站日志则是整个网站的运行情况,包括用户的IP,访问详情,页面来源,还有用户的UA等等。站长们可以根据用户UA来判断是否有假的蜘蛛来采集网站内容。

虚拟主机日志存放路径:

  1. 阿里云虚拟主机:需要登陆虚拟主机"控制台"=>"文件管理"=>"网站日志下载",选择某一天的日志点击下载,之后会在网站里创建一个文件夹名为wwwlogs的文件夹,从FTP里下载即可。
  2. 西部数据虚拟主机:需要登录虚拟主机管理页面,找到"网站情报系统"下的"WWW日志",点击下载WebLog日志,之后会在网站里创建一个名为logfiles的文件夹,同样从FTP里下载即可。(西部数据的日志有日期限制,只能下载近几天的日志。)
  3. 百度云虚拟主机:需要登录虚拟主机管理页面,点击"日志管理"=>"主机日志",开启FTP日志,保存目录为根目录/ftplogs
  4. 其他虚拟主机请咨询客服。

下载到网站目录里的网站日志文件

云服务器的日志存放路径

  1. Windows Server系列操作系统:一般情况下在C盘下的intepub/logs/LogFiles文件夹下,比如W3SVC6000,其中"6000"为站点的ID。
  2. Linux系列系统因使用的管理软件不同其日志文件存放路径也不同,以宝塔面板为例,登录宝塔管理面板,找到左侧的"文件",打开路径"根目录=>www=>wwwlogs"文件夹,使用宝塔面板创建的网站日志文件通常会在一个文件里保存,网站日志文件名通常以创建网站时的名称+"access_log"命名,错误信息通常以网站名称+"error_log"结尾。

如何查看IIS站点的ID:

打开IIS,找到要查看ID的站点,在右侧点击高级设置,在常规栏目下找到ID即可。

在IIS中查看网站的ID

分析日志文件

从服务器上下载日志文件后,可以利用第三方日志分析网站来分析日志详情,也可以使用Excel等工具分析网站日志。

利用第三方日志分析网站分析

将网站日志上传到第三方日志分析网站上,比如 LogHao日志分析工具,上传之后输入网站URL,点击分析即可在右侧看到日志分析详情。

在线网站日志分析工具

利用Excel工具查看

在导入到Excel之前,需要打开日志文件把列表头的一些无用字段删除掉,比如"#Software: Microsoft Internet Information Services 10.0"、"#Version: 1.0"等等字段。打开Excel,在菜单里找到"数据=>获取外部数据=>自文本",打开导入文件对话框,将右下角的文件类型选择"所有文件(*.*)",选中日志文件。

接着会出现文本导入向导对话框,在原始数据类型中选择"分隔符号",点击"下一步","分割符号"选择"空格",点击下一步、完成,将数据放置到=$A$1位置下即可。

导入成功后会在表格中显示整个日志信息,其中一些列表头的意义为:

date time s-ip cs-method cs-uri-stem cs-uri-query s-port
日期 时间 服务器内网IP 方法 URL地址 URL参数(?后面的字符) 服务器端口

c-ip cs(User-Agent) cs(Referer) sc-status sc-win32-status time-taken
用户(访问者)IP 浏览器UA(用户标识) 链接来源(从哪个页面点击进来,通过该信息可以找到盗取资源的家伙) 服务端状态码 是否64为操作系统("0"为32位,"64"为64为) 访问延迟(单位:毫秒ms)

站长们需要重点关注的几点是:访问的URL地址、浏览器UA(非常重要,此字段可以分辨真假蜘蛛)、服务器状态码(重要,如果有404或非200等正常状态码就需要检查网站链接)、访问延迟(最好关注下,如果延迟很高说明服务器带宽低或者有人在盗取你网站上的资源)。

重要关注点说明

访问的URL地址(cs-uri-stem)

cs-uri-stem为用户访问、搜索引擎抓取的地址,如果搜索引擎抓取了不是自己网站上的链接,请及时向站站长平台反馈信息;如果出现经常有用户访问css、img和js等文件,却没有访问网页的情况时,需要站长们注意自己网站的资源是否已经被别人盗用,被别人盗用会增加自己网站的请求量,增加用户打开网站加载时间,甚至还会增加你的流量费用(有流量限制的虚拟主机)。如果被盗用资源可以联系主机服务商是否可以开启防盗链功能。

用户UAcs(User-Agent)

用户UA代表用户是以哪种浏览器访问,或搜索引擎的标识,比如"Sogou+web+spider"、"compatible;+Baiduspider/2.0"等等,如果你没有提交站点给某一个搜索引擎,用户UA却出现了这个搜素引擎的标识,比如国外的“MJ12bot”等等(需要注意的是,搜索引擎抓取频率过多也会导致网站服务器压力过大),请及时将其他没有提交的搜索引擎标识写进robots.txt文件里并设置禁止抓取(Disallow: /);如果发现有其他网站采集本站的数据,需要站长们做好防采集功能。

常见的搜索引擎UA有:

搜索引擎名称 搜索引擎标识
百度蜘蛛 compatible;+Baiduspider
Google蜘蛛 compatible; Googlebot/2.1
Google图片蜘蛛 Googlebot-Image/1.0
必应蜘蛛 msnbot/2.0b
搜狗蜘蛛 Sogou+web+spider

请求状态码(sc-status)

请求状态码反映了网站的链接或者资源是否可以打开,常见的状态码有:200(ok)表示访问正常;301(永久重定向);302(暂时重定向);403(禁止访问);404(页面或资源不存在);500系列(通常为网站内部错误,比如代码语法错误等原因导致页面无法呈现)。

如果网站上出现了大量的400、500等状态码,需要站长们重点注意:网站是否有死链;是否有拼写错误的链接;网站的环境配置是否正确,比如php.Net环境等,以及php代码或asp(x)代码是否书写正确。

访问延迟(time-taken)

访问延迟(或者说响应时间)一般在30~200毫秒之间为最佳,超过了1000毫秒则说明网站配置较低或带宽低,客户访问的地理位置和服务器的地理位置比较远,也不排除有其他网站盗用资源或者采集数据。建议选购主机时选择离客户地理位置近的区域或是升级服务器配置、增加网站带宽。

参考链接:
简书:如何分析网站日志文件

我们在微信上24小时期待你的声音
解答:网站优化,网站建设,搜索引擎优化,APP 开发,小程序开发

非常感谢您有耐心的读完这篇文章:"如何下载并分析网站的日志文件",此文章仅为提供更多信息供用户参考使用或为学习交流的方便。如果对您有帮助,请收藏我们的网址:https://www.91webs.cn


18617670560