x
云呐统一运维一体机|做运维需要全方位考虑问题
来源:云呐 2021-11-16 11:02:10

  公司要你开发建立一个web服务器,并与开发人员合作让其他人访问。操作就是要做到一件事、一人少、一件事并保证生意。

服务方面

  1.选择服务版本,要与开发沟通,如果要开发PHP语言,请询问他编写的代码是什么版本,不同版本可能不兼容某些语法,会导致错误。

  为了选择稳定版,更新过多会导致bug,造成崩溃或服务出错。要想选择一个新版本,就必须有新特性,否则旧的版本最稳定。

  一个简单的服务部署之后要做的是一个简单的测试,让服务器能够像往常一样运行,不能完全安装。在Java这个替代版本中,将1.7升级到1.8可能会导致一些JDK依赖于1.7,这一切都需要考虑。

  在服务运行之后,要注意其启动用户,可能用户错误导致无法读取文件。例如,WWW用户在Nginx启动时无法读取/data查找HTML发送给用户。

  在要使用库的时候,考虑表名称是否重复。当一个Redis用于缓存时,考虑写入的数据是否冲突。

  2.基于企业的结构分析:使用Nginx还是apache,在选择之前填写调查文档,进行测试,编写测试文档,部署文档。

  3.根据业务量选择计算机还需要有配置选择,这样可以使配置成为一个组合,例如,tomcat机器,每台8核的16G内存,硬盘100基,这一选项可作为创建虚拟机或购买云机器的套餐。

  4.根据需求进行主从,或负载平衡选择,也可以选择备份容灾,CDN等。

  5.分析诸如ip源地址、pv、uv等服务的日志。

  6.对服务和系统进行优化,前期优化和优化后差异很大,性能可能会降低一倍。

  7.安全保护,不仅仅是DDoS,还有登录问题。重点放在软件可能暴露的安全问题或Linux自身的系统问题上。

  也许是某个Nginx版本突然说出问题了,您还没有关注,这样很容易被黑掉。

  8.网络问题,很多时候都是这样,有些地方来得速度慢,可是有些人去的速度不慢,很头痛,需要抓包再逐步排查。

  9.性能问题,一开始也许不错。当压力出现时,数据库可能会有缓慢的查询,需要检查和解决。也许有些网站的某些用户无法访问,或访问速度慢,需要进行检查。

  这是最难得的,需要各方面的知识,若遇上突如其来的无法访问,那就回想以前做过什么操作,再有针对性地检查。

  10.专注于版本问题,与前面的7层不同,nginx1.9将支持TCP的4层代理,这将大大改善性能,并有助于企业业务。

  11.优化,不仅仅是对系统进行内核优化,还包括对服务进行概要优化,这需要长期深入地了解。缺省都是最标准的,但可以根据情况舍弃其中一部分,强化另一部分,使之符合业务。

  例如Nginx做反向代理,可以优化内核参数,快速释放链接,以及缩短超时配置,从而能够处理更高的并发。但如果提供如PHP等服务,则要配置较长,才能达到稳定效果。

  12.应考虑总体结构。例如Nginx做负载平衡,可能抗压能力很好,但后面的数据库监控只有3个,导致数据库带宽已满,还会产生无法访问的问题。

三、自动发布

  1.如何发布,是手动还是自动,如果机器多,需要Jenkins等自动发布。

  2.容灾问题,代码在发布失败时需要快速回滚,不影响问题,发布时也不要所有节点都发布,挨个节点发布。

  3.还要备份旧代码,以防止将来可能突然出现需要回滚的问题。

四、总体而言

  1.做好工作并非每天都在忙着做错事,大部分时间都是空闲的,此时就需要自我控制来学习东西。

  2.运作的价值=节省的成本x你的意识x你的觉知。

  操作不能直接获取价值,但可以进行优化,调整结构以节省开支,不发生事故就是最佳的价值。与此同时,分析日志可以为企业创造无形价值。

  3.优化现有的方法,公司在成长时,一定会有很多隐患,例如,一开始就是用一只脚来批量操作10-20台机器,后面公司又有100台机器,要用ansible进行批量操作。以上均需自动化,还需自动发布,压力大可自动扩容,报警CPU不足自动调整缓解当前机器的压力。

  4.服务也不是照着百度百科放在档案里就可以了,像负载平衡一样,可能调度算法填错了,导致一个压力大,一个压力小。也许服务也会占用一个CPU压力大,而其他都不会闲着。

  5.要编写许多文档,如资产文档、机器配置、以及密码表、服务连接文档、部署文档、维护文档都要写,文档的功能之一是自己使用,另一个是等待您离开或新员工加入,他们可以迅速进行维护。

  6.部署一项新服务,在上线测试之后必须要进行测试,而不是安装,需要找到深入测试的数据,模拟在线环境。

  7.小心一点也不小心,任何操作都会反复思考几次,不要随意使用,例如重新启动在线nignx的reload,否则当前的业务中断。

  8.监视非常重要,可以查看通信量,某些服务的内存是否超负荷,没有监测出什么问题,监控不仅要监视服务端口防止挂掉,还要有自己深度的使用,比如MySQL的慢查询,home等。

  9.系统上,运行操作最好有一些发布流程,虚拟机应用程序,巡检过程等。巡视也很重要,云服务器也要检查是否磁盘已满,是否需要续费等。要不然什么时候出问题就大了。

  10.进行业务机械规划,在有压力时进行扩展,逐步关闭。

  11.测试也很重要,服务从多种角度进行测试,如nginx从静态页面、动态页面、提交数据、模拟多个在线用户的登录访问等等。

  12.在修改文件之前必须进行备份,便于回滚,最好对操作日志进行审核。

  (1)事先积累了技术,可能懂得了谋略,优化后让服务器性能提高2个点。

  (2)提早预防问题,防患未然。

  (3)考虑更多的可能性,即目前的结构可能是稳定的,但肯定不是最佳的。

  云呐统一运维管理平台,通过对网络设备管理、服务器管理、存储设备管理、业务应用管理、无线管理、日志分析、办公设备/联网设备、动环系统等本地和异地网络的实时监控、自动巡检,精准采集、分析故障信息,判断重要数据性能指标,实现大规模数据中心的集中统一管理。如果对云呐统一运维管理平台有什么疑问,你可以联系在线客服,或直接注册免费试用云呐系统。


免费试用:点我开通试用

智能运维品牌

固定资产管理系统

申请体验,开启您的企业数字化

立即体验