百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

手机重启问题快速分析定位指南(手机重启后会有什么后果)

nanshan 2024-10-10 07:23 90 浏览 0 评论

阅读五分钟,每日十点,和您一起终身学习,这里是程序员Android

本篇文章主要介绍 Android 开发中的部分知识点,通过阅读本篇文章,您将收获以下内容:

一、 AEE 系统机制简介

二、AEE 重启异常分类介绍

三、重启问题快速分析归类指南之 Kernel Exception

四、重启问题快速分析归类指南之 Watchdog Timeout

五、重启问题快速分析归类指南之 Hardware Reboot

一、 AEE 系统机制简介

1.MTK AEE 系统

AEE 是 MTK平台自研,用于侦测Android手机系统异常重启的一套系统机制,当AEE系统 侦测到异常后会生成 db 文件.

2.db 文件存储路径:

/data/aee_exp

data/vendor/mtklog/aee_exp

Android 8.0 之后由于系统安全机制导致db无法保存到MTK log中

user版本 中AEE仅仅侦测引起的重启故障,例如:KE/system server , NE/system server ,JE/SWT 。

3.AEE 异常侦测机制

AP层重启时候,AEE系统会在db生成后会发生am 广播(com.mediatek.log2server.EXCEPTION_HAPPEND),但系统重启类异常(KE / HW reboot/ HWT)不会发送广播,因为AMS还无法使用。

另外,AEE会开机后判断异常重启,当异常重启后会设置debug.mtk.aee.db的 property,由于不是persist的,关机就丢失,因此只有异常重启后才有这个property存在。

因此,我们可以通过检查debug.mtk.aee.db的方法来获取系统是否发生了异常重启。

4.重启异常 debug.mtk.aee.db 读取方法

  • 1.java 层:

android.os.SystemProperties.get("debug.mtk.aee.db", "")

  1. native层:

int property_get(const char* key, char* value, const char* def);

  1. 通过adb shell

adb shell getprop debug.mtk.aee.db

二、AEE 重启异常分类介绍

AEE 重启异常分类 如下:

  • 1.KE
  • 2.HWT
  • 3.HWT Reboot
  • 4.NE
  • 5.JE
  • 6.SWT

上面的类型可能会变化,具体请参考kernel代码:kernel-4.4/drivers/misc/mediatek/include/mt-plat/aee.h里的AE_EXP_CLASS。

1.AEE 输出内容

当有异常发生时候,会生成dbg文件,通过特殊的工具可以解压这个dbg文件。

关注微和谐信公众号: 程序员Android
回复 aee 即可获取解析重启db log的工具。



2.dbg文件

db.fatal.00.JE.dbg.DEC 这个文件夹使用aee_extract.exe抽取aee db压缩文件生成的,这个工具在gat-win32-3\prebuilt\spsstools\bin\aee_extract.exe可以找到。



db 文件解压后部分内容

3.ZZ_INTERNAL 简介

ZZ_INTERNAL 包含重启的简单信息,如需获取更多信息,需要解压dbg文件。



ZZ_INTERNAL

4.KE、JE、NE、SWT分类

这种类型最好分类,因为有调用栈,有进程名,分类可以做的很细致。

KE db如果存在SYSTRACKER_DUMP文件,表示存在bus hang,也可以单独列出来。

5. HWT分类

不能以当前CPU的调用栈分类。因为最后调用BUG的CPU是随机的。同样的调用栈,可能是不同的root cause,应该按卡住的CPU的调用栈进行分类

从SYS_LAST_KMSG看Kick bit、check bit得出无喂狗CPU,可能存在多个或没有。

从SYS_LAST_KMSG提取无喂狗CPU的调用栈

6.HW reboot分类

可以通过__exp_main.txt里的Exception Type分类

  • HW reboot
  • Thermal reboot
  • SPM reboot
  • ATF crash

Type为HW reboot可以进一步细分( 按SYS_REBOOT_REASON里字段信息 )

  • last pc,看各个Core停止的位置
  • deepidle/sodi3/sodi/spm_suspend,如果非0表示当时处于low power场景
  1. Android Dropbox

三、重启问题快速分析归类指南之 Kernel Exception

当手机重启时候,Kernel重启异常信息会保存在手机/data/aee_exp或 data/vendor/mtklog/aee_exp 中的db文件中。

Kernel Exception重启分类如下:

  • 1.Kernel Panic
  • 2.Watchdog Timeout
  • 3.Hardware Reboot

1.Kernel Panic

即Linux kernel发生了无法修复的错误,从而导致 panic。通过查看 SYS_KERNEL_LOG 的内容.

kernel Panic 进一步可以分为如下几类:

  1. 普通的data abort
  2. oom主动触发的panic
  3. undefined instruction,未定义指令异常
  4. bad mode异常,即PC处于一个无效的virtual address

1. 普通的data abort

从SYS_KERNEL_LOG中,可以检索到如下关键信息:

Unable to handle kernel NULL pointer dereference at virtual address XXXXXXXX

如上的XXXXXXXX代表某个非法地址。这种类型是最多的。

2. oom 主动触发的panic

从SYS_KERNEL_LOG中,可以检索到如下关键信息:

Kernel panic - not syncing: Out of memory and no killable processes...

此种类型的panic一般是某个process或者APK耗尽了memory资源,从而kernel主动触发的panic重启。

3.undefined instruction,未定义指令异常

从SYS_KERNEL_LOG中,可以检索到如下关键信息:

Internal error: Oops - undefined instruction

此类异常较为少见,可能是CPU/DRAM 不稳定或者受干扰导致的问题。

4.bad mode异常,即PC处于一个无效的virtual address

从SYS_KERNEL_LOG中,可以检索到如下关键信息:

Bad mode in Synchronous Abort handler detected
[14820.652408]-(1)[682:VSyncThread_0][<ffffffc000088f90>] bad_mode+0x78/0xb0

此类异常较为少见,可能的原因是stack错乱,或者未注册回调函数引起。

四、重启问题快速分析归类指南之 Watchdog Timeout

看门狗超时有两种

  • 1.底层看门狗超时HWT
  • 2.上层hang_detect 触发看门狗超时SWT

1.底层看门狗超时HWT

从SYS_KERNEL_LOG中,可以检索如下关键信息

  • arm64 平台
PC is at aee_wdt_atf_info+0x4c8/0x6dc
LR is at aee_wdt_atf_info+0x4c0/0x6dc
  • arm32 平台
PC is at aee_wdt_irq_info+0x104/0x12c
LR is at aee_wdt_irq_info+0x104/0x12c

此类异常较为常见,多见于底层频繁irq/bus卡死,导致kicker无法被schedule,从而引起watch dog触发中断,引导系统进入FIQ处理流程,最终call到BUG触发重启。

2. 上层hang_detect 触发看门狗超时SWT

从SYS_KERNEL_LOG中,可以检索( 关键字 :hang_detect)

[ 2131.086562] (0)[77:hang_detect][Hang_Detect] we should triger HWT ...
 ...
 
[ 2180.467416]-(0)[77:hang_detect]PC is at aee_wdt_irq_info+0x154/0x170
[ 2180.467426]-(0)[77:hang_detect]LR is at aee_wdt_irq_info+0x154/0x170
 ...

此异常类型较为常见,多见于GPU/SD卡/eMMC无法满足surfacelinger/system_server的通讯需求,从而导致上层卡死,进而主动触发看门狗超时重启。

五、重启问题快速分析归类指南之 Hardware Reboot

Hardware reboot是watch dog直接发出reset信号,导致整个系统重启;在重启之前,并没有触发任何异常处理流程。

一般情况下,hardware reboot对应的db不会有SYS_KERNEL_LOG 可以排查,只能从SYS_LAST_KMSG获知异常之前kernel的动作,以及从SYS_REBOOT_REASON获知异常时的CPU寄存器值和其它参数。

从ZZ_INTERNAL 档案,可以知道发生了hardware reboot

例如 如下部分log:

Hardware Reboot,0,0,99,/data/core/,0,,HW_REBOOT,Fri Jul 3 14:31:53 CST 2015,1

相关推荐

0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...

ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes

为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...

生产环境starrocks 3.1存算一体集群部署

集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...

在CentOS上添加swap虚拟内存并设置优先级

现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...

国产深度(deepin)操作系统优化指南

1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...

postgresql-15.4 多节点主从(读写分离)

1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...

Docker 容器 Java 服务内存与 GC 优化实施方案

一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...

虚拟内存设置、解决linux内存不够问题

虚拟内存设置(解决linux内存不够情况)背景介绍  Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...

Elasticsearch性能调优(5):服务器配置选择

在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...

Es如何落地

一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...

针对Linux内存管理知识学习总结

现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...

MySQL进阶之性能优化

概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...

Linux Cgroups(Control Groups)原理

LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...

linux 常用性能优化参数及理解

1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...

如何在 Linux 中使用 Sysctl 命令?

sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...

取消回复欢迎 发表评论: