profiling

现代 cpu 都有内嵌性能监控单元 PMU

可以分析 cache miss，tlb miss，branch miss 等

1. 性能采样

perf stat 统计一定时间内事件个数

用法：perf stat ./main，可以统计

可通过 perf list 查看所有事件

FLOPs：一次加法或乘法

算力峰值π(FLOPs/s)：计算性能上限

带宽β(B/s)：每秒的最大内存交换量

计算强度I：单位内存交换进行了多少次计算

计算强度上限Imax：π/β

下载 FlameGraph

git clone https://github.com/brendangregg/FlameGraph

生成数据

生成文本调用栈（可读性较差）

perf report -n --stdio > output.txt

生成火焰图，可用游览器打开

perf script -i perf.data &> perf.unfold
./FlameGraph/stackcollapse-perf.pl perf.unfold > perf.folded
./FlameGraph/flamegraph.pl perf.folded > out.svg