OV - Compare Loops

Loops

▶quants.c: 910 - 4.33 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 910-948 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 910-910 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 928-929 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 13617-13617 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 16103-16103 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 20765-20765 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 30781-30781 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 31056-31056 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 34664-34664					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 910-910 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 928-929 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 13617-13617 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 16103-16103 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 20765-20765 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 30781-30781 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 31056-31056 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 34664-34664
2293	0.09	0.08	0.41	10.53	24.67	1955	0.09	0.08	1.43	16.22	25.68	1974	0.09	4.48	2.50	16.22	25.68

Sum on 1 analyzed binary loop (libggml-cpu.so - 2293)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1955)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1974)
Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Presence of a large number of scalar integer instructions						Presence of a large number of scalar integer instructions					1	Presence of a large number of scalar integer instructions					1
Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶ops.cpp: 6210 - 0.77 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default						Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6210-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6413-6413					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6211-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6223-6231
		789	0.05	0.03	0.44	2.33	10.1	814	0.02	0.58	0.32	0	12.76

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 789)						Sum on 1 analyzed binary loop (libggml-cpu.so - 814)
Analysis	Count	Analysis					Count	Analysis					Count
		Loop Computation Issues						Loop Computation Issues
		Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
		Presence of a large number of scalar integer instructions					1	Presence of a large number of scalar integer instructions					1
		Control Flow Issues						Control Flow Issues
		Presence of calls					1	Presence of calls					1
		Presence of more than 4 paths					1	Presence of more than 4 paths					0
		Vectorization Roadblocks						Vectorization Roadblocks
		Presence of calls					1	Presence of calls					1
		Presence of more than 4 paths					1	Presence of more than 4 paths					1

▶ops.cpp: 6238 - 0.47 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245
				838	0.04	0.84	0.47	0	14.18

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 838)
Analysis	Count	Analysis	Count	Analysis					Count
				Loop Computation Issues
				Presence of expensive FP instructions					1
				Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
				Control Flow Issues
				Presence of calls					1
				Data Access Issues
				Presence of constant non-unit stride data access					1
				Presence of indirect access					1
				Vectorization Roadblocks
				Presence of calls					1
				Presence of constant non-unit stride data access					1
				Presence of indirect access					1

▶vec.cpp: 390 - 0.44 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1057-1057 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 390-390 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 786-786 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 814-814 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 1388-1388 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 1487-1487 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 1628-1628 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 2188-2188 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 2216-2216 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 10248-10248 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 10997-10997 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 12284-12284 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 15253-15253 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 15426-15426 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 16065-16065 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 21933-21933 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 25479-25479 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 26472-26472
				790	0.04	0.79	0.44	85.29	48.53

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 790)
Analysis	Count	Analysis	Count	Analysis					Count
				Loop Computation Issues
				Presence of expensive FP instructions					1
				Data Access Issues
				Presence of constant non-unit stride data access					1
				Vectorization Roadblocks
				Presence of constant non-unit stride data access					1

▶vec.cpp: 385 - 0.38 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1008-1034 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1009-1023 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1031-1034 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387					Loop Source Regions
908	0.04	0.02	0.08	68.18	79.76	766	0.04	0.02	0.30	80	97.59

Sum on 1 analyzed binary loop (libggml-cpu.so - 908)						Sum on 1 analyzed binary loop (libggml-cpu.so - 766)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count
Loop Computation Issues						Loop Computation Issues
Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶binary-ops.cpp: 10 - 0.27 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
433	0.02	0.01	0.03	0	12.5	410	0.02	0.01	0.10	25	50	416	0.01	0.25	0.14	25	50

Sum on 1 analyzed binary loop (libggml-cpu.so - 433)						Sum on 1 analyzed binary loop (libggml-cpu.so - 410)						Sum on 1 analyzed binary loop (libggml-cpu.so - 416)
Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶binary-ops.cpp: 18 - 0.23 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
538	0.03	0.00	0.02	0	11.84	494	0.02	0.00	0.08	25	50	502	0.01	0.22	0.12	25	50

Sum on 1 analyzed binary loop (libggml-cpu.so - 538)						Sum on 1 analyzed binary loop (libggml-cpu.so - 494)						Sum on 1 analyzed binary loop (libggml-cpu.so - 502)
Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶ops.cpp: 4325 - 0.21 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326
1278	0.01	0.00	0.03	94.12	95.59	1132	0.02	0.01	0.10	0	13.28	1170	0.01	0.15	0.09	17.39	28.26

Sum on 1 analyzed binary loop (libggml-cpu.so - 1278)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1132)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access

▶ggml-cpu.c: 3228 - 0.15 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404
0	0.01	0.00	0.01	86.36	95.61	4	0.02	0.00	0.05	93.18	94.03	1	0.01	0.16	0.09	72.6	41.78

Sum on 1 analyzed binary loop (libggml-cpu.so - 0)						Sum on 1 analyzed binary loop (libggml-cpu.so - 4)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶vec.h: 491 - 0.15 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 491-491 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 16058-16058 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 26465-26465 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 31977-31977
				1518	0.02	0.27	0.15	27.59	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 1518)
Analysis	Count	Analysis	Count	Analysis					Count
				Data Access Issues
				Presence of constant non-unit stride data access					1
				Vectorization Roadblocks
				Presence of constant non-unit stride data access					1

▶vec.h: 486 - 0.14 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 486-491 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 502-502 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8853-8853 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 14177-14177
				1526	0.02	0.25	0.14	10	19.69

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 1526)
Analysis	Count	Analysis	Count	Analysis					Count
				Loop Computation Issues
				Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
				Presence of a large number of scalar integer instructions					1
				Control Flow Issues
				Presence of calls					1
				Vectorization Roadblocks
				Presence of calls					1
				Presence of more than 4 paths					1

▶ops.cpp: 8787 - 0.13 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 751-751 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8787-8787 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8817-8819 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8825-8826 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8841-8841 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51
				1533	0.02	0.23	0.13	0	26.88

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 1533)
Analysis	Count	Analysis	Count	Analysis					Count
				Loop Computation Issues
				Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
				Presence of a large number of scalar integer instructions					1
				Control Flow Issues
				Vectorization Roadblocks
				Presence of more than 4 paths					1

▶<unknown>: 0 - 0.12 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions						Loop Source Regions						Loop Source Regions
2650	0.01	0.00	0.00	0	0	4180	0.00	0.00	0.00	0	0	1655	0.00	0.00	0.00	0	0
2790	0.00	0.00	0.00	0	0	3877	0.00	0.00	0.00	0	0	3797	0.01	0.01	0.01	0	0
2767	0.01	0.00	0.00	0	0	4127	0.00	0.00	0.00	0	0	4540	0.01	0.01	0.01	0	0
1679	0.00	0.00	0.00	0	0	3732	0.02	0.00	0.01	0	0	1639	0.00	0.00	0.00	0	0
88	0.00	0.00	0.00	0	0	3907	0.00	0.00	0.00	0	0	55	0.00	0.00	0.00	0	0
314	0.05	0.00	0.00	0	0	4141	0.00	0.00	0.00	0	0	1537	0.00	0.01	0.01	0	0
1744	0.00	0.00	0.00	0	0	56	0.00	0.00	0.01	0	0	592	0.00	0.00	0.00	0	0
1282	0.01	0.00	0.00	0	0	48	0.01	0.00	0.00	0	0	985	0.00	0.00	0.00	0	0
2268	0.01	0.00	0.00	0	0	799	0.01	0.00	0.01	0	0	945	0.00	0.00	0.00	0	0
901	0.01	0.00	0.01	0	0	1463	0.01	0.00	0.01	0	0
1756	0.01	0.00	0.00	0	0	1466	0.00	0.00	0.01	0	0
396	0.01	0.00	0.00	0	0	368	0.00	0.00	0.01	0	0
1437	0.01	0.00	0.01	0	0	1932	0.00	0.00	0.00	0	0
66	0.01	0.00	0.00	0	0	1471	0.00	0.00	0.00	0	0
						53	0.01	0.00	0.00	0	0
						620	0.01	0.00	0.00	0	0

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count

▶ops.cpp: 6220 - 0.11 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default		Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6220 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6229-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions		Loop Source Regions
1432	0.04	0.02	0.11	0	13.17

Sum on 1 analyzed binary loop (libggml-cpu.so - 1432)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis	Count	Analysis	Count
Loop Computation Issues
Presence of expensive FP instructions					1
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Control Flow Issues
Presence of calls					1
Data Access Issues
Presence of constant non-unit stride data access					1
Vectorization Roadblocks
Presence of calls					1
Presence of constant non-unit stride data access					1

▶vec.cpp: 311 - 0.09 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 311-311 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 16058-16058 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 31977-31977
				782	0.01	0.16	0.09	52.63	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

▶vec.h: 411 - 0.06 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions
1753	0.01	0.00	0.01	100	100	1470	0.02	0.00	0.05	100	100

Sum on 1 analyzed binary loop (libggml-cpu.so - 1753)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1470)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶vec.cpp: 231 - 0.04 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions
		763	0.01	0.00	0.04	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count

▶ops.cpp: 6446 - 0.03 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6456
				848	0.01	0.06	0.03	37.5	40.63

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

▶vec.h: 677 - 0.02 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 677-677 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 1487-1487 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 16065-16065 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 26472-26472
				1169	0.01	0.04	0.02	50	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

▶ggml-impl.h: 354 - 0.02 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 49-49 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 64-66 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 72-75 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 83-83 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 354-354 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 3320-3320 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 13947-13947 /usr/lib/gcc/aarch64-amazon-linux/11/include/arm_neon.h: 21569-21569
				1956	0.01	0.03	0.02	15.24	14.64

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

▶vec.h: 646 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions
		1131	0.01	0.00	0.01	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count

▶ggml-cpu.c: 1193 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1193-1194
				63	0.00	0.02	0.01	0	22.4

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

▶llama-vocab.cpp: 3216 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/usr/include/c++/11/bits/hashtable_policy.h: 287-287 /usr/include/c++/11/bits/hashtable_policy.h: 1916-1916 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/src/llama-vocab.cpp: 3216-3216 /usr/include/c++/11/ext/new_allocator.h: 145-145 /usr/include/c++/11/bits/basic_string.h: 195-195 /usr/include/c++/11/bits/basic_string.h: 211-211 /usr/include/c++/11/bits/basic_string.h: 239-239 /usr/include/c++/11/bits/basic_string.h: 245-245
				3801	0.02	0.02	0.01	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

▶ops.cpp: 8885 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8885-8886 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-46-37.ec2.internal/176-414-8092/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51
				1540	0.00	0.02	0.01	0	28.13

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

▶hashtable.h: 2386 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/usr/include/c++/11/bits/hashtable_policy.h: 287-287 /usr/include/c++/11/bits/hashtable_policy.h: 434-434 /usr/include/c++/11/bits/hashtable.h: 2386-2391 /usr/include/c++/11/bits/hashtable.h: 2402-2403
				4247	0.02	0.02	0.01	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count

Report Configuration

Loops

▶quants.c: 910 - 4.33 %

▶ops.cpp: 6210 - 0.77 %

▶ops.cpp: 6238 - 0.47 %

▶vec.cpp: 390 - 0.44 %

▶vec.cpp: 385 - 0.38 %

▶binary-ops.cpp: 10 - 0.27 %

▶binary-ops.cpp: 18 - 0.23 %

▶ops.cpp: 4325 - 0.21 %

▶ggml-cpu.c: 3228 - 0.15 %

▶vec.h: 491 - 0.15 %

▶vec.h: 486 - 0.14 %

▶ops.cpp: 8787 - 0.13 %

▶<unknown>: 0 - 0.12 %

▶ops.cpp: 6220 - 0.11 %

▶vec.cpp: 311 - 0.09 %

▶vec.h: 411 - 0.06 %

▶vec.cpp: 231 - 0.04 %

▶ops.cpp: 6446 - 0.03 %

▶vec.h: 677 - 0.02 %

▶ggml-impl.h: 354 - 0.02 %

▶vec.h: 646 - 0.01 %

▶ggml-cpu.c: 1193 - 0.01 %

▶llama-vocab.cpp: 3216 - 0.01 %

▶ops.cpp: 8885 - 0.01 %

▶hashtable.h: 2386 - 0.01 %