Navigation :

GPU Kernel Information Aggregated by Name

Search:

kernel_name	kernel_count	kernel_duration (us)	model_duration_percentage	kernel_flops	kernel_dram_read_bytes	kernel_dram_write_bytes	kernel_achieved_occupancy (%)	kernel_arithmetic_intensity (flops/byte)	kernel_arithmetic_throughput (GFlops)	kernel_memory_bound

kernel_name	kernel_count	kernel_duration (us)	model_duration_percentage	kernel_flops	kernel_dram_read_bytes	kernel_dram_write_bytes	kernel_achieved_occupancy (%)	kernel_arithmetic_intensity (flops/byte)	kernel_arithmetic_throughput (GFlops)	kernel_memory_bound
cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams)	8	19.67	0.31	0	0.00	0.00	0.00	0.00	0.00	true
void conv2d_c1_k1_nchw_hw_packed_kernel<float, float, 3>(cudnnTensorStruct, float const, cudnnFilterStruct, float const, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, int)	3	44.00	0.70	0	0.00	0.00	0.00	0.00	0.00	true
void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const, cudnnFilterStruct, float const, cudnnConvolutionStruct, cudnnTensorStruct, float, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const, float const*, cudnnActivationStruct)	12	67.67	1.08	0	0.00	0.00	0.00	0.00	0.00	true
void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const, cudnnTensorStruct, float, cudnnTensorStruct, float const, float const, float const, float const, float)	52	204.66	3.27	0	0.00	0.00	0.00	0.00	0.00	true
void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const, int, float, float, kernel_conv_params, int, float, float, int, float, float*, int, int)	26	539.00	8.61	0	0.00	0.00	0.00	0.00	0.00	true
void cudnn::detail::implicit_convolve_sgemm<float, float, 128, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const, int, float, float, kernel_conv_params, int, float, float, int, float, float*, int, int)	0	12.00	0.19	0	0.00	0.00	0.00	0.00	0.00	true
void cudnn::detail::pooling_fw_4d_kernel<float, float, cudnn::detail::averpooling_func<float>, 1, false>(cudnnTensorStruct, float const, cudnnTensorStruct, float, cudnnPoolingStruct, float, float, int, cudnn::reduced_divisor, cudnn::reduced_divisor)	0	6.33	0.10	0	0.00	0.00	0.00	0.00	0.00	true
void mxnet::op::mxnet_op::mxnet_generic_kernel<mxnet::op::clip, float, float, float, float>(int, float, float, float, float)	35	103.00	1.65	0	0.00	0.00	0.00	0.00	0.00	true
void mxnet::op::mxnet_op::mxnet_generic_kernel<mxnet::op::mxnet_op::op_with_req<mxnet::op::mshadow_op::plus, 1>, float, float, float>(int, float, float, float)	9	21.67	0.35	0	0.00	0.00	0.00	0.00	0.00	true
volta_scudnn_128x32_relu_interior_nn_v1	1	26.00	0.42	0	0.00	0.00	0.00	0.00	0.00	true
volta_scudnn_128x32_relu_small_nn_v1	0	14.00	0.22	0	0.00	0.00	0.00	0.00	0.00	true
volta_scudnn_128x64_relu_interior_nn_v1	5	68.67	1.10	0	0.00	0.00	0.00	0.00	0.00	true

Showing 1 to 12 of 12 entries

Download as CSV