GPU Kernel Information
layer_index | layer_name | layer_type | layer_shape | layer_duration (us) | layer_allocated_bytes | layer_peak_allocated_bytes | layer_allocator_bytes_in_use | layer_allocator_name | layer_host_temp_mem_bytes | layer_device_temp_mem_bytes | layer_host_persistent_mem_bytes | layer_device_persistent_mem_bytes | kernel_name | kernel_duration (us) | kernel_flops | kernel_dram_read_bytes | kernel_dram_write_bytes | kernel_achieved_occupancy (%) | kernel_arithmetic_intensity (flops/byte) | kernel_arithmetic_throughput (GFlops) | kernel_memory_bound | achieved_occupancy | flop_count_sp | dram_read_bytes | dram_write_bytes |
---|
layer_index | layer_name | layer_type | layer_shape | layer_duration (us) | layer_allocated_bytes | layer_peak_allocated_bytes | layer_allocator_bytes_in_use | layer_allocator_name | layer_host_temp_mem_bytes | layer_device_temp_mem_bytes | layer_host_persistent_mem_bytes | layer_device_persistent_mem_bytes | kernel_name | kernel_duration (us) | kernel_flops | kernel_dram_read_bytes | kernel_dram_write_bytes | kernel_achieved_occupancy (%) | kernel_arithmetic_intensity (flops/byte) | kernel_arithmetic_throughput (GFlops) | kernel_memory_bound | achieved_occupancy | flop_count_sp | dram_read_bytes | dram_write_bytes |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | mobilenet3_conv0_fwd | Convolution | [1,3,224,224] | 1657 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 10.00 | 25790464 | 0.00 | 629.33 | 12.10 | 40980.63 | 2579.05 | false | 0.122730;0.120232;0.121495;0.120165;0.120187 | 25790464;25790464;25790464;25790464;25790464 | 0;0;0;0;0 | 13728;704;416;416;768 | |
1 | mobilenet3_batchnorm0_fwd | BatchNorm | [1,8,112,112] | 228 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 9.00 | 606208 | 0.00 | 85.33 | 23.80 | 7104.03 | 67.36 | false | 0.238336;0.237325;0.238057;0.237701;0.236493 | 606208;606208;606208;606208;606208 | 0;384;0;0;256 | 0;0;0;0;0 | |
2 | mobilenet3_relu0_fwd | Activation | [1,8,112,112] | 27.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.67 | 200704 | 0.00 | 0.00 | 48.10 | 0.00 | 43.00 | true | 0.496127;0.481547;0.479587;0.481190;0.480892 | 200704;200704;200704;200704;200704 | 0;0;0;0;0 | 96;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | volta_scudnn_winograd_128x128_ldg1_ldg4_relu_tile148t_nt_v1 | 12.00 | 30908416 | 0.00 | 9.33 | 15.50 | 3311734.28 | 2575.70 | false | 0.154414;0.154492;0.156083;0.154604;0.156465;0.154696;0.155116;0.154433;0.154411;0.154518;0.154992;0.154591;0.154883;0.154604;0.155262;0.155484;0.154936;0.154652;0.155703;0.156082;0.154961;0.155097;0.155258;0.155181;0.154534;0.154552;0.154818;0.155072;0.154998;0.154611;0.154861;0.154536;0.154656;0.156512;0.155565;0.154641;0.155184;0.154461;0.156153;0.155317 | 30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416;30908416 | 0;0;0;0;0;0;0;0;224;224;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 384;0;128;64;128;0;128;256;128;0;0;32;0;0;0;256;0;0;0;0;0;0;0;256;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
3 | mobilenet3_conv1_fwd | Convolution | [1,8,112,112] | 1520.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::winograd::generateWinogradTilesKernel<0, float, float>(cudnn::winograd::GenerateWinogradTilesParams<float, float>) | 4.00 | 14848 | 0.00 | 0.00 | 6.20 | 0.00 | 3.71 | true | 0.062323;0.062114;0.062262;0.062083;0.062330;0.062083;0.062313;0.062091;0.062290;0.062092;0.062299;0.062061;0.062307;0.062068;0.062257;0.062076;0.062288;0.062076;0.062296;0.062076;0.062322;0.062075;0.062305;0.062068;0.062307;0.062060;0.062324;0.062068;0.062324;0.062068;0.062307;0.062076;0.062296;0.062091;0.062313;0.062075;0.062305;0.062091;0.062304;0.062083 | 14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848;14848 | 128;864;0;0;0;0;0;0;0;128;0;128;0;128;0;128;128;0;0;0;0;0;0;0;128;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | 0;0;0;0;0;0;0;2816;192;192;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 | |
4 | mobilenet3_batchnorm1_fwd | BatchNorm | [1,8,112,112] | 185 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 9.00 | 606208 | 0.00 | 42.67 | 23.70 | 14207.89 | 67.36 | false | 0.237675;0.237645;0.238024;0.237016;0.235983 | 606208;606208;606208;606208;606208 | 0;0;0;0;0 | 0;128;0;0;128 | |
5 | mobilenet3_relu1_fwd | Activation | [1,8,112,112] | 26 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.33 | 200704 | 0.00 | 0.00 | 48.00 | 0.00 | 46.32 | true | 0.480233;0.478858;0.479355;0.481115;0.479331 | 200704;200704;200704;200704;200704 | 0;0;0;0;0 | 128;0;0;0;0 | |
6 | mobilenet3_conv2_fwd | Convolution | [1,8,112,112] | 847.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 8.00 | 6623232 | 0.00 | 629.33 | 11.90 | 10524.21 | 827.90 | false | 0.119557;0.119104;0.119455;0.119400;0.119147 | 6623232;6623232;6623232;6623232;6623232 | 1184;544;800;544;416 | 0;0;0;0;0 | |
7 | mobilenet3_batchnorm2_fwd | BatchNorm | [1,16,112,112] | 39.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 9.00 | 1212416 | 0.00 | 170.67 | 23.80 | 7103.99 | 134.71 | false | 0.238411;0.236883;0.237555;0.237607;0.237591 | 1212416;1212416;1212416;1212416;1212416 | 384;256;128;128;128 | 128;0;0;0;0 | |
8 | mobilenet3_relu2_fwd | Activation | [1,16,112,112] | 45.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 5.00 | 401408 | 0.00 | 42.67 | 52.60 | 9407.93 | 80.28 | false | 0.547561;0.526406;0.527537;0.520131;0.524683 | 401408;401408;401408;401408;401408 | 128;0;128;0;0 | 0;0;0;0;0 | |
9 | mobilenet3_conv3_fwd | Convolution | [1,16,112,112] | 863 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.33 | 942624 | 0.00 | 0.00 | 47.10 | 0.00 | 176.75 | true | 0.470933;0.470620;0.470886;0.471088;0.471224 | 942624;942624;942624;942624;942624 | 0;0;0;0;0 | 128;0;0;0;0 | |
10 | mobilenet3_batchnorm3_fwd | BatchNorm | [1,16,56,56] | 20 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 5.00 | 309248 | 0.00 | 0.00 | 22.60 | 0.00 | 61.85 | true | 0.226224;0.226387;0.226378;0.226357;0.226223 | 309248;309248;309248;309248;309248 | 0;0;0;0;0 | 0;128;0;0;0 | |
11 | mobilenet3_relu3_fwd | Activation | [1,16,56,56] | 16.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 100352 | 0.00 | 0.00 | 34.50 | 0.00 | 25.09 | true | 0.349113;0.344134;0.347626;0.343705;0.344416 | 100352;100352;100352;100352;100352 | 0;0;0;0;0 | 0;0;0;0;0 | |
12 | mobilenet3_conv4_fwd | Convolution | [1,16,56,56] | 739 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 7.67 | 3311616 | 0.00 | 288.00 | 3.90 | 11498.67 | 431.93 | false | 0.038569;0.038563;0.038563;0.038525;0.038541 | 3311616;3311616;3311616;3311616;3311616 | 0;0;0;0;0 | 288;288;416;288;288 | |
13 | mobilenet3_batchnorm4_fwd | BatchNorm | [1,32,56,56] | 29 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 5.33 | 618496 | 0.00 | 0.00 | 22.60 | 0.00 | 115.98 | true | 0.225767;0.226124;0.225798;0.225859;0.226157 | 618496;618496;618496;618496;618496 | 0;0;0;0;0 | 128;0;0;0;0 | |
14 | mobilenet3_relu4_fwd | Activation | [1,32,56,56] | 26 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 200704 | 0.00 | 0.00 | 47.90 | 0.00 | 50.18 | true | 0.477668;0.477889;0.479952;0.479385;0.478291 | 200704;200704;200704;200704;200704 | 0;0;0;0;0 | 0;0;0;0;0 | |
15 | mobilenet3_conv5_fwd | Convolution | [1,32,56,56] | 1552.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_c1_k1_nchw_hw_packed_kernel<float, float, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, int) | 9.67 | 2107392 | 0.00 | 0.00 | 12.20 | 0.00 | 218.00 | true | 0.121726;0.121702;0.121719;0.121710;0.121703 | 2107392;2107392;2107392;2107392;2107392 | 0;0;0;0;0 | 128;0;0;0;0 | |
16 | mobilenet3_batchnorm5_fwd | BatchNorm | [1,32,56,56] | 32 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 5.00 | 618496 | 0.00 | 0.00 | 22.60 | 0.00 | 123.70 | true | 0.226205;0.226245;0.226330;0.226162;0.226134 | 618496;618496;618496;618496;618496 | 0;0;0;0;0 | 0;0;0;0;0 | |
17 | mobilenet3_relu5_fwd | Activation | [1,32,56,56] | 26 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.67 | 200704 | 0.00 | 42.67 | 47.10 | 4703.96 | 43.00 | false | 0.472871;0.469668;0.469756;0.471661;0.473223 | 200704;200704;200704;200704;200704 | 0;0;0;0;0 | 128;0;0;0;256 | |
18 | mobilenet3_conv6_fwd | Convolution | [1,32,56,56] | 1417.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 8.33 | 6522880 | 0.00 | 288.00 | 3.80 | 22648.89 | 782.78 | false | 0.038414;0.038403;0.038332;0.038437;0.038413 | 6522880;6522880;6522880;6522880;6522880 | 0;0;0;0;0 | 288;288;288;288;288 | |
19 | mobilenet3_batchnorm6_fwd | BatchNorm | [1,32,56,56] | 38 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 5.33 | 618496 | 0.00 | 0.00 | 22.60 | 0.00 | 115.98 | true | 0.226057;0.226221;0.225920;0.225867;0.225037 | 618496;618496;618496;618496;618496 | 0;0;0;0;0 | 0;0;0;0;0 | |
20 | mobilenet3_relu6_fwd | Activation | [1,32,56,56] | 26.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.67 | 200704 | 0.00 | 0.00 | 47.90 | 0.00 | 43.00 | true | 0.477446;0.479266;0.480030;0.479400;0.479421 | 200704;200704;200704;200704;200704 | 0;0;0;0;0 | 0;0;0;0;0 | |
21 | mobilenet3_conv7_fwd | Convolution | [1,32,56,56] | 425.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.67 | 465984 | 0.00 | 0.00 | 46.20 | 0.00 | 82.23 | true | 0.462937;0.461596;0.461956;0.461620;0.462614 | 465984;465984;465984;465984;465984 | 0;0;0;0;0 | 128;0;0;0;0 | |
22 | mobilenet3_batchnorm7_fwd | BatchNorm | [1,32,28,28] | 13 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.67 | 158720 | 0.00 | 0.00 | 11.20 | 0.00 | 34.01 | true | 0.111928;0.111899;0.112045;0.111864;0.111767 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
23 | mobilenet3_relu7_fwd | Activation | [1,32,28,28] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 27.50 | 0.00 | 12.54 | true | 0.282814;0.273164;0.278591;0.268480;0.274128 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
24 | mobilenet3_conv8_fwd | Convolution | [1,32,28,28] | 355 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 7.67 | 3326976 | 0.00 | 288.00 | 3.10 | 11552.00 | 433.93 | false | 0.031233;0.031233;0.031233;0.031233;0.031234 | 3326976;3326976;3326976;3326976;3326976 | 0;0;0;0;0 | 288;288;416;288;288 | |
25 | mobilenet3_batchnorm8_fwd | BatchNorm | [1,64,28,28] | 17.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 5.00 | 317440 | 0.00 | 0.00 | 11.30 | 0.00 | 63.49 | true | 0.113225;0.112873;0.112961;0.113087;0.113080 | 317440;317440;317440;317440;317440 | 0;0;0;0;0 | 128;0;0;0;0 | |
26 | mobilenet3_relu8_fwd | Activation | [1,64,28,28] | 16 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 100352 | 0.00 | 0.00 | 35.10 | 0.00 | 25.09 | true | 0.350239;0.350134;0.352333;0.351828;0.351344 | 100352;100352;100352;100352;100352 | 0;0;0;0;0 | 0;0;0;0;0 | |
27 | mobilenet3_conv9_fwd | Convolution | [1,64,28,28] | 787.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_c1_k1_nchw_hw_packed_kernel<float, float, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, int) | 5.67 | 1053696 | 0.00 | 0.00 | 11.70 | 0.00 | 185.94 | true | 0.116508;0.116526;0.116709;0.116485;0.116513 | 1053696;1053696;1053696;1053696;1053696 | 0;0;0;0;0 | 0;0;0;0;0 | |
28 | mobilenet3_batchnorm9_fwd | BatchNorm | [1,64,28,28] | 18 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.33 | 317440 | 0.00 | 0.00 | 11.30 | 0.00 | 73.26 | true | 0.112565;0.112625;0.112877;0.112794;0.112876 | 317440;317440;317440;317440;317440 | 0;0;0;0;0 | 0;0;0;0;0 | |
29 | mobilenet3_relu9_fwd | Activation | [1,64,28,28] | 16 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 100352 | 0.00 | 0.00 | 34.50 | 0.00 | 25.09 | true | 0.345728;0.344675;0.342755;0.362505;0.345746 | 100352;100352;100352;100352;100352 | 0;0;0;0;0 | 128;0;0;0;0 | |
30 | mobilenet3_conv10_fwd | Convolution | [1,64,28,28] | 474 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 9.00 | 6603776 | 0.00 | 288.00 | 3.10 | 22929.78 | 733.75 | false | 0.031238;0.031238;0.031237;0.031238;0.031238 | 6603776;6603776;6603776;6603776;6603776 | 0;0;0;0;0 | 288;288;288;288;288 | |
31 | mobilenet3_batchnorm10_fwd | BatchNorm | [1,64,28,28] | 19 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.33 | 317440 | 0.00 | 0.00 | 11.30 | 0.00 | 73.26 | true | 0.112919;0.113123;0.113166;0.112872;0.113197 | 317440;317440;317440;317440;317440 | 0;0;0;0;0 | 0;0;0;0;0 | |
32 | mobilenet3_relu10_fwd | Activation | [1,64,28,28] | 17 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 100352 | 0.00 | 0.00 | 35.10 | 0.00 | 25.09 | true | 0.350798;0.350965;0.352092;0.352358;0.351330 | 100352;100352;100352;100352;100352 | 0;0;0;0;0 | 0;0;0;0;0 | |
33 | mobilenet3_conv11_fwd | Convolution | [1,64,28,28] | 234.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.00 | 227712 | 0.00 | 0.00 | 45.20 | 0.00 | 45.54 | true | 0.454575;0.452218;0.451843;0.450163;0.452213 | 227712;227712;227712;227712;227712 | 0;0;0;0;0 | 128;0;0;0;0 | |
34 | mobilenet3_batchnorm11_fwd | BatchNorm | [1,64,14,14] | 10.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.00 | 79360 | 0.00 | 0.00 | 3.00 | 0.00 | 19.84 | true | 0.030012;0.030011;0.030020;0.030019;0.030011 | 79360;79360;79360;79360;79360 | 0;0;0;0;0 | 0;0;0;0;0 | |
35 | mobilenet3_relu11_fwd | Activation | [1,64,14,14] | 9 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 25088 | 0.00 | 0.00 | 25.30 | 0.00 | 6.27 | true | 0.260191;0.250154;0.247848;0.245950;0.260265 | 25088;25088;25088;25088;25088 | 0;0;0;0;0 | 0;0;0;0;0 | |
36 | mobilenet3_conv12_fwd | Convolution | [1,64,14,14] | 234 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 9.00 | 3695104 | 0.00 | 0.00 | 3.10 | 0.00 | 410.57 | true | 0.031237;0.031237;0.031237;0.031237;0.031237 | 3695104;3695104;3695104;3695104;3695104 | 0;0;0;0;0 | 0;0;0;0;0 | |
37 | mobilenet3_batchnorm12_fwd | BatchNorm | [1,128,14,14] | 15 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.67 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 34.01 | true | 0.046845;0.046849;0.046867;0.046879;0.046848 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 128;0;0;0;0 | |
38 | mobilenet3_relu12_fwd | Activation | [1,128,14,14] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.33 | 50176 | 0.00 | 0.00 | 29.00 | 0.00 | 11.58 | true | 0.292957;0.290144;0.291260;0.287411;0.287550 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
39 | mobilenet3_conv13_fwd | Convolution | [1,128,14,14] | 442 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.00 | 434688 | 0.00 | 0.00 | 46.70 | 0.00 | 86.94 | true | 0.467018;0.467423;0.466992;0.466735;0.467497 | 434688;434688;434688;434688;434688 | 0;0;0;0;0 | 0;0;0;0;0 | |
40 | mobilenet3_batchnorm13_fwd | BatchNorm | [1,128,14,14] | 13 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.33 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 36.63 | true | 0.046669;0.046771;0.046763;0.046720;0.046710 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
41 | mobilenet3_relu13_fwd | Activation | [1,128,14,14] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 27.40 | 0.00 | 12.54 | true | 0.275076;0.277544;0.270423;0.270833;0.280975 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 128;0;0;0;0 | |
42 | mobilenet3_conv14_fwd | Convolution | [1,128,14,14] | 464.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 13.00 | 7365120 | 0.00 | 0.00 | 3.10 | 0.00 | 566.55 | true | 0.031242;0.031242;0.031242;0.031242;0.031242 | 7365120;7365120;7365120;7365120;7365120 | 0;0;0;0;0 | 0;0;0;0;0 | |
43 | mobilenet3_batchnorm14_fwd | BatchNorm | [1,128,14,14] | 14.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.33 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 36.63 | true | 0.046693;0.046805;0.046690;0.046814;0.046776 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
44 | mobilenet3_relu14_fwd | Activation | [1,128,14,14] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 29.00 | 0.00 | 12.54 | true | 0.292392;0.289056;0.288659;0.287273;0.293014 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
45 | mobilenet3_conv15_fwd | Convolution | [1,128,14,14] | 436.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.00 | 434688 | 0.00 | 0.00 | 46.70 | 0.00 | 86.94 | true | 0.466968;0.467304;0.466389;0.466719;0.466997 | 434688;434688;434688;434688;434688 | 0;0;0;0;0 | 128;0;0;0;0 | |
46 | mobilenet3_batchnorm15_fwd | BatchNorm | [1,128,14,14] | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.67 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 34.01 | true | 0.046764;0.046770;0.046821;0.046767;0.046825 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
47 | mobilenet3_relu15_fwd | Activation | [1,128,14,14] | 11 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 27.40 | 0.00 | 12.54 | true | 0.281422;0.272744;0.277385;0.270917;0.273092 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
48 | mobilenet3_conv16_fwd | Convolution | [1,128,14,14] | 467.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 12.67 | 7365120 | 0.00 | 0.00 | 3.10 | 0.00 | 581.44 | true | 0.031242;0.031242;0.031241;0.031242;0.031242 | 7365120;7365120;7365120;7365120;7365120 | 0;0;0;0;0 | 0;0;0;0;0 | |
49 | mobilenet3_batchnorm16_fwd | BatchNorm | [1,128,14,14] | 13.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.33 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 36.63 | true | 0.046916;0.046943;0.046875;0.046884;0.046907 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 128;0;0;0;0 | |
50 | mobilenet3_relu16_fwd | Activation | [1,128,14,14] | 10.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 29.00 | 0.00 | 12.54 | true | 0.292197;0.286052;0.287521;0.290738;0.292425 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
51 | mobilenet3_conv17_fwd | Convolution | [1,128,14,14] | 430.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.00 | 434688 | 0.00 | 0.00 | 46.70 | 0.00 | 86.94 | true | 0.467120;0.467275;0.466831;0.467080;0.467363 | 434688;434688;434688;434688;434688 | 0;0;0;0;0 | 0;0;0;0;0 | |
52 | mobilenet3_batchnorm17_fwd | BatchNorm | [1,128,14,14] | 13 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.33 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 36.63 | true | 0.046721;0.046753;0.046673;0.046744;0.046688 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
53 | mobilenet3_relu17_fwd | Activation | [1,128,14,14] | 11 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 27.30 | 0.00 | 12.54 | true | 0.274151;0.272731;0.271510;0.271898;0.274095 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 128;0;0;0;0 | |
54 | mobilenet3_conv18_fwd | Convolution | [1,128,14,14] | 454.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 12.67 | 7365120 | 0.00 | 0.00 | 3.10 | 0.00 | 581.44 | true | 0.031242;0.031242;0.031242;0.031242;0.031242 | 7365120;7365120;7365120;7365120;7365120 | 0;0;0;0;0 | 0;0;0;0;0 | |
55 | mobilenet3_batchnorm18_fwd | BatchNorm | [1,128,14,14] | 13.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.33 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 36.63 | true | 0.046965;0.046950;0.046954;0.046986;0.046889 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
56 | mobilenet3_relu18_fwd | Activation | [1,128,14,14] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 29.10 | 0.00 | 12.54 | true | 0.291984;0.286606;0.291678;0.290380;0.291655 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
57 | mobilenet3_conv19_fwd | Convolution | [1,128,14,14] | 439.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.00 | 434688 | 0.00 | 0.00 | 46.70 | 0.00 | 86.94 | true | 0.467253;0.467267;0.467347;0.467182;0.466823 | 434688;434688;434688;434688;434688 | 128;0;0;0;0 | 0;0;0;0;0 | |
58 | mobilenet3_batchnorm19_fwd | BatchNorm | [1,128,14,14] | 13.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 5.00 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 31.74 | true | 0.046636;0.046755;0.046716;0.046706;0.046701 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
59 | mobilenet3_relu19_fwd | Activation | [1,128,14,14] | 11 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 27.40 | 0.00 | 12.54 | true | 0.275479;0.273823;0.272687;0.271077;0.274952 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
60 | mobilenet3_conv20_fwd | Convolution | [1,128,14,14] | 454.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 13.00 | 7365120 | 0.00 | 288.00 | 3.10 | 25573.33 | 566.55 | false | 0.031242;0.031242;0.031242;0.031242;0.031241 | 7365120;7365120;7365120;7365120;7365120 | 0;0;0;0;0 | 288;288;288;288;288 | |
61 | mobilenet3_batchnorm20_fwd | BatchNorm | [1,128,14,14] | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.67 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 34.01 | true | 0.046817;0.046889;0.046800;0.046886;0.046859 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 128;0;0;0;0 | |
62 | mobilenet3_relu20_fwd | Activation | [1,128,14,14] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 29.00 | 0.00 | 12.54 | true | 0.286785;0.289717;0.290755;0.290056;0.293930 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
63 | mobilenet3_conv21_fwd | Convolution | [1,128,14,14] | 431 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.00 | 434688 | 0.00 | 0.00 | 46.70 | 0.00 | 86.94 | true | 0.467180;0.467155;0.467080;0.467251;0.467095 | 434688;434688;434688;434688;434688 | 0;0;0;0;0 | 0;0;0;0;0 | |
64 | mobilenet3_batchnorm21_fwd | BatchNorm | [1,128,14,14] | 13.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 5.00 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 31.74 | true | 0.046725;0.046748;0.046790;0.046746;0.046790 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
65 | mobilenet3_relu21_fwd | Activation | [1,128,14,14] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 27.30 | 0.00 | 12.54 | true | 0.275194;0.273400;0.271952;0.270618;0.273131 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 128;0;0;0;0 | |
66 | mobilenet3_conv22_fwd | Convolution | [1,128,14,14] | 457 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 12.67 | 7365120 | 0.00 | 0.00 | 3.10 | 0.00 | 581.44 | true | 0.031242;0.031242;0.031242;0.031241;0.031242 | 7365120;7365120;7365120;7365120;7365120 | 0;0;0;0;0 | 0;0;0;0;0 | |
67 | mobilenet3_batchnorm22_fwd | BatchNorm | [1,128,14,14] | 13.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.00 | 158720 | 0.00 | 0.00 | 4.70 | 0.00 | 39.68 | true | 0.046865;0.046940;0.046904;0.046774;0.046868 | 158720;158720;158720;158720;158720 | 0;0;0;0;0 | 0;0;0;0;0 | |
68 | mobilenet3_relu22_fwd | Activation | [1,128,14,14] | 10.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 50176 | 0.00 | 0.00 | 29.00 | 0.00 | 12.54 | true | 0.292878;0.285422;0.288465;0.290779;0.291510 | 50176;50176;50176;50176;50176 | 0;0;0;0;0 | 0;0;0;0;0 | |
69 | mobilenet3_conv23_fwd | Convolution | [1,128,14,14] | 149.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.67 | 108672 | 0.00 | 0.00 | 44.20 | 0.00 | 19.18 | true | 0.441306;0.441695;0.444281;0.438772;0.442946 | 108672;108672;108672;108672;108672 | 0;0;0;896;0 | 128;0;0;0;0 | |
70 | mobilenet3_batchnorm23_fwd | BatchNorm | [1,128,7,7] | 10.667 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.00 | 43904 | 0.00 | 64.00 | 4.80 | 686.00 | 10.98 | false | 0.047597;0.047752;0.047554;0.047813;0.047646 | 43904;43904;43904;43904;43904 | 192;0;192;0;0 | 0;0;0;0;0 | |
71 | mobilenet3_relu23_fwd | Activation | [1,128,7,7] | 6.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 12544 | 0.00 | 0.00 | 24.60 | 0.00 | 3.14 | true | 0.245862;0.248169;0.248267;0.236654;0.244900 | 12544;12544;12544;12544;12544 | 0;0;0;0;0 | 0;0;128;0;0 | |
72 | mobilenet3_conv24_fwd | Convolution | [1,128,7,7] | 241.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 12.67 | 4206848 | 0.00 | 0.00 | 3.10 | 0.00 | 332.11 | true | 0.031241;0.031242;0.031241;0.031241;0.031242 | 4206848;4206848;4206848;4206848;4206848 | 0;0;0;0;0 | 0;0;0;0;0 | |
73 | mobilenet3_batchnorm24_fwd | BatchNorm | [1,256,7,7] | 12 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.00 | 87808 | 0.00 | 0.00 | 8.60 | 0.00 | 21.95 | true | 0.086075;0.085782;0.085681;0.085645;0.085851 | 87808;87808;87808;87808;87808 | 0;0;0;0;0 | 128;0;0;0;0 | |
74 | mobilenet3_relu24_fwd | Activation | [1,256,7,7] | 8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 25088 | 0.00 | 0.00 | 25.90 | 0.00 | 6.27 | true | 0.259914;0.255809;0.263846;0.260107;0.257781 | 25088;25088;25088;25088;25088 | 0;0;0;0;0 | 0;0;0;0;0 | |
75 | mobilenet3_conv25_fwd | Convolution | [1,256,7,7] | 280 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 5.00 | 197376 | 0.00 | 0.00 | 46.10 | 0.00 | 39.48 | true | 0.461247;0.461405;0.461023;0.460981;0.461421 | 197376;197376;197376;197376;197376 | 0;0;0;0;0 | 0;0;0;0;0 | |
76 | mobilenet3_batchnorm25_fwd | BatchNorm | [1,256,7,7] | 12 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.00 | 87808 | 0.00 | 0.00 | 8.60 | 0.00 | 21.95 | true | 0.085658;0.085772;0.086033;0.085869;0.085704 | 87808;87808;87808;87808;87808 | 0;0;0;0;0 | 0;0;288;0;0 | |
77 | mobilenet3_relu25_fwd | Activation | [1,256,7,7] | 8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 25088 | 0.00 | 0.00 | 24.90 | 0.00 | 6.27 | true | 0.257571;0.248561;0.247732;0.245462;0.250059 | 25088;25088;25088;25088;25088 | 128;0;0;0;0 | 0;0;0;0;0 | |
78 | mobilenet3_conv26_fwd | Convolution | [1,256,7,7] | 472 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::implicit_convolve_sgemm<float, float, 1024, 5, 5, 3, 3, 3, 1, true, false, true>(int, int, int, float const*, int, float*, float*, kernel_conv_params, int, float, float, int, float*, float*, int, int) | 19.67 | 8401152 | 0.00 | 330.67 | 3.10 | 25406.68 | 427.17 | false | 0.031245;0.031245;0.031245;0.031245;0.031245 | 8401152;8401152;8401152;8401152;8401152 | 0;0;0;0;0 | 416;288;416;288;288 | |
79 | mobilenet3_batchnorm26_fwd | BatchNorm | [1,256,7,7] | 12.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::bn_fw_inf_1C11_kernel_NCHW<float, float, true, 1>(float, float, cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnTensorStruct, float const*, float const*, float const*, float const*, float) | 4.00 | 87808 | 0.00 | 0.00 | 8.60 | 0.00 | 21.95 | true | 0.086183;0.086150;0.086020;0.085882;0.086280 | 87808;87808;87808;87808;87808 | 0;0;0;0;0 | 0;0;0;0;0 | |
80 | mobilenet3_relu26_fwd | Activation | [1,256,7,7] | 8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void op_generic_tensor_kernel<2, float, float, float, 256, (cudnnGenericOp_t)8, (cudnnNanPropagation_t)0, (cudnnDimOrder_t)0, 1>(cudnnTensorStruct, float*, cudnnTensorStruct, float const*, cudnnTensorStruct, float const*, float, float, float, float, dimArray, reducedDivisorArray, bool) | 4.00 | 25088 | 0.00 | 0.00 | 26.10 | 0.00 | 6.27 | true | 0.256222;0.256851;0.264511;0.267101;0.261683 | 25088;25088;25088;25088;25088 | 0;0;0;0;0 | 0;0;0;0;0 | |
81 | mobilenet3_pool0_fwd | Pooling | [1,256,7,7] | 24.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void cudnn::detail::pooling_fw_4d_kernel<float, float, cudnn::detail::averpooling_func<float>, 1, false>(cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnPoolingStruct, float, float, int, cudnn::reduced_divisor, cudnn::reduced_divisor) | 7.67 | 16436 | 0.00 | 0.00 | 10.60 | 0.00 | 2.14 | true | 0.105759;0.105898;0.105895;0.105885;0.105804 | 16436;16436;16436;16436;16436 | 128;0;0;0;0 | 256;0;0;0;0 | |
83 | mobilenet3_dense0_fwd | FullyConnected | [1,256] | 251.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void gemv2T_kernel_val<int, int, float, float, float, 128, 16, 4, 4, false, cublasGemvParams<cublasGemvTensorStridedBatched<float const>, cublasGemvTensorStridedBatched<float>, float> >(cublasGemvParams<cublasGemvTensorStridedBatched<float const>, cublasGemvTensorStridedBatched<float>, float>, float, float) | 5.00 | 575000 | 0.00 | 0.00 | 9.70 | 0.00 | 115.00 | true | 0.096778;0.096778;0.096741;0.096758;0.096857 | 575000;575000;575000;575000;575000 | 0;0;0;0;0 | 0;0;0;0;0 | |
83 | mobilenet3_dense0_fwd | FullyConnected | [1,256] | 251.333 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | void mshadow::cuda::MapPlanKernel<mshadow::sv::plusto, 8, mshadow::expr::Plan<mshadow::Tensor<mshadow::gpu, 2, float>, float>, mshadow::expr::Plan<mshadow::expr::Broadcast1DExp<mshadow::Tensor<mshadow::gpu, 1, float>, float, 2, 1>, float> >(mshadow::expr::Plan<mshadow::Tensor<mshadow::gpu, 2, float>, float>, int, mshadow::Shape<2>, mshadow::expr::Plan<mshadow::expr::Broadcast1DExp<mshadow::Tensor<mshadow::gpu, 1, float>, float, 2, 1>, float>) | 4.00 | 1000 | 0.00 | 0.00 | 12.30 | 0.00 | 0.25 | true | 0.122849;0.122823;0.122853;0.122844;0.122891 | 1000;1000;1000;1000;1000 | 0;0;0;0;0 | 0;0;0;0;0 |
Showing 1 to 99 of 99 entries