GPU Kernel Information
layer_index | layer_name | layer_type | layer_shape | layer_duration (us) | layer_allocated_bytes | layer_peak_allocated_bytes | layer_allocator_bytes_in_use | layer_allocator_name | layer_host_temp_mem_bytes | layer_device_temp_mem_bytes | layer_host_persistent_mem_bytes | layer_device_persistent_mem_bytes | kernel_name | kernel_duration (us) | kernel_flops | kernel_dram_read_bytes | kernel_dram_write_bytes | kernel_achieved_occupancy (%) | kernel_arithmetic_intensity (flops/byte) | kernel_arithmetic_throughput (GFlops) | kernel_memory_bound | achieved_occupancy | flop_count_sp | dram_write_bytes | dram_read_bytes |
---|
layer_index | layer_name | layer_type | layer_shape | layer_duration (us) | layer_allocated_bytes | layer_peak_allocated_bytes | layer_allocator_bytes_in_use | layer_allocator_name | layer_host_temp_mem_bytes | layer_device_temp_mem_bytes | layer_host_persistent_mem_bytes | layer_device_persistent_mem_bytes | kernel_name | kernel_duration (us) | kernel_flops | kernel_dram_read_bytes | kernel_dram_write_bytes | kernel_achieved_occupancy (%) | kernel_arithmetic_intensity (flops/byte) | kernel_arithmetic_throughput (GFlops) | kernel_memory_bound | achieved_occupancy | flop_count_sp | dram_write_bytes | dram_read_bytes |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | MobilenetV1/MobilenetV1/Conv2d_0/Conv2D-0-TransposeNHWCToNCHW-LayoutOptimizer | Transpose | [[64 3 160 160]] | 143 | 19660800 | 19660800 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void tensorflow::functor::SwapDimension1And2InTensor3UsingTiles<unsigned int, 1024, 1024, 2, false>(unsigned int const*, tensorflow::functor::Dimension<3>, unsigned int*) | 75.33 | 0 | 19662922.67 | 22369418.67 | 92.80 | 0.00 | 0.00 | true | 0.929980;0.928494;0.927828;0.927465;0.928560 | 0;0;0;0;0 | 22408352;22368128;22360992;22367712;22372416 | 19668064;19662656;19662912;19662912;19662944 |
2 | MobilenetV1/MobilenetV1/Conv2d_0/Conv2D | Conv2D | [[64 24 80 80]] | 388.333 | 39321600 | 59270400 | 69331712 | GPU_0_bfc | 19948800 | 0 | 0 | 0 | volta_scudnn_128x32_relu_interior_nn_v1 | 109.00 | 760217600 | 20014357.33 | 38579701.33 | 24.00 | 12.97 | 6974.47 | true | 0.240976;0.239782;0.239833;0.240671;0.239832 | 760217600;760217600;760217600;760217600;760217600 | 20013248;20013440;20019648;20015040;20014592 | 38609536;38576192;38604512;38558400;38557536 |
2 | MobilenetV1/MobilenetV1/Conv2d_0/Conv2D | Conv2D | [[64 24 80 80]] | 388.333 | 39321600 | 59270400 | 69331712 | GPU_0_bfc | 19948800 | 0 | 0 | 0 | void tensorflow::functor::PadInputCustomKernelNCHW<float, 4>(int, float const*, tensorflow::functor::Dimension<4>, float*, tensorflow::functor::Dimension<4>, tensorflow::functor::Dimension<(4)-(2)>) | 89.33 | 0 | 19680074.67 | 20032160.00 | 47.10 | 0.00 | 0.00 | true | 0.470830;0.471118;0.470695;0.470079;0.470668 | 0;0;0;0;0 | 19685088;19682656;19676960;19680416;19677152 | 20029856;20030368;20013088;20036256;20050336 |
2 | MobilenetV1/MobilenetV1/Conv2d_0/Conv2D | Conv2D | [[64 24 80 80]] | 388.333 | 39321600 | 59270400 | 69331712 | GPU_0_bfc | 19948800 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.00 | 0 | 2901.33 | 5504.00 | 36.20 | 0.00 | 0.00 | true | 0.372430;0.362876;0.359504;0.362760;0.359456 | 0;0;0;0;0 | 2816;3072;2816;4864;2816 | 4352;3968;11776;8192;3584 |
2 | MobilenetV1/MobilenetV1/Conv2d_0/Conv2D | Conv2D | [[64 24 80 80]] | 388.333 | 39321600 | 59270400 | 69331712 | GPU_0_bfc | 19948800 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.00 | 0 | 1034.67 | 28320.00 | 6.10 | 0.00 | 0.00 | true | 0.061091;0.061069;0.060928;0.060747;0.060817 | 0;0;0;0;0 | 352;1120;1120;1120;864 | 27040;29344;26784;28832;29088 |
3 | MobilenetV1/MobilenetV1/Conv2d_0/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 24 80 80]] | 134.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 102.33 | 9830400 | 39322752.00 | 39806453.33 | 48.90 | 0.12 | 96.06 | true | 0.488986;0.488954;0.489448;0.488781;0.489314 | 9830400;9830400;9830400;9830400;9830400 | 39322752;39322752;39322752;39322752;39322752 | 39786528;39821728;39779232;39811104;39829408 |
4 | MobilenetV1/MobilenetV1/Conv2d_0/BatchNorm/FusedBatchNorm | Add | [[64 24 80 80]] | 124 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 101.67 | 9830400 | 39322325.33 | 39321845.33 | 48.90 | 0.12 | 96.69 | true | 0.489055;0.489625;0.488879;0.488898;0.489211 | 9830400;9830400;9830400;9830400;9830400 | 39323008;39322496;39322240;39322240;39322240 | 39315872;39313056;39327776;39331872;39321888 |
5 | MobilenetV1/MobilenetV1/Conv2d_0/Relu6 | Relu6 | [[64 24 80 80]] | 121.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 100.00 | 0 | 39321888.00 | 39240362.67 | 96.10 | 0.00 | 0.00 | true | 0.960808;0.961189;0.960505;0.960330;0.959764 | 0;0;0;0;0 | 39261312;39256704;39215104;39231872;39232512 | 39321888;39321888;39321888;39321888;39321888 |
6 | MobilenetV1/MobilenetV1/Conv2d_1_depthwise/depthwise | DepthwiseConv2dNative | [[64 24 80 80]] | 245 | 39321600 | 39322624 | 88992512 | GPU_0_bfc | 1024 | 0 | 0 | 0 | void conv2d_c1_k1_nchw_hw_packed_kernel<float, float, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, int) | 159.67 | 206438400 | 39400842.67 | 39682805.33 | 46.70 | 2.61 | 1292.93 | true | 0.466768;0.467759;0.467158;0.467916;0.467162 | 206438400;206438400;206438400;206438400;206438400 | 39413280;39401376;39387872;39384544;39445024 | 39666624;39677088;39686400;39692192;39684928 |
6 | MobilenetV1/MobilenetV1/Conv2d_1_depthwise/depthwise | DepthwiseConv2dNative | [[64 24 80 80]] | 245 | 39321600 | 39322624 | 88992512 | GPU_0_bfc | 1024 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.00 | 0 | 1088.00 | 2560.00 | 27.80 | 0.00 | 0.00 | true | 0.279092;0.262461;0.277127;0.277033;0.281089 | 0;0;0;0;0 | 2432;2944;2688;2432;2560 | 1088;1088;1088;1088;1088 |
7 | MobilenetV1/MobilenetV1/Conv2d_1_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 24 80 80]] | 125.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 101.00 | 9830400 | 39002069.33 | 38887605.33 | 48.90 | 0.13 | 97.33 | true | 0.488965;0.489101;0.488551;0.489717;0.489196 | 9830400;9830400;9830400;9830400;9830400 | 39014016;38983168;39015168;39006208;38985984 | 38872992;38873696;38915296;38881824;38907296 |
8 | MobilenetV1/MobilenetV1/Conv2d_1_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 24 80 80]] | 121 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 102.00 | 9830400 | 39321984.00 | 39324021.33 | 48.90 | 0.12 | 96.38 | true | 0.489674;0.489303;0.489430;0.489819;0.488711 | 9830400;9830400;9830400;9830400;9830400 | 39333408;39319456;39320352;39330592;39321120 | 39321984;39321984;39321984;39321984;39321984 |
9 | MobilenetV1/MobilenetV1/Conv2d_1_depthwise/Relu6 | Relu6 | [[64 24 80 80]] | 118.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 100.00 | 0 | 39321888.00 | 39258410.67 | 96.00 | 0.00 | 0.00 | true | 0.959883;0.959485;0.960993;0.957943;0.960192 | 0;0;0;0;0 | 39321888;39321888;39321888;39321888;39321888 | 39247232;39267968;39249792;39275488;39257472 |
10 | MobilenetV1/MobilenetV1/Conv2d_1_pointwise/Conv2D | Conv2D | [[64 48 80 80]] | 290.667 | 78643200 | 78686464 | 128314112 | GPU_0_bfc | 43264 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 187.33 | 1310720000 | 39414357.33 | 78670869.33 | 24.00 | 11.10 | 6996.74 | true | 0.239734;0.240307;0.239748;0.239894;0.239818 | 1310720000;1310720000;1310720000;1310720000;1310720000 | 78625792;78678272;78686848;78648512;78685824 | 39436160;39414272;39411200;39417600;39408768 |
10 | MobilenetV1/MobilenetV1/Conv2d_1_pointwise/Conv2D | Conv2D | [[64 48 80 80]] | 290.667 | 78643200 | 78686464 | 128314112 | GPU_0_bfc | 43264 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.67 | 0 | 5056.00 | 13258.67 | 37.00 | 0.00 | 0.00 | true | 0.359451;0.368570;0.370896;0.370917;0.371999 | 0;0;0;0;0 | 5056;5056;5056;5056;4800 | 12032;8832;16000;15872;11872 |
10 | MobilenetV1/MobilenetV1/Conv2d_1_pointwise/Conv2D | Conv2D | [[64 48 80 80]] | 290.667 | 78643200 | 78686464 | 128314112 | GPU_0_bfc | 43264 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.00 | 0 | 96.00 | 53674.67 | 6.10 | 0.00 | 0.00 | true | 0.061055;0.060802;0.060788;0.060824;0.060849 | 0;0;0;0;0 | 96;96;96;96;96 | 52864;53888;53632;54272;53504 |
11 | MobilenetV1/MobilenetV1/Conv2d_1_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 48 80 80]] | 222.667 | 78643200 | 0 | 88992512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 199.33 | 19660800 | 78643989.33 | 78664906.67 | 49.40 | 0.12 | 98.63 | true | 0.494230;0.494619;0.495002;0.494362;0.494441 | 19660800;19660800;19660800;19660800;19660800 | 78720640;78660640;78661664;78672416;78654496 | 78643968;78643968;78643904;78644096;78644032 |
12 | MobilenetV1/MobilenetV1/Conv2d_1_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 48 80 80]] | 218.333 | 78643200 | 0 | 88992512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 198.67 | 19660800 | 78643904.00 | 78644618.67 | 49.50 | 0.12 | 98.96 | true | 0.494714;0.494716;0.494549;0.494674;0.494880 | 19660800;19660800;19660800;19660800;19660800 | 78643840;78643776;78645952;78643712;78644096 | 78639360;78621088;78651552;78645280;78649216 |
13 | MobilenetV1/MobilenetV1/Conv2d_1_pointwise/Relu6 | Relu6 | [[64 48 80 80]] | 214.667 | 78643200 | 0 | 88992512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 197.00 | 0 | 78643488.00 | 78602826.67 | 97.10 | 0.00 | 0.00 | true | 0.970919;0.970598;0.970224;0.971388;0.971749 | 0;0;0;0;0 | 78643488;78643488;78643488;78643744;78643488 | 78603616;78608256;78599136;78599552;78605312 |
14 | MobilenetV1/MobilenetV1/Conv2d_2_depthwise/depthwise | DepthwiseConv2dNative | [[64 48 40 40]] | 562.333 | 19660800 | 100284160 | 108653312 | GPU_0_bfc | 80623360 | 0 | 0 | 0 | void tensorflow::functor::PadInputCustomKernelNCHW<float, 4>(int, float const*, tensorflow::functor::Dimension<4>, float*, tensorflow::functor::Dimension<4>, tensorflow::functor::Dimension<(4)-(2)>) | 332.33 | 0 | 81559605.33 | 80993717.33 | 47.70 | 0.00 | 0.00 | true | 0.477394;0.477104;0.476107;0.477295;0.476932 | 0;0;0;0;0 | 81421920;82089504;81316512;81723616;81533280 | 80996640;81016576;80990592;80993920;80982144 |
14 | MobilenetV1/MobilenetV1/Conv2d_2_depthwise/depthwise | DepthwiseConv2dNative | [[64 48 40 40]] | 562.333 | 19660800 | 100284160 | 108653312 | GPU_0_bfc | 80623360 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 139.00 | 93388800 | 80623456.00 | 20936320.00 | 86.00 | 0.92 | 671.86 | true | 0.857634;0.860121;0.861712;0.858984;0.863316 | 93388800;93388800;93388800;93388800;93388800 | 80623456;80623456;80623456;80623456;80623456 | 20934464;20965984;20923296;20868032;20951200 |
14 | MobilenetV1/MobilenetV1/Conv2d_2_depthwise/depthwise | DepthwiseConv2dNative | [[64 48 40 40]] | 562.333 | 19660800 | 100284160 | 108653312 | GPU_0_bfc | 80623360 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.00 | 0 | 1920.00 | 2261.33 | 31.90 | 0.00 | 0.00 | true | 0.323039;0.304763;0.319888;0.321531;0.317026 | 0;0;0;0;0 | 1920;2304;2048;5248;2432 | 1920;1920;1920;1920;1920 |
15 | MobilenetV1/MobilenetV1/Conv2d_2_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 48 40 40]] | 76.667 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 51.33 | 4915200 | 19661269.33 | 18021045.33 | 48.00 | 0.13 | 95.75 | true | 0.479257;0.480603;0.480004;0.479768;0.478526 | 4915200;4915200;4915200;4915200;4915200 | 19661312;19663040;19661248;19661248;19661248 | 18016096;17973696;18035808;18075744;18011232 |
16 | MobilenetV1/MobilenetV1/Conv2d_2_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 48 40 40]] | 72.667 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 53.33 | 4915200 | 19661248.00 | 19670176.00 | 48.10 | 0.12 | 92.16 | true | 0.481517;0.480430;0.482375;0.479317;0.480298 | 4915200;4915200;4915200;4915200;4915200 | 19661248;19661248;19661248;19667392;19661248 | 19677856;19663648;19653024;19678752;19669024 |
17 | MobilenetV1/MobilenetV1/Conv2d_2_depthwise/Relu6 | Relu6 | [[64 48 40 40]] | 69.333 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 52.00 | 0 | 19655456.00 | 19567445.33 | 93.10 | 0.00 | 0.00 | true | 0.931262;0.928358;0.933351;0.932085;0.916663 | 0;0;0;0;0 | 19651488;19654944;19651360;19660064;19659936 | 19608320;19539072;19554944;19616224;19531648 |
18 | MobilenetV1/MobilenetV1/Conv2d_2_pointwise/Conv2D | Conv2D | [[64 96 40 40]] | 245 | 39321600 | 39349760 | 69331712 | GPU_0_bfc | 28160 | 0 | 0 | 0 | volta_scudnn_128x32_relu_interior_nn_v1 | 144.67 | 963379200 | 58657322.67 | 39283605.33 | 23.60 | 9.84 | 6659.29 | true | 0.234599;0.236122;0.233775;0.236145;0.237450 | 963379200;963379200;963379200;963379200;963379200 | 58643200;58657536;58589312;58722048;58671232 | 39245248;39289120;39316448;39233248;39331776 |
18 | MobilenetV1/MobilenetV1/Conv2d_2_pointwise/Conv2D | Conv2D | [[64 96 40 40]] | 245 | 39321600 | 39349760 | 69331712 | GPU_0_bfc | 28160 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 5.00 | 0 | 19818.67 | 34773.33 | 40.20 | 0.00 | 0.00 | true | 0.403739;0.401097;0.402893;0.401429;0.401893 | 0;0;0;0;0 | 19904;19648;19904;19648;19904 | 33408;34688;36224;29056;38400 |
18 | MobilenetV1/MobilenetV1/Conv2d_2_pointwise/Conv2D | Conv2D | [[64 96 40 40]] | 245 | 39321600 | 39349760 | 69331712 | GPU_0_bfc | 28160 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.00 | 0 | 266.67 | 11008.00 | 6.10 | 0.00 | 0.00 | true | 0.061223;0.061231;0.061220;0.061234;0.061273 | 0;0;0;0;0 | 352;352;96;96;352 | 10496;11520;10880;10624;11520 |
19 | MobilenetV1/MobilenetV1/Conv2d_2_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 96 40 40]] | 130 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 102.00 | 9830400 | 39322240.00 | 39431445.33 | 49.10 | 0.12 | 96.38 | true | 0.491398;0.491054;0.490830;0.490723;0.490915 | 9830400;9830400;9830400;9830400;9830400 | 39322240;39322240;39322240;39322240;39323264 | 39438848;39454368;39426848;39428640;39417888 |
20 | MobilenetV1/MobilenetV1/Conv2d_2_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 96 40 40]] | 122.333 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 102.00 | 9830400 | 39322453.33 | 39321578.67 | 49.10 | 0.12 | 96.38 | true | 0.491255;0.490632;0.490873;0.490304;0.491244 | 9830400;9830400;9830400;9830400;9830400 | 39322496;39322240;39322624;39322240;39322624 | 39323040;39323296;39318400;39345536;39317024 |
21 | MobilenetV1/MobilenetV1/Conv2d_2_pointwise/Relu6 | Relu6 | [[64 96 40 40]] | 116.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 100.00 | 0 | 39321888.00 | 39252789.33 | 96.10 | 0.00 | 0.00 | true | 0.962001;0.960481;0.961898;0.962796;0.960368 | 0;0;0;0;0 | 39321888;39321888;39321888;39321888;39323680 | 39262016;39259648;39236704;39219680;39267680 |
22 | MobilenetV1/MobilenetV1/Conv2d_3_depthwise/depthwise | DepthwiseConv2dNative | [[64 96 40 40]] | 216.667 | 39321600 | 39325184 | 88992512 | GPU_0_bfc | 3584 | 0 | 0 | 0 | void conv2d_c1_k1_nchw_hw_packed_kernel<float, float, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, int) | 139.67 | 206438400 | 38864757.33 | 39368565.33 | 92.90 | 2.64 | 1478.08 | true | 0.929188;0.929528;0.928602;0.928779;0.928290 | 206438400;206438400;206438400;206438400;206438400 | 39358720;39361888;39385088;39395936;39355936 | 38900768;38864672;38857888;38860832;38868768 |
22 | MobilenetV1/MobilenetV1/Conv2d_3_depthwise/depthwise | DepthwiseConv2dNative | [[64 96 40 40]] | 216.667 | 39321600 | 39325184 | 88992512 | GPU_0_bfc | 3584 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.67 | 0 | 3648.00 | 7466.67 | 40.90 | 0.00 | 0.00 | true | 0.410528;0.408118;0.416943;0.407422;0.407301 | 0;0;0;0;0 | 3648;3648;3648;3648;3648 | 6656;8448;7808;7936;5760 |
23 | MobilenetV1/MobilenetV1/Conv2d_3_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 96 40 40]] | 126.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 101.33 | 9830400 | 38943957.33 | 39172981.33 | 49.00 | 0.13 | 97.01 | true | 0.490057;0.490154;0.490126;0.490422;0.490319 | 9830400;9830400;9830400;9830400;9830400 | 39163680;39206656;39175840;39161856;39179424 | 38939136;38934400;38956544;38943488;38949248 |
24 | MobilenetV1/MobilenetV1/Conv2d_3_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 96 40 40]] | 122.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 101.67 | 9830400 | 39322240.00 | 39316640.00 | 49.00 | 0.13 | 96.69 | true | 0.490605;0.490160;0.489886;0.488801;0.489870 | 9830400;9830400;9830400;9830400;9830400 | 39322496;39322240;39322240;39322240;39322240 | 39305632;39319072;39313440;39323936;39317408 |
25 | MobilenetV1/MobilenetV1/Conv2d_3_depthwise/Relu6 | Relu6 | [[64 96 40 40]] | 117.667 | 39321600 | 0 | 49670912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 99.67 | 0 | 39321888.00 | 39251424.00 | 95.90 | 0.00 | 0.00 | true | 0.962138;0.958676;0.958833;0.959538;0.958732 | 0;0;0;0;0 | 39321888;39321888;39321888;39321888;39321888 | 39274208;39233376;39258464;39236320;39259488 |
26 | MobilenetV1/MobilenetV1/Conv2d_3_pointwise/Conv2D | Conv2D | [[64 96 40 40]] | 324 | 58982400 | 59028992 | 108653312 | GPU_0_bfc | 46592 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 225.33 | 2542796800 | 78669120.00 | 39451701.33 | 23.70 | 21.53 | 11284.62 | false | 0.236697;0.237037;0.236919;0.237038;0.237141 | 2542796800;2542796800;2542796800;2542796800;2542796800 | 78666496;78668416;78670464;78668480;78671744 | 39421408;39460960;39443328;39458496;39453280 |
26 | MobilenetV1/MobilenetV1/Conv2d_3_pointwise/Conv2D | Conv2D | [[64 96 40 40]] | 324 | 58982400 | 59028992 | 108653312 | GPU_0_bfc | 46592 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 5.00 | 0 | 38165.33 | 68949.33 | 42.30 | 0.00 | 0.00 | true | 0.423042;0.424424;0.422127;0.423442;0.421500 | 0;0;0;0;0 | 43456;38080;38080;38336;38080 | 77312;68096;65152;68352;70400 |
26 | MobilenetV1/MobilenetV1/Conv2d_3_pointwise/Conv2D | Conv2D | [[64 96 40 40]] | 324 | 58982400 | 59028992 | 108653312 | GPU_0_bfc | 46592 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 4.00 | 0 | 96.00 | 13056.00 | 6.10 | 0.00 | 0.00 | true | 0.061206;0.061201;0.061208;0.061196;0.061217 | 0;0;0;0;0 | 96;96;96;96;96 | 13824;12416;12928;13312;12928 |
27 | MobilenetV1/MobilenetV1/Conv2d_3_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 96 40 40]] | 127.667 | 58982400 | 0 | 69331712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 102.00 | 9830400 | 39322325.33 | 39216160.00 | 49.00 | 0.13 | 96.38 | true | 0.490173;0.490186;0.489699;0.490232;0.490467 | 9830400;9830400;9830400;9830400;9830400 | 39324288;39322240;39322240;39322496;39322240 | 39215520;39219872;39224352;39213088;39207712 |
28 | MobilenetV1/MobilenetV1/Conv2d_3_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 96 40 40]] | 122.667 | 58982400 | 0 | 69331712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 103.00 | 9830400 | 39322368.00 | 39309514.67 | 49.00 | 0.13 | 95.44 | true | 0.490319;0.490397;0.490115;0.490738;0.490237 | 9830400;9830400;9830400;9830400;9830400 | 39322496;39322496;39322240;39322368;39322240 | 39309984;39306656;39308832;39309728;39315360 |
29 | MobilenetV1/MobilenetV1/Conv2d_3_pointwise/Relu6 | Relu6 | [[64 96 40 40]] | 122 | 58982400 | 0 | 69331712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 99.33 | 0 | 39321888.00 | 39261002.67 | 96.10 | 0.00 | 0.00 | true | 0.961333;0.960543;0.960668;0.960591;0.960161 | 0;0;0;0;0 | 39321888;39321888;39321888;39321888;39321888 | 39276160;39265280;39258848;39251840;39258880 |
30 | MobilenetV1/MobilenetV1/Conv2d_4_depthwise/depthwise | DepthwiseConv2dNative | [[64 96 20 20]] | 356 | 9830400 | 51146240 | 79162112 | GPU_0_bfc | 41315840 | 0 | 0 | 0 | void tensorflow::functor::PadInputCustomKernelNCHW<float, 4>(int, float const*, tensorflow::functor::Dimension<4>, float*, tensorflow::functor::Dimension<4>, tensorflow::functor::Dimension<(4)-(2)>) | 175.67 | 0 | 39686389.33 | 41692394.67 | 47.50 | 0.00 | 0.00 | true | 0.475305;0.475351;0.475711;0.475484;0.475094 | 0;0;0;0;0 | 41687072;41695104;41692960;41697440;41689120 | 39654560;39716768;39618272;39710432;39694176 |
30 | MobilenetV1/MobilenetV1/Conv2d_4_depthwise/depthwise | DepthwiseConv2dNative | [[64 96 20 20]] | 356 | 9830400 | 51146240 | 79162112 | GPU_0_bfc | 41315840 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 74.33 | 46694400 | 41312629.33 | 11183178.67 | 82.70 | 0.89 | 628.18 | true | 0.828021;0.831577;0.824469;0.823939;0.829146 | 46694400;46694400;46694400;46694400;46694400 | 41312672;41312608;41312608;41319264;41312608 | 11174848;11204256;11172768;11174080;11200608 |
30 | MobilenetV1/MobilenetV1/Conv2d_4_depthwise/depthwise | DepthwiseConv2dNative | [[64 96 20 20]] | 356 | 9830400 | 51146240 | 79162112 | GPU_0_bfc | 41315840 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.67 | 0 | 3648.00 | 4053.33 | 40.90 | 0.00 | 0.00 | true | 0.410417;0.405458;0.408223;0.409349;0.416237 | 0;0;0;0;0 | 3648;4672;3648;3648;3648 | 4224;5248;3968;3968;3200 |
31 | MobilenetV1/MobilenetV1/Conv2d_4_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 96 20 20]] | 50.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 26.67 | 2457600 | 9731456.00 | 8129568.00 | 45.70 | 0.14 | 92.16 | true | 0.455532;0.456944;0.455469;0.458970;0.458528 | 2457600;2457600;2457600;2457600;2457600 | 9741568;9710720;9706624;9742080;9770496 | 8134048;8093728;8137312;8136992;8117664 |
32 | MobilenetV1/MobilenetV1/Conv2d_4_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 96 20 20]] | 47.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.67 | 2457600 | 9830890.67 | 9822581.33 | 46.00 | 0.13 | 85.73 | true | 0.458245;0.456770;0.460282;0.461540;0.461686 | 2457600;2457600;2457600;2457600;2457600 | 9830976;9830976;9830720;9830976;9830592 | 9816992;9822368;9840416;9821344;9824032 |
33 | MobilenetV1/MobilenetV1/Conv2d_4_depthwise/Relu6 | Relu6 | [[64 96 20 20]] | 43 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.67 | 0 | 8141472.00 | 9574186.67 | 87.30 | 0.00 | 0.00 | true | 0.878361;0.880941;0.871981;0.868611;0.867687 | 0;0;0;0;0 | 9565600;9574400;9588800;9526144;9582560 | 8174880;8099104;8150432;7954464;8181664 |
34 | MobilenetV1/MobilenetV1/Conv2d_4_pointwise/Conv2D | Conv2D | [[64 192 20 20]] | 210 | 19660800 | 19737088 | 39840512 | GPU_0_bfc | 76288 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 95.00 | 953548800 | 25711146.67 | 19933184.00 | 22.10 | 20.89 | 10037.36 | false | 0.221067;0.219001;0.220540;0.221686;0.220775 | 953548800;953548800;953548800;953548800;953548800 | 19941120;19926624;19979968;19931808;19926432 | 26186944;25613952;25524544;25994944;24870080 |
34 | MobilenetV1/MobilenetV1/Conv2d_4_pointwise/Conv2D | Conv2D | [[64 192 20 20]] | 210 | 19660800 | 19737088 | 39840512 | GPU_0_bfc | 76288 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 5.33 | 0 | 73920.00 | 179306.67 | 42.80 | 0.00 | 0.00 | true | 0.431573;0.428604;0.425639;0.426616;0.430017 | 0;0;0;0;0 | 73920;76224;73920;73920;73920 | 187136;181312;180096;176512;172928 |
34 | MobilenetV1/MobilenetV1/Conv2d_4_pointwise/Conv2D | Conv2D | [[64 192 20 20]] | 210 | 19660800 | 19737088 | 39840512 | GPU_0_bfc | 76288 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.00 | 0 | 778.67 | 6666.67 | 5.70 | 0.00 | 0.00 | true | 0.057178;0.057182;0.057792;0.057192;0.057205 | 0;0;0;0;0 | 96;96;2144;96;2656 | 7200;4512;7008;5792;8224 |
35 | MobilenetV1/MobilenetV1/Conv2d_4_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 192 20 20]] | 78 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 53.33 | 4915200 | 19508949.33 | 19402560.00 | 48.30 | 0.13 | 92.16 | true | 0.481816;0.482306;0.483694;0.482515;0.482749 | 4915200;4915200;4915200;4915200;4915200 | 19537920;19450688;19462656;19526272;19626368 | 19406496;19400544;19377056;19410272;19400640 |
36 | MobilenetV1/MobilenetV1/Conv2d_4_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 192 20 20]] | 74.667 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 53.33 | 4915200 | 19661824.00 | 19664672.00 | 48.30 | 0.12 | 92.16 | true | 0.483333;0.481691;0.481808;0.483678;0.483461 | 4915200;4915200;4915200;4915200;4915200 | 19661344;19667104;19665568;19650592;19669152 | 19661824;19661824;19661824;19661824;19661824 |
37 | MobilenetV1/MobilenetV1/Conv2d_4_pointwise/Relu6 | Relu6 | [[64 192 20 20]] | 72.333 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 52.00 | 0 | 19656266.67 | 19593130.67 | 92.30 | 0.00 | 0.00 | true | 0.918138;0.933635;0.911312;0.925312;0.925465 | 0;0;0;0;0 | 19589376;19603840;19594880;19575168;19595136 | 19656608;19649056;19660192;19652384;19659808 |
38 | MobilenetV1/MobilenetV1/Conv2d_5_depthwise/depthwise | DepthwiseConv2dNative | [[64 192 20 20]] | 181.333 | 19660800 | 19667712 | 49670912 | GPU_0_bfc | 6912 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 96.00 | 87588864 | 19661152.00 | 19876469.33 | 87.70 | 2.22 | 912.38 | true | 0.876492;0.876140;0.877085;0.876962;0.876772 | 87588864;87588864;87588864;87588864;87588864 | 19661152;19661152;19661152;19661152;19661152 | 19885632;19884096;19859680;19905504;19835488 |
38 | MobilenetV1/MobilenetV1/Conv2d_5_depthwise/depthwise | DepthwiseConv2dNative | [[64 192 20 20]] | 181.333 | 19660800 | 19667712 | 49670912 | GPU_0_bfc | 6912 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.33 | 0 | 7104.00 | 22400.00 | 41.90 | 0.00 | 0.00 | true | 0.421136;0.419898;0.414106;0.415179;0.420652 | 0;0;0;0;0 | 7104;7104;7104;7104;7104 | 15488;16128;29312;21760;30848 |
39 | MobilenetV1/MobilenetV1/Conv2d_5_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 192 20 20]] | 78.667 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 53.67 | 4915200 | 19661824.00 | 19493226.67 | 48.30 | 0.13 | 91.59 | true | 0.483043;0.483098;0.484991;0.483162;0.482968 | 4915200;4915200;4915200;4915200;4915200 | 19661824;19661824;19661824;19661824;19661824 | 19490848;19484320;19504512;19480480;19530912 |
40 | MobilenetV1/MobilenetV1/Conv2d_5_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 192 20 20]] | 77.667 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 53.67 | 4915200 | 19661824.00 | 19659509.33 | 48.40 | 0.13 | 91.59 | true | 0.481839;0.483731;0.483343;0.484869;0.484223 | 4915200;4915200;4915200;4915200;4915200 | 19653408;19668640;19648928;19680640;19656480 | 19661824;19661824;19661824;19661824;19661824 |
41 | MobilenetV1/MobilenetV1/Conv2d_5_depthwise/Relu6 | Relu6 | [[64 192 20 20]] | 72 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 52.00 | 0 | 19660490.67 | 19574762.67 | 92.90 | 0.00 | 0.00 | true | 0.936932;0.935569;0.914459;0.930922;0.919766 | 0;0;0;0;0 | 19589376;19565920;19599840;19539296;19568992 | 19660576;19660832;19661088;19658016;19660064 |
42 | MobilenetV1/MobilenetV1/Conv2d_5_pointwise/Conv2D | Conv2D | [[64 192 20 20]] | 281 | 19660800 | 19810816 | 49670912 | GPU_0_bfc | 150016 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 176.33 | 1897267200 | 56179904.00 | 19822314.67 | 22.20 | 24.96 | 10759.57 | false | 0.223397;0.222632;0.222147;0.222418;0.220931 | 1897267200;1897267200;1897267200;1897267200;1897267200 | 19829280;19811072;19819136;19827744;19820064 | 56002368;56130944;55762112;56636032;56406400 |
42 | MobilenetV1/MobilenetV1/Conv2d_5_pointwise/Conv2D | Conv2D | [[64 192 20 20]] | 281 | 19660800 | 19810816 | 49670912 | GPU_0_bfc | 150016 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 6.00 | 0 | 147648.00 | 343168.00 | 44.30 | 0.00 | 0.00 | true | 0.443613;0.444820;0.441646;0.441841;0.442611 | 0;0;0;0;0 | 147648;147648;147648;147648;147648 | 343296;344960;328576;344576;341632 |
42 | MobilenetV1/MobilenetV1/Conv2d_5_pointwise/Conv2D | Conv2D | [[64 192 20 20]] | 281 | 19660800 | 19810816 | 49670912 | GPU_0_bfc | 150016 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.33 | 0 | 96.00 | 4181.33 | 5.70 | 0.00 | 0.00 | true | 0.057186;0.057370;0.057187;0.057191;0.057166 | 0;0;0;0;0 | 608;96;96;96;96 | 4480;4480;3072;3968;4096 |
43 | MobilenetV1/MobilenetV1/Conv2d_5_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 192 20 20]] | 78 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 53.00 | 4915200 | 19654336.00 | 19392554.67 | 48.20 | 0.13 | 92.74 | true | 0.483198;0.482025;0.481726;0.481061;0.482409 | 4915200;4915200;4915200;4915200;4915200 | 19653184;19657216;19652608;19645248;19657280 | 19388256;19394464;19380096;19407584;19394944 |
44 | MobilenetV1/MobilenetV1/Conv2d_5_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 192 20 20]] | 80.333 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 53.67 | 4915200 | 19661824.00 | 19652512.00 | 48.30 | 0.13 | 91.59 | true | 0.482740;0.481132;0.484382;0.483104;0.482463 | 4915200;4915200;4915200;4915200;4915200 | 19661824;19661824;19661824;19661824;19661824 | 19648416;19664032;19657888;19650464;19649184 |
45 | MobilenetV1/MobilenetV1/Conv2d_5_pointwise/Relu6 | Relu6 | [[64 192 20 20]] | 72 | 19660800 | 0 | 30010112 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 51.67 | 0 | 19659808.00 | 19580394.67 | 92.50 | 0.00 | 0.00 | true | 0.916850;0.927659;0.923160;0.923712;0.929893 | 0;0;0;0;0 | 19660320;19659808;19660448;19657760;19659296 | 19545600;19598912;19545856;19596416;19604608 |
46 | MobilenetV1/MobilenetV1/Conv2d_6_depthwise/depthwise | DepthwiseConv2dNative | [[64 192 10 10]] | 236.667 | 4915200 | 26598144 | 34925312 | GPU_0_bfc | 21682944 | 0 | 0 | 0 | void tensorflow::functor::PadInputCustomKernelNCHW<float, 4>(int, float const*, tensorflow::functor::Dimension<4>, float*, tensorflow::functor::Dimension<4>, tensorflow::functor::Dimension<(4)-(2)>) | 96.00 | 0 | 19675018.67 | 22010784.00 | 47.20 | 0.00 | 0.00 | true | 0.471547;0.472315;0.472182;0.472911;0.472079 | 0;0;0;0;0 | 19676064;19674336;19674784;19670816;19675936 | 22035872;22000800;22040736;21989024;21995680 |
46 | MobilenetV1/MobilenetV1/Conv2d_6_depthwise/depthwise | DepthwiseConv2dNative | [[64 192 10 10]] | 236.667 | 4915200 | 26598144 | 34925312 | GPU_0_bfc | 21682944 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 44.33 | 23347200 | 21676469.33 | 6462538.67 | 83.60 | 0.83 | 526.63 | true | 0.841124;0.830501;0.831403;0.836600;0.840089 | 23347200;23347200;23347200;23347200;23347200 | 6423456;6448192;6486208;6478560;6460864 | 21676448;21676576;21676384;21676384;21676576 |
46 | MobilenetV1/MobilenetV1/Conv2d_6_depthwise/depthwise | DepthwiseConv2dNative | [[64 192 10 10]] | 236.667 | 4915200 | 26598144 | 34925312 | GPU_0_bfc | 21682944 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.33 | 0 | 7104.00 | 7594.67 | 41.50 | 0.00 | 0.00 | true | 0.414601;0.422702;0.411351;0.410892;0.418079 | 0;0;0;0;0 | 7104;7104;7104;7104;7104 | 7296;8320;8832;7168;6528 |
47 | MobilenetV1/MobilenetV1/Conv2d_6_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 192 10 10]] | 37 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 13.00 | 1228800 | 3980266.67 | 2974965.33 | 45.80 | 0.18 | 94.52 | true | 0.456890;0.458235;0.459229;0.455415;0.460013 | 1228800;1228800;1228800;1228800;1228800 | 3972160;3981376;4032064;3976000;3983424 | 3057952;2980352;2966464;2972576;2971968 |
48 | MobilenetV1/MobilenetV1/Conv2d_6_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 192 10 10]] | 28.333 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 10.00 | 1228800 | 960.00 | 4877504.00 | 45.20 | 0.25 | 122.88 | true | 0.451764;0.451093;0.452598;0.451375;0.454274 | 1228800;1228800;1228800;1228800;1228800 | 960;960;960;960;960 | 4873088;4882720;4879040;4857696;4880384 |
49 | MobilenetV1/MobilenetV1/Conv2d_6_depthwise/Relu6 | Relu6 | [[64 192 10 10]] | 24.667 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 7.00 | 0 | 597.33 | 3866890.67 | 74.90 | 0.00 | 0.00 | true | 0.748790;0.743908;0.748728;0.753817;0.748612 | 0;0;0;0;0 | 0;0;1792;5632;0 | 3742208;3867712;3910880;3844800;3888160 |
50 | MobilenetV1/MobilenetV1/Conv2d_6_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 197.333 | 9830400 | 10126080 | 25094912 | GPU_0_bfc | 295680 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 92.00 | 948633600 | 4189994.67 | 10965504.00 | 19.50 | 62.59 | 10311.23 | false | 0.198485;0.193548;0.194718;0.195861;0.191626 | 948633600;948633600;948633600;948633600;948633600 | 3239712;3241184;4742784;5015808;4586016 | 10998464;10949920;10948128;10938336;11106272 |
50 | MobilenetV1/MobilenetV1/Conv2d_6_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 197.333 | 9830400 | 10126080 | 25094912 | GPU_0_bfc | 295680 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 5.67 | 0 | 294912.00 | 428224.00 | 43.90 | 0.00 | 0.00 | true | 0.438108;0.438199;0.439595;0.440606;0.439198 | 0;0;0;0;0 | 294912;294912;294912;294912;294912 | 440960;422528;424576;425792;434304 |
50 | MobilenetV1/MobilenetV1/Conv2d_6_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 197.333 | 9830400 | 10126080 | 25094912 | GPU_0_bfc | 295680 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.00 | 0 | 0.00 | 1408.00 | 5.90 | 0.00 | 0.00 | true | 0.058993;0.059046;0.059046;0.058993;0.059046 | 0;0;0;0;0 | 1408;1664;1408;1408;1408 | 0;0;0;0;0 |
51 | MobilenetV1/MobilenetV1/Conv2d_6_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 49.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 25.67 | 2457600 | 7208373.33 | 8880896.00 | 45.80 | 0.15 | 95.75 | true | 0.459381;0.457028;0.457867;0.457605;0.458083 | 2457600;2457600;2457600;2457600;2457600 | 8808736;8977408;8910592;8923360;8772384 | 7048192;7014080;7296064;7339840;7280864 |
52 | MobilenetV1/MobilenetV1/Conv2d_6_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 47.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 29.00 | 2457600 | 9832085.33 | 9828778.67 | 46.40 | 0.12 | 84.74 | true | 0.464539;0.463408;0.464948;0.463440;0.464709 | 2457600;2457600;2457600;2457600;2457600 | 9832064;9832128;9831936;9832064;9832128 | 9837472;9818112;9820192;9833088;9833056 |
53 | MobilenetV1/MobilenetV1/Conv2d_6_pointwise/Relu6 | Relu6 | [[64 384 10 10]] | 44.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.33 | 0 | 7956661.33 | 9482730.67 | 86.80 | 0.00 | 0.00 | true | 0.863537;0.867254;0.869519;0.868166;0.872717 | 0;0;0;0;0 | 8000288;7932192;7615648;7949152;7988640 | 9551872;9486528;9387200;9534528;9427136 |
54 | MobilenetV1/MobilenetV1/Conv2d_7_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 128.667 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 50.33 | 40992768 | 9827594.67 | 9988245.33 | 86.70 | 2.07 | 814.43 | true | 0.868906;0.867014;0.867149;0.867122;0.868027 | 40992768;40992768;40992768;40992768;40992768 | 10031392;9976096;10005824;9982816;9974816 | 9829728;9827552;9813600;9830368;9825504 |
54 | MobilenetV1/MobilenetV1/Conv2d_7_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 128.667 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.67 | 0 | 14016.00 | 31914.67 | 42.80 | 0.00 | 0.00 | true | 0.426566;0.432361;0.430089;0.427355;0.421023 | 0;0;0;0;0 | 14016;14016;14016;14016;14016 | 31488;33280;31360;29568;32896 |
55 | MobilenetV1/MobilenetV1/Conv2d_7_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 53 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.00 | 2457600 | 9266901.33 | 9761952.00 | 46.50 | 0.13 | 87.77 | true | 0.464638;0.465038;0.468896;0.464177;0.466225 | 2457600;2457600;2457600;2457600;2457600 | 9244672;9270912;9272576;9257216;9300224 | 9759264;9778688;9763936;9762656;9753856 |
56 | MobilenetV1/MobilenetV1/Conv2d_7_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 52.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.00 | 2457600 | 9832170.67 | 9822314.67 | 46.50 | 0.13 | 87.77 | true | 0.465059;0.465550;0.467099;0.465764;0.464569 | 2457600;2457600;2457600;2457600;2457600 | 9832736;9799200;9812224;9821984;9838112 | 9832192;9832192;9832128;9832128;9832192 |
57 | MobilenetV1/MobilenetV1/Conv2d_7_depthwise/Relu6 | Relu6 | [[64 384 10 10]] | 43.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.33 | 0 | 8088266.67 | 9533312.00 | 87.00 | 0.00 | 0.00 | true | 0.878725;0.872463;0.863396;0.868776;0.868238 | 0;0;0;0;0 | 8122016;7878624;8097440;8136224;8045344 | 9541024;9512032;9470912;9546880;9582176 |
58 | MobilenetV1/MobilenetV1/Conv2d_7_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 273.333 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 166.00 | 1892352000 | 25675594.67 | 10999978.67 | 20.70 | 51.60 | 11399.71 | false | 0.208014;0.206266;0.207155;0.207156;0.206820 | 1892352000;1892352000;1892352000;1892352000;1892352000 | 26039616;23850688;24715968;26983488;26271200 | 10992512;10973952;10997152;11029152;11010272 |
58 | MobilenetV1/MobilenetV1/Conv2d_7_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 273.333 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 7.00 | 0 | 590016.00 | 849504.00 | 46.50 | 0.00 | 0.00 | true | 0.453848;0.465461;0.464677;0.464165;0.467109 | 0;0;0;0;0 | 590016;590016;590016;590016;590016 | 870432;855200;852448;840864;814752 |
58 | MobilenetV1/MobilenetV1/Conv2d_7_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 273.333 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.33 | 0 | 96.00 | 1493.33 | 6.00 | 0.00 | 0.00 | true | 0.059504;0.059527;0.059514;0.059511;0.059502 | 0;0;0;0;0 | 96;96;96;96;96 | 7552;1408;1664;1408;1408 |
59 | MobilenetV1/MobilenetV1/Conv2d_7_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 49.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 25.00 | 2457600 | 7164192.00 | 8835530.67 | 45.70 | 0.15 | 98.30 | true | 0.453934;0.456828;0.458216;0.455520;0.459933 | 2457600;2457600;2457600;2457600;2457600 | 8776928;8866784;8838432;8871072;8801376 | 7173376;7166144;7153056;7177312;7149216 |
60 | MobilenetV1/MobilenetV1/Conv2d_7_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 51 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.00 | 2457600 | 9832170.67 | 9814186.67 | 46.50 | 0.13 | 87.77 | true | 0.464120;0.466669;0.465135;0.465364;0.465123 | 2457600;2457600;2457600;2457600;2457600 | 9832192;9832064;9837568;9832128;9832192 | 9810560;9808032;9837472;9823072;9808928 |
61 | MobilenetV1/MobilenetV1/Conv2d_7_pointwise/Relu6 | Relu6 | [[64 384 10 10]] | 48.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.00 | 0 | 8066826.67 | 9549738.67 | 87.30 | 0.00 | 0.00 | true | 0.873387;0.873159;0.873145;0.865960;0.871807 | 0;0;0;0;0 | 8091424;8048416;8069088;7993376;8082976 | 9542720;9530080;9576416;9492736;9576704 |
62 | MobilenetV1/MobilenetV1/Conv2d_8_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 130.333 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 50.00 | 40992768 | 9830325.33 | 9995136.00 | 86.80 | 2.07 | 819.86 | true | 0.868849;0.868508;0.867383;0.866846;0.868737 | 40992768;40992768;40992768;40992768;40992768 | 9830496;9830752;9830752;9826784;9829728 | 10004160;9995904;9985344;10043936;9963456 |
62 | MobilenetV1/MobilenetV1/Conv2d_8_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 130.333 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.00 | 0 | 14016.00 | 31530.67 | 42.40 | 0.00 | 0.00 | true | 0.426177;0.428375;0.419443;0.421934;0.423277 | 0;0;0;0;0 | 30592;33920;30080;32768;31232 | 14016;14016;14016;14016;14016 |
63 | MobilenetV1/MobilenetV1/Conv2d_8_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 55.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.00 | 2457600 | 9234944.00 | 9751882.67 | 46.60 | 0.13 | 87.77 | true | 0.467254;0.468391;0.467203;0.463048;0.464847 | 2457600;2457600;2457600;2457600;2457600 | 9238144;9245568;9244800;9196800;9221888 | 9740448;9764000;9750560;9741088;9779360 |
64 | MobilenetV1/MobilenetV1/Conv2d_8_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 47.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 29.00 | 2457600 | 9832149.33 | 9830048.00 | 46.60 | 0.12 | 84.74 | true | 0.465779;0.465698;0.465483;0.466673;0.464497 | 2457600;2457600;2457600;2457600;2457600 | 9847680;9836192;9826592;9809952;9827360 | 9832128;9832192;9832064;9832192;9832128 |
65 | MobilenetV1/MobilenetV1/Conv2d_8_depthwise/Relu6 | Relu6 | [[64 384 10 10]] | 43.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.33 | 0 | 8121589.33 | 9558688.00 | 87.60 | 0.00 | 0.00 | true | 0.872244;0.874381;0.878309;0.876792;0.876375 | 0;0;0;0;0 | 8113440;8119712;8131616;8032928;8140320 | 9561248;9541472;9560512;9554304;9589760 |
66 | MobilenetV1/MobilenetV1/Conv2d_8_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 271.333 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 165.67 | 1892352000 | 25407882.67 | 11032938.67 | 20.80 | 51.93 | 11422.62 | false | 0.207378;0.207192;0.209453;0.207722;0.208702 | 1892352000;1892352000;1892352000;1892352000;1892352000 | 25346336;25616160;25824384;25261152;24575328 | 11084864;10991488;11089088;10974464;11022464 |
66 | MobilenetV1/MobilenetV1/Conv2d_8_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 271.333 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 6.33 | 0 | 590016.00 | 829770.67 | 46.90 | 0.00 | 0.00 | true | 0.468479;0.467288;0.469208;0.470840;0.469430 | 0;0;0;0;0 | 590016;590016;590016;590016;590016 | 850080;829088;827424;827552;832672 |
66 | MobilenetV1/MobilenetV1/Conv2d_8_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 271.333 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.00 | 0 | 96.00 | 1194.67 | 6.00 | 0.00 | 0.00 | true | 0.059552;0.059507;0.059509;0.059550;0.059566 | 0;0;0;0;0 | 96;96;96;96;96 | 1408;1024;1024;1280;1280 |
67 | MobilenetV1/MobilenetV1/Conv2d_8_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 49 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 25.00 | 2457600 | 7154805.33 | 8825824.00 | 45.70 | 0.15 | 98.30 | true | 0.458101;0.457473;0.457668;0.456199;0.457198 | 2457600;2457600;2457600;2457600;2457600 | 7181920;7150432;7159488;7141632;7154496 | 8774944;8813760;8861536;8828608;8835104 |
68 | MobilenetV1/MobilenetV1/Conv2d_8_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 48 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.00 | 2457600 | 9832192.00 | 9800640.00 | 46.50 | 0.13 | 87.77 | true | 0.464279;0.465633;0.464549;0.465275;0.463959 | 2457600;2457600;2457600;2457600;2457600 | 9831808;9832192;9832192;9832192;9832192 | 9842944;9798912;9800864;9802144;9796256 |
69 | MobilenetV1/MobilenetV1/Conv2d_8_pointwise/Relu6 | Relu6 | [[64 384 10 10]] | 46 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.67 | 0 | 8036192.00 | 9525962.67 | 86.90 | 0.00 | 0.00 | true | 0.868031;0.865593;0.869938;0.868327;0.880456 | 0;0;0;0;0 | 8058848;8032736;8016288;8064416;8016992 | 9545472;9533408;9473024;9524032;9520448 |
70 | MobilenetV1/MobilenetV1/Conv2d_9_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 131.333 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 50.00 | 40992768 | 9830325.33 | 9992053.33 | 86.80 | 2.07 | 819.86 | true | 0.867696;0.868666;0.867453;0.868104;0.867580 | 40992768;40992768;40992768;40992768;40992768 | 9830752;9829984;9829984;9830240;9830752 | 9967072;10009408;10015680;9999680;9955776 |
70 | MobilenetV1/MobilenetV1/Conv2d_9_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 131.333 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.67 | 0 | 14016.00 | 34090.67 | 42.40 | 0.00 | 0.00 | true | 0.426284;0.425578;0.419941;0.429196;0.419181 | 0;0;0;0;0 | 14016;14016;14016;14016;14016 | 30336;36480;30720;35072;37888 |
71 | MobilenetV1/MobilenetV1/Conv2d_9_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 53 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 27.67 | 2457600 | 9275946.67 | 9755221.33 | 46.70 | 0.13 | 88.83 | true | 0.467681;0.465276;0.467921;0.466303;0.468757 | 2457600;2457600;2457600;2457600;2457600 | 9282560;9276544;9268736;9244544;9284736 | 9763200;9720320;9757024;9750528;9758112 |
72 | MobilenetV1/MobilenetV1/Conv2d_9_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 47.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.67 | 2457600 | 9832832.00 | 9835584.00 | 46.50 | 0.12 | 85.73 | true | 0.467031;0.465402;0.465789;0.464289;0.464901 | 2457600;2457600;2457600;2457600;2457600 | 9839552;9832128;9832192;9832064;9834176 | 9836448;9853312;9814048;9816992;9855008 |
73 | MobilenetV1/MobilenetV1/Conv2d_9_depthwise/Relu6 | Relu6 | [[64 384 10 10]] | 44 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.00 | 0 | 8056394.67 | 9534496.00 | 87.00 | 0.00 | 0.00 | true | 0.869880;0.867885;0.871118;0.855197;0.876118 | 0;0;0;0;0 | 9532448;9579360;9528480;9542560;9518464 | 8034080;8058912;7955552;8091168;8076192 |
74 | MobilenetV1/MobilenetV1/Conv2d_9_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 272 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 165.00 | 1892352000 | 25761653.33 | 11057856.00 | 20.70 | 51.40 | 11468.80 | false | 0.205762;0.207237;0.207143;0.208531;0.206255 | 1892352000;1892352000;1892352000;1892352000;1892352000 | 26394176;25218016;25993248;25010528;26073696 | 11099328;11042656;11079456;11051456;10880064 |
74 | MobilenetV1/MobilenetV1/Conv2d_9_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 272 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 7.00 | 0 | 590016.00 | 842997.33 | 47.00 | 0.00 | 0.00 | true | 0.466893;0.465910;0.473217;0.471118;0.472796 | 0;0;0;0;0 | 590016;590016;590016;590016;590016 | 819872;825504;855840;847648;860320 |
74 | MobilenetV1/MobilenetV1/Conv2d_9_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 272 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.67 | 0 | 96.00 | 1749.33 | 6.00 | 0.00 | 0.00 | true | 0.059581;0.059550;0.059502;0.059509;0.059514 | 0;0;0;0;0 | 96;96;96;96;96 | 1920;1664;1408;1664;1920 |
75 | MobilenetV1/MobilenetV1/Conv2d_9_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 48.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 25.33 | 2457600 | 7142272.00 | 8807466.67 | 46.00 | 0.15 | 97.01 | true | 0.457027;0.459436;0.460470;0.459906;0.461620 | 2457600;2457600;2457600;2457600;2457600 | 7118208;7199328;7133472;7175136;7076096 | 8704640;8820992;8869056;8898208;8732352 |
76 | MobilenetV1/MobilenetV1/Conv2d_9_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 49.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 29.00 | 2457600 | 9832149.33 | 9819701.33 | 46.40 | 0.13 | 84.74 | true | 0.464202;0.462981;0.463958;0.465757;0.462564 | 2457600;2457600;2457600;2457600;2457600 | 9832128;9832192;9832128;9832064;9832192 | 9819008;9820288;9831360;9819808;9815840 |
77 | MobilenetV1/MobilenetV1/Conv2d_9_pointwise/Relu6 | Relu6 | [[64 384 10 10]] | 45 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.33 | 0 | 8043445.33 | 9556714.67 | 87.20 | 0.00 | 0.00 | true | 0.870798;0.865551;0.874801;0.873820;0.872465 | 0;0;0;0;0 | 7994272;8066976;8079776;8069088;7955040 | 9525440;9481536;9552608;9608480;9592096 |
78 | MobilenetV1/MobilenetV1/Conv2d_10_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 125.333 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 50.67 | 40992768 | 9830496.00 | 9993237.33 | 86.80 | 2.07 | 809.06 | true | 0.868944;0.867852;0.867915;0.867512;0.866775 | 40992768;40992768;40992768;40992768;40992768 | 9830240;9830752;9830752;9830496;9829856 | 9991104;9997088;9990080;9991520;10001856 |
78 | MobilenetV1/MobilenetV1/Conv2d_10_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 125.333 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.00 | 0 | 14016.00 | 34090.67 | 42.30 | 0.00 | 0.00 | true | 0.427542;0.422354;0.418539;0.429589;0.420536 | 0;0;0;0;0 | 14016;14016;14016;14016;14400 | 35328;39936;33024;33920;32640 |
79 | MobilenetV1/MobilenetV1/Conv2d_10_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 52 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.00 | 2457600 | 9263104.00 | 9754613.33 | 46.70 | 0.13 | 87.77 | true | 0.468032;0.466065;0.466011;0.468165;0.467192 | 2457600;2457600;2457600;2457600;2457600 | 9754912;9753888;9757024;9755040;9741728 | 9230336;9268992;9272576;9247744;9283456 |
80 | MobilenetV1/MobilenetV1/Conv2d_10_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 47.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.33 | 2457600 | 9832128.00 | 9823008.00 | 46.60 | 0.13 | 86.74 | true | 0.465399;0.465964;0.465581;0.463906;0.466066 | 2457600;2457600;2457600;2457600;2457600 | 9832128;9832128;9832128;9832192;9832064 | 9822368;9841024;9824800;9821856;9819424 |
81 | MobilenetV1/MobilenetV1/Conv2d_10_depthwise/Relu6 | Relu6 | [[64 384 10 10]] | 44 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.67 | 0 | 8004000.00 | 9512522.67 | 87.00 | 0.00 | 0.00 | true | 0.871980;0.870928;0.871673;0.868730;0.859239 | 0;0;0;0;0 | 8069792;8049312;8069920;7892896;7812000 | 9541888;9492928;9528640;9510016;9498912 |
82 | MobilenetV1/MobilenetV1/Conv2d_10_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 271 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 165.00 | 1892352000 | 25799456.00 | 11014453.33 | 20.70 | 51.40 | 11468.80 | false | 0.207060;0.206753;0.207065;0.207876;0.205062 | 1892352000;1892352000;1892352000;1892352000;1892352000 | 25716768;24327456;25061376;26620224;26781120 | 11006368;10965984;10979456;11057536;11090976 |
82 | MobilenetV1/MobilenetV1/Conv2d_10_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 271 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 7.00 | 0 | 590016.00 | 843552.00 | 46.70 | 0.00 | 0.00 | true | 0.466035;0.469235;0.461353;0.466987;0.468576 | 0;0;0;0;0 | 590016;590016;590016;590016;590016 | 842400;849824;843040;819104;845216 |
82 | MobilenetV1/MobilenetV1/Conv2d_10_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 271 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.33 | 0 | 96.00 | 1536.00 | 6.00 | 0.00 | 0.00 | true | 0.059665;0.059504;0.059550;0.059514;0.059502 | 0;0;0;0;0 | 96;96;96;96;96 | 1536;1792;1536;1536;1536 |
83 | MobilenetV1/MobilenetV1/Conv2d_10_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 49 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 25.00 | 2457600 | 7169024.00 | 8816906.67 | 45.80 | 0.15 | 98.30 | true | 0.455150;0.456870;0.460279;0.458239;0.460322 | 2457600;2457600;2457600;2457600;2457600 | 8777664;8820480;8798784;8846720;8831456 | 7170656;7117344;7158752;7265536;7177664 |
84 | MobilenetV1/MobilenetV1/Conv2d_10_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 50 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.67 | 2457600 | 9832170.67 | 9813930.67 | 46.40 | 0.13 | 85.73 | true | 0.464615;0.464346;0.463117;0.466026;0.464416 | 2457600;2457600;2457600;2457600;2457600 | 9832192;9832192;9832192;9832000;9832128 | 9826816;9797280;9839520;9797408;9817568 |
85 | MobilenetV1/MobilenetV1/Conv2d_10_pointwise/Relu6 | Relu6 | [[64 384 10 10]] | 44 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.00 | 0 | 8040352.00 | 9546378.67 | 86.90 | 0.00 | 0.00 | true | 0.877368;0.858658;0.876353;0.863316;0.866769 | 0;0;0;0;0 | 8061344;7987872;8045728;8013984;8072992 | 9512928;9597568;9525536;9572320;9541280 |
86 | MobilenetV1/MobilenetV1/Conv2d_11_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 125.667 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 50.33 | 40992768 | 9830368.00 | 9986698.67 | 86.80 | 2.07 | 814.43 | true | 0.868428;0.868368;0.867379;0.868250;0.868395 | 40992768;40992768;40992768;40992768;40992768 | 9984448;9974816;9968320;10000832;10013344 | 9830752;9830112;9830240;9829472;9830752 |
86 | MobilenetV1/MobilenetV1/Conv2d_11_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 10 10]] | 125.667 | 9830400 | 9844224 | 30010112 | GPU_0_bfc | 13824 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 5.00 | 0 | 14016.00 | 36693.33 | 42.50 | 0.00 | 0.00 | true | 0.422721;0.427528;0.425431;0.430676;0.421200 | 0;0;0;0;0 | 14016;15808;14016;14016;14016 | 35584;37504;35840;38400;36736 |
87 | MobilenetV1/MobilenetV1/Conv2d_11_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 53.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.33 | 2457600 | 9272064.00 | 9766784.00 | 46.70 | 0.13 | 86.74 | true | 0.463992;0.468231;0.465226;0.467575;0.466931 | 2457600;2457600;2457600;2457600;2457600 | 9759840;9774368;9780608;9711648;9766144 | 9305088;9247104;9270400;9275520;9270272 |
88 | MobilenetV1/MobilenetV1/Conv2d_11_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 46.667 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 29.00 | 2457600 | 9832170.67 | 9828554.67 | 46.70 | 0.13 | 84.74 | true | 0.468419;0.466570;0.466847;0.465766;0.466174 | 2457600;2457600;2457600;2457600;2457600 | 9836320;9818272;9831072;9843744;9816736 | 9832128;9832192;9832192;9832192;9832128 |
89 | MobilenetV1/MobilenetV1/Conv2d_11_depthwise/Relu6 | Relu6 | [[64 384 10 10]] | 46.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.67 | 0 | 8053109.33 | 9529472.00 | 87.70 | 0.00 | 0.00 | true | 0.881522;0.879857;0.875194;0.874831;0.875218 | 0;0;0;0;0 | 8125216;7774112;8121632;7992352;8045344 | 9566560;9445184;9604864;9502624;9519232 |
90 | MobilenetV1/MobilenetV1/Conv2d_11_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 267.667 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 166.00 | 1892352000 | 25966581.33 | 11098368.00 | 20.80 | 51.06 | 11399.71 | false | 0.207630;0.207148;0.207249;0.208615;0.208216 | 1892352000;1892352000;1892352000;1892352000;1892352000 | 26939680;25866240;25956352;24131360;26077152 | 11119776;11033792;11115296;11060032;11191232 |
90 | MobilenetV1/MobilenetV1/Conv2d_11_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 267.667 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 7.00 | 0 | 590016.00 | 783648.00 | 47.10 | 0.00 | 0.00 | true | 0.471381;0.468866;0.467462;0.471510;0.472676 | 0;0;0;0;0 | 782624;780960;780576;800160;787360 | 590016;590016;590016;590016;590016 |
90 | MobilenetV1/MobilenetV1/Conv2d_11_pointwise/Conv2D | Conv2D | [[64 384 10 10]] | 267.667 | 9830400 | 10420992 | 30010112 | GPU_0_bfc | 590592 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.67 | 0 | 96.00 | 1536.00 | 6.00 | 0.00 | 0.00 | true | 0.059583;0.059523;0.059504;0.059509;0.059520 | 0;0;0;0;0 | 1408;5504;1664;1536;1280 | 96;2144;96;96;96 |
91 | MobilenetV1/MobilenetV1/Conv2d_11_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 10 10]] | 50.333 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 25.33 | 2457600 | 7158570.67 | 8813066.67 | 45.60 | 0.15 | 97.01 | true | 0.455587;0.456002;0.455651;0.459446;0.455815 | 2457600;2457600;2457600;2457600;2457600 | 7160992;7160352;7154368;7115264;7170080 | 8806624;8801440;8863776;8831136;8761888 |
92 | MobilenetV1/MobilenetV1/Conv2d_11_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 384 10 10]] | 50 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 28.67 | 2457600 | 9832085.33 | 9823797.33 | 46.40 | 0.13 | 85.73 | true | 0.464032;0.464330;0.462953;0.466010;0.462717 | 2457600;2457600;2457600;2457600;2457600 | 9832000;9832192;9832192;9832064;9832000 | 9834080;9822560;9804160;9843616;9814752 |
93 | MobilenetV1/MobilenetV1/Conv2d_11_pointwise/Relu6 | Relu6 | [[64 384 10 10]] | 43 | 9830400 | 0 | 20179712 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 25.00 | 0 | 7983349.33 | 9500106.67 | 87.10 | 0.00 | 0.00 | true | 0.864636;0.873766;0.866671;0.875564;0.873772 | 0;0;0;0;0 | 7783584;8010016;8066208;7894816;8045216 | 9386528;9541888;9491456;9469536;9539328 |
94 | MobilenetV1/MobilenetV1/Conv2d_12_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 5 5]] | 177 | 2457600 | 14366208 | 22637312 | GPU_0_bfc | 11908608 | 0 | 0 | 0 | void tensorflow::functor::PadInputCustomKernelNCHW<float, 4>(int, float const*, tensorflow::functor::Dimension<4>, float*, tensorflow::functor::Dimension<4>, tensorflow::functor::Dimension<(4)-(2)>) | 54.67 | 0 | 9830197.33 | 12249546.67 | 46.80 | 0.00 | 0.00 | true | 0.467958;0.468235;0.467367;0.467298;0.468038 | 0;0;0;0;0 | 9816928;9830304;9830560;9829728;9830624 | 12228128;12240416;12271264;12261152;12247072 |
94 | MobilenetV1/MobilenetV1/Conv2d_12_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 5 5]] | 177 | 2457600 | 14366208 | 22637312 | GPU_0_bfc | 11908608 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 28.00 | 11673600 | 11864800.00 | 4031733.33 | 88.70 | 0.73 | 416.91 | true | 0.883977;0.888495;0.881474;0.889185;0.888214 | 11673600;11673600;11673600;11673600;11673600 | 4023104;3985344;4039008;4056864;4033088 | 11864288;11849568;11869024;11875936;11861088 |
94 | MobilenetV1/MobilenetV1/Conv2d_12_depthwise/depthwise | DepthwiseConv2dNative | [[64 384 5 5]] | 177 | 2457600 | 14366208 | 22637312 | GPU_0_bfc | 11908608 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.33 | 0 | 14016.00 | 13482.67 | 42.10 | 0.00 | 0.00 | true | 0.426142;0.419335;0.422040;0.421610;0.420763 | 0;0;0;0;0 | 14016;14016;14016;16576;14016 | 11904;13568;14976;17792;11520 |
95 | MobilenetV1/MobilenetV1/Conv2d_12_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 384 5 5]] | 31.333 | 2457600 | 0 | 12806912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 9.00 | 614400 | 1066048.00 | 204512.00 | 44.30 | 0.48 | 68.27 | true | 0.443409;0.441548;0.440375;0.444277;0.442559 | 614400;614400;614400;614400;614400 | 1053632;1021632;1077056;1090752;1067456 | 222880;242080;197280;184800;193376 |
96 | MobilenetV1/MobilenetV1/Conv2d_12_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 384 5 5]] | 27.667 | 2457600 | 0 | 12806912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 8.00 | 614400 | 1728.00 | 2016.00 | 43.00 | 164.10 | 76.80 | false | 0.429622;0.430857;0.430275;0.428347;0.429804 | 614400;614400;614400;614400;614400 | 1728;1728;1728;1728;1728 | 2112;2016;1856;2080;1952 |
97 | MobilenetV1/MobilenetV1/Conv2d_12_depthwise/Relu6 | Relu6 | [[64 384 5 5]] | 24.667 | 2457600 | 0 | 12806912 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 6.00 | 0 | 0.00 | 245.33 | 65.60 | 0.00 | 0.00 | true | 0.655415;0.653211;0.656203;0.657994;0.656030 | 0;0;0;0;0 | 0;0;0;0;0 | 320;160;192;352;224 |
98 | MobilenetV1/MobilenetV1/Conv2d_12_pointwise/Conv2D | Conv2D | [[64 768 5 5]] | 193.667 | 4915200 | 6095104 | 17722112 | GPU_0_bfc | 1179904 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 91.33 | 984023040 | 409856.00 | 5876213.33 | 12.00 | 156.54 | 10774.01 | false | 0.120175;0.119742;0.120430;0.120262;0.119602 | 984023040;984023040;984023040;984023040;984023040 | 5874144;5966432;5816160;5790368;5938336 | 397856;470560;361152;314528;473216 |
98 | MobilenetV1/MobilenetV1/Conv2d_12_pointwise/Conv2D | Conv2D | [[64 768 5 5]] | 193.667 | 4915200 | 6095104 | 17722112 | GPU_0_bfc | 1179904 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 8.67 | 0 | 1179648.00 | 646058.67 | 47.40 | 0.00 | 0.00 | true | 0.473026;0.474357;0.475116;0.473399;0.474617 | 0;0;0;0;0 | 1179648;1179648;1179648;1179648;1179648 | 645856;645248;664448;638112;647072 |
98 | MobilenetV1/MobilenetV1/Conv2d_12_pointwise/Conv2D | Conv2D | [[64 768 5 5]] | 193.667 | 4915200 | 6095104 | 17722112 | GPU_0_bfc | 1179904 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.33 | 0 | 85.33 | 981.33 | 4.00 | 0.00 | 0.00 | true | 0.039705;0.039690;0.039697;0.039671;0.039705 | 0;0;0;0;0 | 1152;896;8192;896;640 | 256;0;5888;0;0 |
99 | MobilenetV1/MobilenetV1/Conv2d_12_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 768 5 5]] | 37.333 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 12.00 | 1228800 | 9706.67 | 3116330.67 | 45.80 | 0.39 | 102.40 | true | 0.457633;0.458411;0.457172;0.457913;0.457757 | 1228800;1228800;1228800;1228800;1228800 | 9792;9920;9280;9408;10944 | 2920288;3067392;3139040;3142560;3165088 |
100 | MobilenetV1/MobilenetV1/Conv2d_12_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 768 5 5]] | 29.667 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 11.00 | 1228800 | 3264.00 | 4843733.33 | 45.80 | 0.25 | 111.71 | true | 0.458641;0.457342;0.457652;0.458688;0.457378 | 1228800;1228800;1228800;1228800;1228800 | 3264;3264;3264;3264;3264 | 4832992;4846336;4857440;4841280;4843584 |
101 | MobilenetV1/MobilenetV1/Conv2d_12_pointwise/Relu6 | Relu6 | [[64 768 5 5]] | 24.333 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 7.00 | 0 | 0.00 | 3918880.00 | 75.00 | 0.00 | 0.00 | true | 0.749462;0.749947;0.752816;0.750192;0.749172 | 0;0;0;0;0 | 0;0;0;0;0 | 3903808;3927168;3936704;3925664;3877440 |
102 | MobilenetV1/MobilenetV1/Conv2d_13_depthwise/depthwise | DepthwiseConv2dNative | [[64 768 5 5]] | 110.333 | 4915200 | 4942848 | 20179712 | GPU_0_bfc | 27648 | 0 | 0 | 0 | void conv2d_grouped_direct_kernel<float, float, float, float, float, true, false, 0, 1, 3>(cudnnTensorStruct, float const*, cudnnFilterStruct, float const*, cudnnConvolutionStruct, cudnnTensorStruct, float*, float, float, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, cudnn::reduced_divisor, int, float const*, float const*, cudnnActivationStruct) | 27.00 | 17842176 | 2689717.33 | 4945248.00 | 85.90 | 2.34 | 660.82 | true | 0.856156;0.857076;0.861013;0.860826;0.858141 | 17842176;17842176;17842176;17842176;17842176 | 4918720;4926112;4963136;4950592;4959040 | 2686432;2667872;2682464;2700256;2722144 |
102 | MobilenetV1/MobilenetV1/Conv2d_13_depthwise/depthwise | DepthwiseConv2dNative | [[64 768 5 5]] | 110.333 | 4915200 | 4942848 | 20179712 | GPU_0_bfc | 27648 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 4.00 | 0 | 28245.33 | 58752.00 | 44.40 | 0.00 | 0.00 | true | 0.444001;0.441348;0.445540;0.443104;0.444832 | 0;0;0;0;0 | 30208;27648;27648;27648;29440 | 66688;54272;53376;60416;61568 |
103 | MobilenetV1/MobilenetV1/Conv2d_13_depthwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 768 5 5]] | 36.667 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 13.00 | 1228800 | 2501141.33 | 4151594.67 | 46.40 | 0.18 | 94.52 | true | 0.463875;0.463411;0.464698;0.464214;0.464357 | 1228800;1228800;1228800;1228800;1228800 | 2486080;2512320;2487616;2503872;2511936 | 4159232;4169792;4134048;4161024;4134528 |
104 | MobilenetV1/MobilenetV1/Conv2d_13_depthwise/BatchNorm/FusedBatchNorm | Add | [[64 768 5 5]] | 33.333 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 11.67 | 1228800 | 3264.00 | 4834016.00 | 45.70 | 0.25 | 105.32 | true | 0.457147;0.457470;0.456340;0.457429;0.458130 | 1228800;1228800;1228800;1228800;1228800 | 3264;3264;3264;3264;3264 | 4840992;4831840;4830976;4828160;4839232 |
105 | MobilenetV1/MobilenetV1/Conv2d_13_depthwise/Relu6 | Relu6 | [[64 768 5 5]] | 25.667 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 7.33 | 0 | 0.00 | 3897269.33 | 74.80 | 0.00 | 0.00 | true | 0.749911;0.742960;0.754577;0.747168;0.748361 | 0;0;0;0;0 | 0;5632;0;0;0 | 3922656;3838944;3919040;3862016;3910752 |
106 | MobilenetV1/MobilenetV1/Conv2d_13_pointwise/Conv2D | Conv2D | [[64 768 5 5]] | 281 | 4915200 | 7274752 | 20179712 | GPU_0_bfc | 2359552 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 165.00 | 1965490176 | 5984512.00 | 5819477.33 | 12.10 | 166.51 | 11912.06 | false | 0.121746;0.120958;0.121376;0.121991;0.120587 | 1965490176;1965490176;1965490176;1965490176;1965490176 | 5982464;6039232;6006240;5927328;5964832 | 5749376;5876928;5851808;5773536;5833088 |
106 | MobilenetV1/MobilenetV1/Conv2d_13_pointwise/Conv2D | Conv2D | [[64 768 5 5]] | 281 | 4915200 | 7274752 | 20179712 | GPU_0_bfc | 2359552 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 17.00 | 0 | 2359296.00 | 2657824.00 | 46.90 | 0.00 | 0.00 | true | 0.468343;0.469323;0.469274;0.468882;0.471782 | 0;0;0;0;0 | 2359296;2359296;2359296;2359552;2359296 | 2671648;2655872;2660032;2633536;2657568 |
106 | MobilenetV1/MobilenetV1/Conv2d_13_pointwise/Conv2D | Conv2D | [[64 768 5 5]] | 281 | 4915200 | 7274752 | 20179712 | GPU_0_bfc | 2359552 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.00 | 0 | 96.00 | 597.33 | 4.30 | 0.00 | 0.00 | true | 0.042894;0.042877;0.042891;0.042871;0.042894 | 0;0;0;0;0 | 96;96;96;96;96 | 512;512;768;640;640 |
107 | MobilenetV1/MobilenetV1/Conv2d_13_pointwise/BatchNorm/FusedBatchNorm/Mul | Mul | [[64 768 5 5]] | 38 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_product_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 12.00 | 1228800 | 28320.00 | 3029589.33 | 45.90 | 0.40 | 102.40 | true | 0.458579;0.458804;0.458631;0.458326;0.459220 | 1228800;1228800;1228800;1228800;1228800 | 26432;29376;28352;28128;28480 | 2775840;3153408;2941184;3407296;2994176 |
108 | MobilenetV1/MobilenetV1/Conv2d_13_pointwise/BatchNorm/FusedBatchNorm | Add | [[64 768 5 5]] | 29.667 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 3, 1, int>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_sum_op<float, float>, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const, Eigen::TensorBroadcastingOp<Eigen::array<long, 3ul> const, Eigen::TensorMap<Eigen::Tensor<float const, 3, 1, int>, 16, Eigen::MakePointer> const> const> const> const, Eigen::GpuDevice>, int) | 11.00 | 1228800 | 3264.00 | 4845578.67 | 45.80 | 0.25 | 111.71 | true | 0.457516;0.455964;0.458141;0.457889;0.457234 | 1228800;1228800;1228800;1228800;1228800 | 4853152;4849664;4847968;4839104;4835680 | 3264;3264;3264;3264;3264 |
109 | MobilenetV1/MobilenetV1/Conv2d_13_pointwise/Relu6 | Relu6 | [[64 768 5 5]] | 24.333 | 4915200 | 0 | 15264512 | GPU_0_bfc | 0 | 0 | 0 | 0 | void Eigen::internal::EigenMetaKernel<Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long>(Eigen::TensorEvaluator<Eigen::TensorAssignOp<Eigen::TensorMap<Eigen::Tensor<float, 1, 1, long>, 16, Eigen::MakePointer>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_min_op<float, float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float>, Eigen::TensorCwiseBinaryOp<Eigen::internal::scalar_max_op<float const, float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const, Eigen::TensorCwiseNullaryOp<Eigen::internal::scalar_constant_op<float const>, Eigen::TensorMap<Eigen::Tensor<float const, 1, 1, long>, 16, Eigen::MakePointer> const> const> const> const> const> const, Eigen::GpuDevice>, long) | 7.33 | 0 | 0.00 | 3915893.33 | 75.00 | 0.00 | 0.00 | true | 0.750588;0.748914;0.751558;0.750860;0.748857 | 0;0;0;0;0 | 0;0;0;0;0 | 3938816;3907232;3905280;3933024;3907424 |
110 | MobilenetV1/Logits/AvgPool_1a/AvgPool | AvgPool | [[64 768 1 1]] | 53 | 196608 | 196608 | 15461120 | GPU_0_bfc | 0 | 0 | 0 | 0 | void cudnn::detail::pooling_fw_4d_kernel<float, float, cudnn::detail::averpooling_func<float>, 2, false>(cudnnTensorStruct, float const*, cudnnTensorStruct, float*, cudnnPoolingStruct, float, float, int, cudnn::reduced_divisor, cudnn::reduced_divisor) | 11.00 | 2028480 | 2560.00 | 568970.67 | 36.10 | 3.55 | 184.41 | true | 0.361678;0.359932;0.363114;0.361029;0.360449 | 2028480;2028480;2028480;2028480;2028480 | 2560;2560;2560;2560;4352 | 563168;580032;572896;564864;569152 |
111 | MobilenetV1/Logits/Conv2d_1c_1x1/Conv2D | Conv2D | [[64 1001 1 1]] | 233.333 | 256256 | 4915456 | 10802176 | GPU_0_bfc | 4659200 | 0 | 0 | 0 | volta_scudnn_128x64_relu_interior_nn_v1 | 110.00 | 201588736 | 93397.33 | 362528.00 | 6.20 | 442.15 | 1832.62 | false | 0.062363;0.062362;0.062363;0.062361;0.062360 | 201588736;201588736;201588736;201588736;201588736 | 358592;360608;368672;367328;359648 | 87296;97152;96768;94848;88576 |
111 | MobilenetV1/Logits/Conv2d_1c_1x1/Conv2D | Conv2D | [[64 1001 1 1]] | 233.333 | 256256 | 4915456 | 10802176 | GPU_0_bfc | 4659200 | 0 | 0 | 0 | void tensorflow::functor::ShuffleInTensor3Simple<float, 2, 1, 0, false>(int, float const*, tensorflow::functor::Dimension<3>, float*) | 21.00 | 0 | 3079445.33 | 3074080.00 | 46.20 | 0.00 | 0.00 | true | 0.464341;0.462116;0.460974;0.461829;0.463503 | 0;0;0;0;0 | 3078784;3079872;3079872;3078464;3079680 | 3075104;3088800;3060704;3060032;3086432 |
111 | MobilenetV1/Logits/Conv2d_1c_1x1/Conv2D | Conv2D | [[64 1001 1 1]] | 233.333 | 256256 | 4915456 | 10802176 | GPU_0_bfc | 4659200 | 0 | 0 | 0 | cudnn::gemm::computeOffsetsKernel(cudnn::gemm::ComputeOffsetsParams) | 3.67 | 0 | 96.00 | 682.67 | 4.70 | 0.00 | 0.00 | true | 0.048911;0.046451;0.046330;0.046343;0.048892 | 0;0;0;0;0 | 96;96;96;96;96 | 768;512;640;896;640 |
112 | MobilenetV1/Logits/Conv2d_1c_1x1/BiasAdd | BiasAdd | [[64 1001 1 1]] | 30 | 256256 | 0 | 10605568 | GPU_0_bfc | 0 | 0 | 0 | 0 | void tensorflow::BiasNCHWKernel<float>(int, float const*, float const*, float*, int, int) | 4.00 | 64064 | 4032.00 | 661.33 | 43.80 | 13.65 | 16.02 | true | 0.438076;0.440170;0.439046;0.436192;0.436646 | 64064;64064;64064;64064;64064 | 4032;4032;4032;4032;4032 | 768;448;960;384;768 |
116 | MobilenetV1/Predictions/Softmax | Softmax | [[64 1001]] | 68.667 | 256256 | 512512 | 10605568 | GPU_0_bfc | 512512 | 0 | 0 | 0 | void tensorflow::functor::RowReduceKernel<cub::TransformInputIterator<float, tensorflow::(anonymous namespace)::SubtractAndExpFunctor<float, float>, cub::CountingInputIterator<int, long>, long>, float*, cub::Sum>(cub::TransformInputIterator<float, tensorflow::(anonymous namespace)::SubtractAndExpFunctor<float, float>, cub::CountingInputIterator<int, long>, long>, float*, int, int, cub::Sum, std::iterator_traits<cub::TransformInputIterator<float, tensorflow::(anonymous namespace)::SubtractAndExpFunctor<float, float>, cub::CountingInputIterator<int, long>, long> >::value_type) | 8.33 | 645888 | 1792.00 | 277.33 | 6.20 | 312.12 | 77.51 | false | 0.062433;0.062433;0.062433;0.062433;0.062431 | 645888;645888;645888;645888;645888 | 1792;1792;8192;1792;1536 | 256;320;320;256;256 |
116 | MobilenetV1/Predictions/Softmax | Softmax | [[64 1001]] | 68.667 | 256256 | 512512 | 10605568 | GPU_0_bfc | 512512 | 0 | 0 | 0 | void tensorflow::(anonymous namespace)::GenerateNormalizedProb<float, float>(float const*, float const*, float const*, float*, int, int, bool) | 5.00 | 1537536 | 0.00 | 384.00 | 26.80 | 4004.00 | 307.51 | false | 0.267269;0.267562;0.268302;0.267778;0.266674 | 1537536;1537536;1537536;1537536;1537536 | 256;0;0;0;0 | 256;448;320;512;384 |
116 | MobilenetV1/Predictions/Softmax | Softmax | [[64 1001]] | 68.667 | 256256 | 512512 | 10605568 | GPU_0_bfc | 512512 | 0 | 0 | 0 | void tensorflow::functor::RowReduceKernel<float const*, float*, cub::Max>(float const*, float*, int, int, cub::Max, std::iterator_traits<float const*>::value_type) | 4.67 | 0 | 2218.67 | 1301.33 | 6.20 | 0.00 | 0.00 | true | 0.062288;0.062205;0.062311;0.062290;0.062198 | 0;0;0;0;0 | 1536;1536;3584;1536;11520 | 1024;1728;1344;1280;1280 |
Showing 1 to 163 of 163 entries