#include <GemmKernel.h>

Public Member Functions
template<int max_a_unroll, int max_b_unroll>
EIGEN_ALWAYS_INLINE void	compute_kern ()

	gemm_class (Index m_, Index n_, Index k_, Index ldc_, Index inc_, const Scalar alpha_, const Scalar a_, const Scalar b_, Scalar c_, bool is_alpha1_, bool is_beta0_, Index a_stride_, Index b_stride_, Index a_off_, Index b_off_)

Private Types
using	vec = typename packet_traits< Scalar >::type

using	vec_ymm = typename unpacket_traits< vec >::half

using	vec_xmm = typename unpacket_traits< vec_ymm >::half

using	umask_t = typename unpacket_traits< vec >::mask_t

Private Member Functions
EIGEN_ALWAYS_INLINE void	prefetch_a (const Scalar *a_addr)

EIGEN_ALWAYS_INLINE void	prefetch_b (const Scalar *b_addr)

EIGEN_ALWAYS_INLINE void	prefetch_x (const Scalar *x_addr)

EIGEN_ALWAYS_INLINE void	prefetch_c (const Scalar *c_addr)

template<int nelems>
EIGEN_ALWAYS_INLINE void	a_load (vec &a_reg, const Scalar *a_addr)

EIGEN_ALWAYS_INLINE void	b_load (vec &b_reg, const Scalar *b_addr)

template<int nelems>
EIGEN_ALWAYS_INLINE void	c_store (Scalar *mem, vec &src)

template<int nelems>
EIGEN_ALWAYS_INLINE void	vaddm (vec &dst, const Scalar *mem, vec &src, vec &reg)

EIGEN_STRONG_INLINE void	vfmadd (vec &dst, const vec &src1, const vec &src2)

template<int nelems>
EIGEN_ALWAYS_INLINE void	vfmaddm (vec &dst, const Scalar *mem, vec &src, vec &scale, vec &reg)

template<int j, int endX, int i, int endY, int nelems>
EIGEN_ALWAYS_INLINE std::enable_if_t<(j > endX)\|\|(i > endY)>	a_loads (const Scalar *ao)

template<int j, int endX, int i, int endY, int nelems>
EIGEN_ALWAYS_INLINE std::enable_if_t<(j<=endX) &&(i<=endY)>	a_loads (const Scalar *ao)

template<int un, int max_b_unroll, int i, int um_vecs, int a_unroll, int b_unroll>
EIGEN_ALWAYS_INLINE std::enable_if_t<(un > max_b_unroll)\|\|(i > um_vecs)>	prefetch_cs (const Scalar co1, const Scalar co2)

template<int un, int max_b_unroll, int i, int um_vecs, int a_unroll, int b_unroll>
EIGEN_ALWAYS_INLINE std::enable_if_t<(un<=max_b_unroll) &&(i<=um_vecs)>	prefetch_cs (Scalar &co1, Scalar &co2)

template<int i, int um_vecs, int idx, int nelems>
EIGEN_ALWAYS_INLINE std::enable_if_t<(i > um_vecs)>	scale_load_c (const Scalar *cox, vec &alpha_reg)

template<int i, int um_vecs, int idx, int nelems>
EIGEN_ALWAYS_INLINE std::enable_if_t<(i<=um_vecs)>	scale_load_c (const Scalar *cox, vec &alpha_reg)

template<int i, int um_vecs, int idx, int nelems>
EIGEN_ALWAYS_INLINE std::enable_if_t<(i > um_vecs)>	write_c (Scalar *cox)

template<int i, int um_vecs, int idx, int nelems>
EIGEN_ALWAYS_INLINE std::enable_if_t<(i<=um_vecs)>	write_c (Scalar *cox)

template<int pow, int a_unroll, int idx>
EIGEN_ALWAYS_INLINE void	c_update_1count (Scalar *&cox)

template<int pow, int a_unroll>
EIGEN_ALWAYS_INLINE void	c_update_1pow (Scalar &co1, Scalar &co2)

template<int max_b_unroll, int a_unroll, int b_unroll>
EIGEN_ALWAYS_INLINE void	c_update (Scalar &co1, Scalar &co2)

template<int um, int um_vecs, int idx, int uk, bool fetch_x, bool ktail>
EIGEN_ALWAYS_INLINE std::enable_if_t<(um > um_vecs)>	compute (const Scalar ao, const Scalar bo, int &fetchA_idx, int &fetchB_idx, vec &b_reg)

template<int um, int um_vecs, int idx, int uk, bool fetch_x, bool ktail>
EIGEN_ALWAYS_INLINE std::enable_if_t<(um<=um_vecs)>	compute (const Scalar ao, const Scalar bo, int &fetchA_idx, int &fetchB_idx, vec &b_reg)

template<int um, int um_vecs, int uk, int nelems, bool ktail>
EIGEN_ALWAYS_INLINE std::enable_if_t<(um > um_vecs)>	load_a (const Scalar *ao)

template<int um, int um_vecs, int uk, int nelems, bool ktail>
EIGEN_ALWAYS_INLINE std::enable_if_t<(um<=um_vecs)>	load_a (const Scalar *ao)

template<int uk, int pow, int count, int um_vecs, int b_unroll, bool ktail, bool fetch_x, bool c_fetch>
EIGEN_ALWAYS_INLINE std::enable_if_t<(count >pow+1)/2)>	innerkernel_1pow (const Scalar &aa, const Scalar const &ao, const Scalar const &bo, Scalar &co2, int &fetchA_idx, int &fetchB_idx)

template<int uk, int pow, int count, int um_vecs, int b_unroll, bool ktail, bool fetch_x, bool c_fetch>
EIGEN_ALWAYS_INLINE std::enable_if_t<(count<=(pow+1)/2)>	innerkernel_1pow (const Scalar &aa, const Scalar const &ao, const Scalar const &bo, Scalar &co2, int &fetchA_idx, int &fetchB_idx)

template<int uk, int max_b_unroll, int a_unroll, int b_unroll, bool ktail, bool fetch_x, bool c_fetch, bool no_a_preload = false>
EIGEN_ALWAYS_INLINE void	innerkernel_1uk (const Scalar &aa, const Scalar const &ao, const Scalar const &bo, Scalar &co2, int &fetchA_idx, int &fetchB_idx)

template<int a_unroll, int b_unroll, int k_factor, int max_b_unroll, int max_k_factor, bool c_fetch, bool no_a_preload = false>
EIGEN_ALWAYS_INLINE void	innerkernel (const Scalar &aa, const Scalar &ao, const Scalar &bo, Scalar &co2)

template<int a_unroll, int b_unroll, int max_b_unroll>
EIGEN_ALWAYS_INLINE void	kloop (const Scalar &aa, const Scalar &ao, const Scalar &bo, Scalar &co1, Scalar *&co2)

template<int a_unroll, int b_unroll, int max_b_unroll>
EIGEN_ALWAYS_INLINE void	nloop (const Scalar &aa, const Scalar &ao, const Scalar &bo, Scalar &co1, Scalar *&co2)

template<int a_unroll, int max_a_unroll, int max_b_unroll>
EIGEN_ALWAYS_INLINE void	mloop (const Scalar &ao, const Scalar &bo, Scalar &co1, Scalar &co2)

Private Attributes
vec	zmm [32]

umask_t	mask

Index	m

const Index	n

const Index	k

const Index	ldc

const Index	inc

const Scalar *	alpha

const Scalar *	a

const Scalar *	b

Scalar *	c

const bool	is_alpha1

const bool	is_beta0

const Index	a_stride

const Index	b_stride

const Index	a_off

const Index	b_off

Static Private Attributes
static constexpr bool	is_f32 = sizeof(Scalar) == sizeof(float)

static constexpr bool	is_f64 = sizeof(Scalar) == sizeof(double)

static constexpr bool	use_less_a_regs = !is_unit_inc

static constexpr bool	use_less_b_regs = !is_unit_inc

static constexpr int	a_regs [] = {0, 1, 2, use_less_a_regs ? 0 : 3, use_less_a_regs ? 1 : 4, use_less_a_regs ? 2 : 5}

static constexpr int	b_regs [] = {6, use_less_b_regs ? 6 : 7}

static constexpr int	c_regs []

static constexpr int	alpha_load_reg = 0

static constexpr int	c_load_regs [] = {1, 2, 6}

static constexpr int	a_shift = 128

static constexpr int	b_shift = 128

static constexpr int	nelems_in_cache_line = is_f32 ? 16 : 8

static constexpr int	a_prefetch_size = nelems_in_cache_line * 2

static constexpr int	b_prefetch_size = nelems_in_cache_line * 8

Member Typedef Documentation

◆ umask_t

template<typename Scalar , bool is_unit_inc>

using Eigen::internal::gemm_class< Scalar, is_unit_inc >::umask_t = typename unpacket_traits<vec>::mask_t

private

◆ vec

template<typename Scalar , bool is_unit_inc>

using Eigen::internal::gemm_class< Scalar, is_unit_inc >::vec = typename packet_traits<Scalar>::type

private

◆ vec_xmm

template<typename Scalar , bool is_unit_inc>

using Eigen::internal::gemm_class< Scalar, is_unit_inc >::vec_xmm = typename unpacket_traits<vec_ymm>::half

private

◆ vec_ymm

template<typename Scalar , bool is_unit_inc>

using Eigen::internal::gemm_class< Scalar, is_unit_inc >::vec_ymm = typename unpacket_traits<vec>::half

private

Constructor & Destructor Documentation

◆ gemm_class()

template<typename Scalar , bool is_unit_inc>

Eigen::internal::gemm_class< Scalar, is_unit_inc >::gemm_class	(	Index	m_,
		Index	n_,
		Index	k_,
		Index	ldc_,
		Index	inc_,
		const Scalar *	alpha_,
		const Scalar *	a_,
		const Scalar *	b_,
		Scalar *	c_,
		bool	is_alpha1_,
		bool	is_beta0_,
		Index	a_stride_,
		Index	b_stride_,
		Index	a_off_,
		Index	b_off_
	)

inline

       : m(m_),
         n(n_),
         k(k_),
         ldc(ldc_),
         inc(inc_),
         alpha(alpha_),
         a(a_),
         b(b_),
         c(c_),
         is_alpha1(is_alpha1_),
         is_beta0(is_beta0_),
         a_stride(a_stride_),
         b_stride(b_stride_),
         a_off(a_off_),
         b_off(b_off_) {
     // Zero out all accumulation registers.
     zmm[8] = pzero(zmm[8]);
     zmm[9] = pzero(zmm[9]);
     zmm[10] = pzero(zmm[10]);
     zmm[11] = pzero(zmm[11]);
     zmm[12] = pzero(zmm[12]);
     zmm[13] = pzero(zmm[13]);
     zmm[14] = pzero(zmm[14]);
     zmm[15] = pzero(zmm[15]);
     zmm[16] = pzero(zmm[16]);
     zmm[17] = pzero(zmm[17]);
     zmm[18] = pzero(zmm[18]);
     zmm[19] = pzero(zmm[19]);
     zmm[20] = pzero(zmm[20]);
     zmm[21] = pzero(zmm[21]);
     zmm[22] = pzero(zmm[22]);
     zmm[23] = pzero(zmm[23]);
     zmm[24] = pzero(zmm[24]);
     zmm[25] = pzero(zmm[25]);
     zmm[26] = pzero(zmm[26]);
     zmm[27] = pzero(zmm[27]);
     zmm[28] = pzero(zmm[28]);
     zmm[29] = pzero(zmm[29]);
     zmm[30] = pzero(zmm[30]);
     zmm[31] = pzero(zmm[31]);
   }

References Eigen::internal::pzero(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm.

Member Function Documentation

◆ a_load()

template<typename Scalar , bool is_unit_inc>

template<int nelems>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_load	(	vec &	a_reg,
		const Scalar *	a_addr
	)

inlineprivate

                                                                     {
     switch (nelems * sizeof(*a_addr) * 8) {
       default:
       case 512 * 3:
         a_reg = ploadu<vec>(a_addr);
         break;
       case 512 * 2:
         a_reg = ploadu<vec>(a_addr);
         break;
       case 512 * 1:
         a_reg = ploadu<vec>(a_addr);
         break;
       case 256 * 1:
         a_reg = preinterpret<vec>(_mm512_broadcast_f64x4(ploadu<Packet4d>(reinterpret_cast<const double *>(a_addr))));
         break;
       case 128 * 1:
         a_reg = preinterpret<vec>(_mm512_broadcast_f32x4(ploadu<Packet4f>(reinterpret_cast<const float *>(a_addr))));
         break;
       case 64 * 1:
         a_reg = preinterpret<vec>(pload1<Packet8d>(reinterpret_cast<const double *>(a_addr)));
         break;
       case 32 * 1:
         a_reg = pload1<vec>(a_addr);
         break;
     }
   }

References Eigen::internal::pload1< Packet8d >(), Eigen::internal::ploadu< Packet4d >(), and Eigen::internal::ploadu< Packet4f >().

◆ a_loads() [1/2]

template<typename Scalar , bool is_unit_inc>

template<int j, int endX, int i, int endY, int nelems>

EIGEN_ALWAYS_INLINE std::enable_if_t<(j > endX) || (i > endY)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_loads ( const Scalar * ao )

inlineprivate

                                                                                          {
     EIGEN_UNUSED_VARIABLE(ao);
   }

References EIGEN_UNUSED_VARIABLE.

◆ a_loads() [2/2]

template<typename Scalar , bool is_unit_inc>

template<int j, int endX, int i, int endY, int nelems>

EIGEN_ALWAYS_INLINE std::enable_if_t<(j <= endX) && (i <= endY)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_loads ( const Scalar * ao )

inlineprivate

                                                                                            {
     if (j < endX) {
       if (i < endY) {
         auto &a_reg = zmm[a_regs[i + (j % 2) * 3]];
         const Scalar *a_addr = ao + nelems * j + nelems_in_cache_line * i - a_shift;
         a_load<nelems>(a_reg, a_addr);
  
         a_loads<j, endX, i + 1, endY, nelems>(ao);
       } else {
         a_loads<j + 1, endX, 0, endY, nelems>(ao);
       }
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_regs, Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_shift, i, j, Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm.

◆ b_load()

template<typename Scalar , bool is_unit_inc>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_load	(	vec &	b_reg,
		const Scalar *	b_addr
	)

inlineprivate

139 { b_reg = pload1<vec>(b_addr); }

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::kloop().

◆ c_store()

template<typename Scalar , bool is_unit_inc>

template<int nelems>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_store	(	Scalar *	mem,
		vec &	src
	)

inlineprivate

                                                           {
     if (is_unit_inc) {
       switch (nelems * sizeof(*mem) * 8) {
         default:
         case 512 * 3:
           pstoreu(mem, src);
           break;
         case 512 * 2:
           pstoreu(mem, src);
           break;
         case 512 * 1:
           pstoreu(mem, src);
           break;
         case 256 * 1:
           pstoreu(mem, preinterpret<vec_ymm>(src));
           break;
         case 128 * 1:
           pstoreu(mem, preinterpret<vec_xmm>(src));
           break;
         case 64 * 1:
           pstorel(mem, preinterpret<vec_xmm>(src));
           break;
         case 32 * 1:
           pstores(mem, preinterpret<vec_xmm>(src));
           break;
       }
     } else {
       switch (nelems * sizeof(*mem) * 8) {
         default:
         case 512 * 3:
           pscatter(mem, src, inc);
           break;
         case 512 * 2:
           pscatter(mem, src, inc);
           break;
         case 512 * 1:
           pscatter(mem, src, inc);
           break;
         case 256 * 1:
           pscatter(mem, src, inc, mask);
           break;
         case 128 * 1:
           pscatter(mem, src, inc, mask);
           break;
         case 64 * 1:
           pscatter(mem, src, inc, mask);
           break;
         case 32 * 1:
           pscatter(mem, src, inc, mask);
           break;
       }
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::inc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::mask, Eigen::internal::pscatter(), Eigen::internal::pstorel(), Eigen::internal::pstores(), and Eigen::internal::pstoreu().

◆ c_update()

template<typename Scalar , bool is_unit_inc>

template<int max_b_unroll, int a_unroll, int b_unroll>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update	(	Scalar *&	co1,
		Scalar *&	co2
	)

inlineprivate

                                                                 {
     auto &alpha_reg = zmm[alpha_load_reg];
  
     co2 = co1 + ldc;
     if (!is_alpha1) alpha_reg = pload1<vec>(alpha);
     if (!is_unit_inc && a_unroll < nelems_in_cache_line) mask = static_cast<umask_t>((1ull << a_unroll) - 1);
  
     static_assert(max_b_unroll <= 8, "Unsupported max_b_unroll");
  
     if (1 <= max_b_unroll && 1 <= b_unroll) c_update_1pow<1, a_unroll>(co1, co2);
     if (2 <= max_b_unroll && 2 <= b_unroll) c_update_1pow<2, a_unroll>(co1, co2);
     if (4 <= max_b_unroll && 4 <= b_unroll) c_update_1pow<4, a_unroll>(co1, co2);
     if (8 <= max_b_unroll && 8 <= b_unroll) c_update_1pow<8, a_unroll>(co1, co2);
  
     if (b_unroll == 1)
       co1 += ldc;
     else
       co1 = co2 + ldc;
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::alpha, Eigen::internal::gemm_class< Scalar, is_unit_inc >::alpha_load_reg, Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_alpha1, Eigen::internal::gemm_class< Scalar, is_unit_inc >::ldc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::mask, Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm.

◆ c_update_1count()

template<typename Scalar , bool is_unit_inc>

template<int pow, int a_unroll, int idx>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update_1count ( Scalar *& cox )

inlineprivate

                                                          {
     if (pow >= 4) cox += ldc;
  
     const int um_vecs = numext::div_ceil(a_unroll, nelems_in_cache_line);
     auto &alpha_reg = zmm[alpha_load_reg];
  
     scale_load_c<0, um_vecs, idx, a_unroll>(cox, alpha_reg);
     write_c<0, um_vecs, idx, a_unroll>(cox);
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::alpha_load_reg, Eigen::numext::div_ceil(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::ldc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line, Eigen::bfloat16_impl::pow(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm.

◆ c_update_1pow()

template<typename Scalar , bool is_unit_inc>

template<int pow, int a_unroll>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update_1pow	(	Scalar *&	co1,
		Scalar *&	co2
	)

inlineprivate

                                                                      {
     constexpr int idx = pow / 2;
     Scalar *&cox = idx == 0 ? co1 : co2;
  
     constexpr int max_count = (pow + 1) / 2;
     static_assert(max_count <= 4, "Unsupported max_count.");
  
     if (1 <= max_count) c_update_1count<pow, a_unroll, idx + 0>(cox);
     if (2 <= max_count) c_update_1count<pow, a_unroll, idx + 1>(cox);
     if (3 <= max_count) c_update_1count<pow, a_unroll, idx + 2>(cox);
     if (4 <= max_count) c_update_1count<pow, a_unroll, idx + 3>(cox);
   }

References Eigen::bfloat16_impl::pow().

◆ compute() [1/2]

template<typename Scalar , bool is_unit_inc>

template<int um, int um_vecs, int idx, int uk, bool fetch_x, bool ktail>

EIGEN_ALWAYS_INLINE std::enable_if_t<(um > um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute	(	const Scalar *	ao,
		const Scalar *	bo,
		int &	fetchA_idx,
		int &	fetchB_idx,
		vec &	b_reg
	)

inlineprivate

                                                                                             {
     EIGEN_UNUSED_VARIABLE(ao);
     EIGEN_UNUSED_VARIABLE(bo);
     EIGEN_UNUSED_VARIABLE(fetchA_idx);
     EIGEN_UNUSED_VARIABLE(fetchB_idx);
     EIGEN_UNUSED_VARIABLE(b_reg);
   }

References plotDoE::bo, and EIGEN_UNUSED_VARIABLE.

◆ compute() [2/2]

template<typename Scalar , bool is_unit_inc>

template<int um, int um_vecs, int idx, int uk, bool fetch_x, bool ktail>

EIGEN_ALWAYS_INLINE std::enable_if_t<(um <= um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute	(	const Scalar *	ao,
		const Scalar *	bo,
		int &	fetchA_idx,
		int &	fetchB_idx,
		vec &	b_reg
	)

inlineprivate

                                                                                              {
     if (um < um_vecs) {
       auto &c_reg = zmm[c_regs[um + idx * 3]];
       auto &a_reg = zmm[a_regs[um + (uk % 2) * 3]];
  
       vfmadd(c_reg, a_reg, b_reg);
  
       if (!fetch_x && um == 0 &&
           (((idx == 0 || idx == 6) && (uk % 2 == 0 || is_f64 || ktail)) ||
            (idx == 3 && (uk % 2 == 1 || is_f64 || ktail)))) {
         prefetch_a(ao + nelems_in_cache_line * fetchA_idx);
         fetchA_idx++;
       }
  
       if (um == 0 && idx == 1 && (uk % 2 == 0 || is_f64 || ktail)) {
         prefetch_b(bo + nelems_in_cache_line * fetchB_idx);
         fetchB_idx++;
       }
  
       compute<um + 1, um_vecs, idx, uk, fetch_x, ktail>(ao, bo, fetchA_idx, fetchB_idx, b_reg);
     }
   }

◆ compute_kern()

template<typename Scalar , bool is_unit_inc>

template<int max_a_unroll, int max_b_unroll>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern ( )

inline

                                           {
     a -= -a_shift;
     b -= -b_shift;
  
     const Scalar *ao = nullptr;
     const Scalar *bo = nullptr;
     Scalar *co1 = nullptr;
     Scalar *co2 = nullptr;
  
     // Main m-loop.
     for (; m >= max_a_unroll; m -= max_a_unroll) mloop<max_a_unroll, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
  
     // m-remainders.
     if (m & 32 && max_a_unroll > 32) mloop<32, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
     if (m & 16 && max_a_unroll > 16) mloop<16, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
     if (m & 8 && max_a_unroll > 8) mloop<8, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
     if (m & 4 && max_a_unroll > 4) mloop<4, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
     if (m & 2 && max_a_unroll > 2 && is_f64) mloop<2, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
     if (m & 1 && max_a_unroll > 1 && is_f64) mloop<1, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
  
     // Copy kernels don't support tails of m = 2 for single precision.
     // Loop over ones.
     if (is_f32) {
       int m_rem = 2 * ((m & 2) != 0) + 1 * ((m & 1) != 0);
       while (m_rem > 0) {
         mloop<1, max_a_unroll, max_b_unroll>(ao, bo, co1, co2);
         m_rem--;
       }
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::a, Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_shift, Eigen::internal::gemm_class< Scalar, is_unit_inc >::b, Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_shift, plotDoE::bo, Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_f32, Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_f64, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::m.

◆ innerkernel()

template<typename Scalar , bool is_unit_inc>

template<int a_unroll, int b_unroll, int k_factor, int max_b_unroll, int max_k_factor, bool c_fetch, bool no_a_preload = false>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel	(	const Scalar *&	aa,
		const Scalar *&	ao,
		const Scalar *&	bo,
		Scalar *&	co2
	)

inlineprivate

                                                                                                               {
     int fetchA_idx = 0;
     int fetchB_idx = 0;
  
     const bool fetch_x = k_factor == max_k_factor;
     const bool ktail = k_factor == 1;
  
     static_assert(k_factor <= 4 && k_factor > 0, "innerkernel maximum k_factor supported is 4");
     static_assert(no_a_preload == false || (no_a_preload == true && k_factor == 1),
                   "skipping a preload only allowed when k unroll is 1");
  
     if (k_factor > 0)
       innerkernel_1uk<0, max_b_unroll, a_unroll, b_unroll, ktail, fetch_x, c_fetch, no_a_preload>(
           aa, ao, bo, co2, fetchA_idx, fetchB_idx);
     if (k_factor > 1)
       innerkernel_1uk<1, max_b_unroll, a_unroll, b_unroll, ktail, fetch_x, c_fetch, no_a_preload>(
           aa, ao, bo, co2, fetchA_idx, fetchB_idx);
     if (k_factor > 2)
       innerkernel_1uk<2, max_b_unroll, a_unroll, b_unroll, ktail, fetch_x, c_fetch, no_a_preload>(
           aa, ao, bo, co2, fetchA_idx, fetchB_idx);
     if (k_factor > 3)
       innerkernel_1uk<3, max_b_unroll, a_unroll, b_unroll, ktail, fetch_x, c_fetch, no_a_preload>(
           aa, ao, bo, co2, fetchA_idx, fetchB_idx);
  
     // Advance A/B pointers after uk-loop.
     ao += a_unroll * k_factor;
     bo += b_unroll * k_factor;
   }

References plotDoE::bo.

◆ innerkernel_1pow() [1/2]

template<typename Scalar , bool is_unit_inc>

template<int uk, int pow, int count, int um_vecs, int b_unroll, bool ktail, bool fetch_x, bool c_fetch>

EIGEN_ALWAYS_INLINE std::enable_if_t<(count >pow + 1) / 2)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow	(	const Scalar *&	aa,
		const Scalar *const &	ao,
		const Scalar *const &	bo,
		Scalar *&	co2,
		int &	fetchA_idx,
		int &	fetchB_idx
	)

inlineprivate

                                                                                                                    {
     EIGEN_UNUSED_VARIABLE(aa);
     EIGEN_UNUSED_VARIABLE(ao);
     EIGEN_UNUSED_VARIABLE(bo);
     EIGEN_UNUSED_VARIABLE(co2);
     EIGEN_UNUSED_VARIABLE(fetchA_idx);
     EIGEN_UNUSED_VARIABLE(fetchB_idx);
   }

References plotDoE::bo, and EIGEN_UNUSED_VARIABLE.

◆ innerkernel_1pow() [2/2]

template<typename Scalar , bool is_unit_inc>

template<int uk, int pow, int count, int um_vecs, int b_unroll, bool ktail, bool fetch_x, bool c_fetch>

EIGEN_ALWAYS_INLINE std::enable_if_t<(count <= (pow + 1) / 2)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow	(	const Scalar *&	aa,
		const Scalar *const &	ao,
		const Scalar *const &	bo,
		Scalar *&	co2,
		int &	fetchA_idx,
		int &	fetchB_idx
	)

inlineprivate

                                                                                                                     {
     const int idx = (pow / 2) + count;
  
     if (count < (pow + 1) / 2) {
       auto &b_reg = zmm[b_regs[idx % 2]];
  
       if (fetch_x && uk == 3 && idx == 0) prefetch_x(aa);
       if (fetch_x && uk == 3 && idx == 4) aa += 8;
  
       if (b_unroll >= pow) {
         compute<0, um_vecs, idx, uk, fetch_x, ktail>(ao, bo, fetchA_idx, fetchB_idx, b_reg);
  
         const Scalar *b_addr = bo + b_unroll * uk + idx + 1 + (b_unroll > 1) * !use_less_b_regs - b_shift;
         b_load(b_reg, b_addr);
       }
  
       // Go to the next count.
       innerkernel_1pow<uk, pow, count + 1, um_vecs, b_unroll, ktail, fetch_x, c_fetch>(aa, ao, bo, co2, fetchA_idx,
                                                                                        fetchB_idx);
  
     } else {
       // Maybe prefetch C data after count-loop.
       if (pow == 2 && c_fetch) {
         if (uk % 3 == 0 && uk > 0) {
           co2 += ldc;
         } else {
           prefetch_c(co2 + (uk % 3) * nelems_in_cache_line);
         }
       }
     }
   }

◆ innerkernel_1uk()

template<typename Scalar , bool is_unit_inc>

template<int uk, int max_b_unroll, int a_unroll, int b_unroll, bool ktail, bool fetch_x, bool c_fetch, bool no_a_preload = false>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1uk	(	const Scalar *&	aa,
		const Scalar *const &	ao,
		const Scalar *const &	bo,
		Scalar *&	co2,
		int &	fetchA_idx,
		int &	fetchB_idx
	)

inlineprivate

                                                                                            {
     const int um_vecs = numext::div_ceil(a_unroll, nelems_in_cache_line);
  
     if (max_b_unroll >= 1)
       innerkernel_1pow<uk, 1, 0, um_vecs, b_unroll, ktail, fetch_x, c_fetch>(aa, ao, bo, co2, fetchA_idx, fetchB_idx);
     if (max_b_unroll >= 2)
       innerkernel_1pow<uk, 2, 0, um_vecs, b_unroll, ktail, fetch_x, c_fetch>(aa, ao, bo, co2, fetchA_idx, fetchB_idx);
     if (max_b_unroll >= 4)
       innerkernel_1pow<uk, 4, 0, um_vecs, b_unroll, ktail, fetch_x, c_fetch>(aa, ao, bo, co2, fetchA_idx, fetchB_idx);
     if (max_b_unroll >= 8)
       innerkernel_1pow<uk, 8, 0, um_vecs, b_unroll, ktail, fetch_x, c_fetch>(aa, ao, bo, co2, fetchA_idx, fetchB_idx);
  
     // Load A after pow-loop. Skip this at the end to prevent running over the buffer
     if (!no_a_preload) load_a<0, um_vecs, uk, a_unroll, ktail>(ao);
   }

References plotDoE::bo, Eigen::numext::div_ceil(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line.

◆ kloop()

template<typename Scalar , bool is_unit_inc>

template<int a_unroll, int b_unroll, int max_b_unroll>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::kloop	(	const Scalar *&	aa,
		const Scalar *&	ao,
		const Scalar *&	bo,
		Scalar *&	co1,
		Scalar *&	co2
	)

inlineprivate

                                                                                                                       {
     const int um_vecs = numext::div_ceil(a_unroll, nelems_in_cache_line);
     if (!use_less_a_regs && k > 1)
       a_loads<0, 2, 0, um_vecs, a_unroll>(ao);
     else
       a_loads<0, 1, 0, um_vecs, a_unroll>(ao);
  
     b_load(zmm[b_regs[0]], bo - b_shift + 0);
     if (!use_less_b_regs) b_load(zmm[b_regs[1]], bo - b_shift + 1);
  
 #ifndef SECOND_FETCH
     prefetch_cs<0, max_b_unroll, 0, um_vecs, a_unroll, b_unroll>(co1, co2);
 #endif  // SECOND_FETCH
  
     // Unrolling k-loop by a factor of 4.
     const int max_k_factor = 4;
     Index kRem = k % max_k_factor;
     Index k_ = k - kRem;
     if (k_ >= max_k_factor) {
       k_ -= max_k_factor;
       kRem += max_k_factor;
     }
     Index loop_count = k_ / max_k_factor;
  
     if (loop_count > 0) {
 #ifdef SECOND_FETCH
       loop_count -= SECOND_FETCH;
 #endif
       while (loop_count > 0) {
         innerkernel<a_unroll, b_unroll, max_k_factor, max_b_unroll, max_k_factor, 0>(aa, ao, bo, co2);
         loop_count--;
       }
 #ifdef SECOND_FETCH
       co2 = co1 + nelems_in_cache_line - 1;
  
       loop_count += b_unroll;
       while (loop_count > 0) {
         innerkernel<a_unroll, b_unroll, max_k_factor, max_b_unroll, max_k_factor, 1>(aa, ao, bo, co2);
         loop_count--;
       }
  
       loop_count += SECOND_FETCH - b_unroll;
       while (loop_count > 0) {
         innerkernel<a_unroll, b_unroll, max_k_factor, max_b_unroll, max_k_factor, 0>(aa, ao, bo, co2);
         loop_count--;
       }
 #endif
     }
  
     // k-loop remainder handling.
     loop_count = kRem;
     while (loop_count > 1) {
       innerkernel<a_unroll, b_unroll, 1, max_b_unroll, max_k_factor, 0>(aa, ao, bo, co2);
       loop_count--;
     }
     if (loop_count > 0) {
       innerkernel<a_unroll, b_unroll, 1, max_b_unroll, max_k_factor, 0, true>(aa, ao, bo, co2);
     }
  
     // Update C matrix.
     c_update<max_b_unroll, a_unroll, b_unroll>(co1, co2);
   }

◆ load_a() [1/2]

template<typename Scalar , bool is_unit_inc>

template<int um, int um_vecs, int uk, int nelems, bool ktail>

EIGEN_ALWAYS_INLINE std::enable_if_t<(um > um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::load_a ( const Scalar * ao )

inlineprivate

                                                                               {
     EIGEN_UNUSED_VARIABLE(ao);
   }

References EIGEN_UNUSED_VARIABLE.

◆ load_a() [2/2]

template<typename Scalar , bool is_unit_inc>

template<int um, int um_vecs, int uk, int nelems, bool ktail>

EIGEN_ALWAYS_INLINE std::enable_if_t<(um <= um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::load_a ( const Scalar * ao )

inlineprivate

                                                                                {
     if (um < um_vecs) {
       auto &a_reg = zmm[a_regs[um + (uk % 2) * 3]];
       const Scalar *a_addr = ao + nelems * (1 + !ktail * !use_less_a_regs + uk) + nelems_in_cache_line * um - a_shift;
       a_load<nelems>(a_reg, a_addr);
  
       load_a<um + 1, um_vecs, uk, nelems, ktail>(ao);
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_regs, Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_shift, Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line, Eigen::internal::gemm_class< Scalar, is_unit_inc >::use_less_a_regs, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm.

◆ mloop()

template<typename Scalar , bool is_unit_inc>

template<int a_unroll, int max_a_unroll, int max_b_unroll>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop	(	const Scalar *&	ao,
		const Scalar *&	bo,
		Scalar *&	co1,
		Scalar *&	co2
	)

inlineprivate

                                                                                                    {
     // Set prefetch A pointers.
     const Scalar *aa = a + a_unroll * a_stride;
  
     // Set C matrix pointers.
     co1 = c;
     if (a_unroll >= max_a_unroll) co2 = c + 2 * ldc;
     if (is_unit_inc)
       c += a_unroll;
     else
       c += a_unroll * inc;
  
     // Set B matrix pointer.
     bo = b;
  
     // Main n-loop.
     for (Index i = n / max_b_unroll; i > 0; i--) nloop<a_unroll, max_b_unroll, max_b_unroll>(aa, ao, bo, co1, co2);
  
     // n-remainders.
     if (n & 4 && max_b_unroll > 4) nloop<a_unroll, 4, max_b_unroll>(aa, ao, bo, co1, co2);
 #if 0
         if (n & 2 && max_b_unroll > 2) nloop<a_unroll, 2, max_b_unroll>(aa, ao, bo, co1, co2);
         if (n & 1 && max_b_unroll > 1) nloop<a_unroll, 1, max_b_unroll>(aa, ao, bo, co1, co2);
 #else
     // Copy kernels don't support tails of n = 2 for single/double precision.
     // Loop over ones.
     int n_rem = 2 * ((n & 2) != 0) + 1 * ((n & 1) != 0);
     while (n_rem > 0) {
       nloop<a_unroll, 1, max_b_unroll>(aa, ao, bo, co1, co2);
       n_rem--;
     }
 #endif
  
     // Advance A matrix pointer.
     a = ao + a_unroll * (a_stride - k - a_off);
   }

◆ nloop()

template<typename Scalar , bool is_unit_inc>

template<int a_unroll, int b_unroll, int max_b_unroll>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::nloop	(	const Scalar *&	aa,
		const Scalar *&	ao,
		const Scalar *&	bo,
		Scalar *&	co1,
		Scalar *&	co2
	)

inlineprivate

                                                                                                                       {
     // Set A matrix pointer.
     ao = a + a_off * a_unroll;
  
     // Set B matrix pointer if needed.
     bo += b_unroll * b_off;
  
     kloop<a_unroll, b_unroll, max_b_unroll>(aa, ao, bo, co1, co2);
  
     // Advance B matrix pointer if needed.
     bo += b_unroll * (b_stride - k - b_off);
  
     // Advance prefetch A pointer.
     aa += 16;
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::a, Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_off, Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_off, Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_stride, plotDoE::bo, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::k.

◆ prefetch_a()

template<typename Scalar , bool is_unit_inc>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_a ( const Scalar * a_addr )

inlineprivate

                                                             {
     _mm_prefetch((char *)(a_prefetch_size + a_addr - a_shift), _MM_HINT_T0);
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_prefetch_size, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_shift.

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute().

◆ prefetch_b()

template<typename Scalar , bool is_unit_inc>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_b ( const Scalar * b_addr )

inlineprivate

                                                             {
     _mm_prefetch((char *)(b_prefetch_size + b_addr - b_shift), _MM_HINT_T0);
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_prefetch_size, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_shift.

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute().

◆ prefetch_c()

template<typename Scalar , bool is_unit_inc>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_c ( const Scalar * c_addr )

inlineprivate

                                                             {
 #if defined(__PRFCHW__) && __PRFCHW__ == 1
     _m_prefetchw((void *)c_addr);
 #else
     _mm_prefetch((char *)c_addr, _MM_HINT_T0);
 #endif
   }

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_cs().

◆ prefetch_cs() [1/2]

template<typename Scalar , bool is_unit_inc>

template<int un, int max_b_unroll, int i, int um_vecs, int a_unroll, int b_unroll>

EIGEN_ALWAYS_INLINE std::enable_if_t<(un > max_b_unroll) \|\| (i > um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_cs	(	const Scalar *	co1,
		const Scalar *	co2
	)

inlineprivate

                                                                                                             {
     EIGEN_UNUSED_VARIABLE(co1);
     EIGEN_UNUSED_VARIABLE(co2);
   }

References EIGEN_UNUSED_VARIABLE.

◆ prefetch_cs() [2/2]

template<typename Scalar , bool is_unit_inc>

template<int un, int max_b_unroll, int i, int um_vecs, int a_unroll, int b_unroll>

EIGEN_ALWAYS_INLINE std::enable_if_t<(un <= max_b_unroll) && (i <= um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_cs	(	Scalar *&	co1,
		Scalar *&	co2
	)

inlineprivate

                                                                                                                      {
     if (un < max_b_unroll) {
       if (b_unroll >= un + 1) {
         if (un == 4 && i == 0) co2 = co1 + 4 * ldc;
  
         if (i < um_vecs) {
           Scalar *co = (un + 1 <= 4) ? co1 : co2;
           auto co_off = (un % 4) * ldc + a_unroll - 1 + i * nelems_in_cache_line * sizeof *co;
           prefetch_c(co + co_off);
  
           prefetch_cs<un, max_b_unroll, i + 1, um_vecs, a_unroll, b_unroll>(co1, co2);
         } else {
           prefetch_cs<un + 1, max_b_unroll, 0, um_vecs, a_unroll, b_unroll>(co1, co2);
         }
  
       } else {
         prefetch_cs<un + 1, max_b_unroll, 0, um_vecs, a_unroll, b_unroll>(co1, co2);
       }
     }
   }

References i, Eigen::internal::gemm_class< Scalar, is_unit_inc >::ldc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line, and Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_c().

◆ prefetch_x()

template<typename Scalar , bool is_unit_inc>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_x ( const Scalar * x_addr )

inlineprivate

101 { _mm_prefetch((char *)(x_addr - a_shift), _MM_HINT_T2); }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_shift.

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow().

◆ scale_load_c() [1/2]

template<typename Scalar , bool is_unit_inc>

template<int i, int um_vecs, int idx, int nelems>

EIGEN_ALWAYS_INLINE std::enable_if_t<(i > um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::scale_load_c	(	const Scalar *	cox,
		vec &	alpha_reg
	)

inlineprivate

                                                                                                     {
     EIGEN_UNUSED_VARIABLE(cox);
     EIGEN_UNUSED_VARIABLE(alpha_reg);
   }

References EIGEN_UNUSED_VARIABLE.

◆ scale_load_c() [2/2]

template<typename Scalar , bool is_unit_inc>

template<int i, int um_vecs, int idx, int nelems>

EIGEN_ALWAYS_INLINE std::enable_if_t<(i <= um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::scale_load_c	(	const Scalar *	cox,
		vec &	alpha_reg
	)

inlineprivate

                                                                                                      {
     if (i < um_vecs) {
       auto &c_reg = zmm[c_regs[i + idx * 3]];
       auto &c_load_reg = zmm[c_load_regs[i % 3]];
       auto c_mem = cox;
       if (is_unit_inc)
         c_mem += i * nelems_in_cache_line;
       else
         c_mem += i * nelems_in_cache_line * inc;
  
       if (!is_beta0 && is_alpha1)
         vaddm<nelems>(c_reg, c_mem, c_reg, c_load_reg);
       else if (!is_beta0 && !is_alpha1)
         vfmaddm<nelems>(c_reg, c_mem, c_reg, alpha_reg, c_load_reg);
       else if (is_beta0 && !is_alpha1)
         c_reg = pmul(alpha_reg, c_reg);
  
       scale_load_c<i + 1, um_vecs, idx, nelems>(cox, alpha_reg);
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_load_regs, Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_regs, i, Eigen::internal::gemm_class< Scalar, is_unit_inc >::inc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_alpha1, Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_beta0, Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line, Eigen::internal::pmul(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm.

◆ vaddm()

template<typename Scalar , bool is_unit_inc>

template<int nelems>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::vaddm	(	vec &	dst,
		const Scalar *	mem,
		vec &	src,
		vec &	reg
	)

inlineprivate

                                                                                   {
     if (is_unit_inc) {
       switch (nelems * sizeof(*mem) * 8) {
         default:
         case 512 * 3:
           dst = padd(src, ploadu<vec>(mem));
           break;
         case 512 * 2:
           dst = padd(src, ploadu<vec>(mem));
           break;
         case 512 * 1:
           dst = padd(src, ploadu<vec>(mem));
           break;
         case 256 * 1:
           dst = preinterpret<vec>(padd(preinterpret<vec_ymm>(src), ploadu<vec_ymm>(mem)));
           break;
         case 128 * 1:
           dst = preinterpret<vec>(padd(preinterpret<vec_xmm>(src), ploadu<vec_xmm>(mem)));
           break;
         case 64 * 1:
           dst = preinterpret<vec>(padd(preinterpret<vec_xmm>(src), ploadl<vec_xmm>(mem)));
           break;
         case 32 * 1:
           dst = preinterpret<vec>(padds(preinterpret<vec_xmm>(src), ploads<vec_xmm>(mem)));
           break;
       }
     } else {
       // Zero out scratch register
       reg = pzero(reg);
  
       switch (nelems * sizeof(*mem) * 8) {
         default:
         case 512 * 3:
           reg = pgather<Scalar, vec>(mem, inc);
           dst = padd(src, reg);
           break;
         case 512 * 2:
           reg = pgather<Scalar, vec>(mem, inc);
           dst = padd(src, reg);
           break;
         case 512 * 1:
           reg = pgather<Scalar, vec>(mem, inc);
           dst = padd(src, reg);
           break;
         case 256 * 1:
           reg = preinterpret<vec>(pgather<Scalar, vec_ymm>(mem, inc));
           dst = preinterpret<vec>(padd(preinterpret<vec_ymm>(src), preinterpret<vec_ymm>(reg)));
           break;
         case 128 * 1:
           reg = preinterpret<vec>(pgather<Scalar, vec_xmm>(mem, inc));
           dst = preinterpret<vec>(padd(preinterpret<vec_xmm>(src), preinterpret<vec_xmm>(reg)));
           break;
         case 64 * 1:
           if (is_f32) {
             reg = pgather(reg, mem, inc, mask);
             dst = preinterpret<vec>(padd(preinterpret<vec_xmm>(src), preinterpret<vec_xmm>(reg)));
           } else {
             dst = preinterpret<vec>(padd(preinterpret<vec_xmm>(src), ploadl<vec_xmm>(mem)));
           }
           break;
         case 32 * 1:
           dst = preinterpret<vec>(padds(preinterpret<vec_xmm>(src), ploads<vec_xmm>(mem)));
           break;
       }
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::inc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_f32, Eigen::internal::gemm_class< Scalar, is_unit_inc >::mask, Eigen::internal::padd(), Eigen::internal::padds(), Eigen::internal::pgather(), and Eigen::internal::pzero().

◆ vfmadd()

template<typename Scalar , bool is_unit_inc>

EIGEN_STRONG_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::vfmadd	(	vec &	dst,
		const vec &	src1,
		const vec &	src2
	)

inlineprivate

                                                                               {
     dst = pmadd(src1, src2, dst);
  
 #if (EIGEN_COMP_GNUC != 0) || (EIGEN_COMP_CLANG != 0)
     // Workaround register spills for gcc and clang
     __asm__("#" : [dst] "+v"(dst) : [src1] "%v"(src1), [src2] "v"(src2));
 #endif
   }

References Eigen::internal::pmadd().

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute().

◆ vfmaddm()

template<typename Scalar , bool is_unit_inc>

template<int nelems>

EIGEN_ALWAYS_INLINE void Eigen::internal::gemm_class< Scalar, is_unit_inc >::vfmaddm	(	vec &	dst,
		const Scalar *	mem,
		vec &	src,
		vec &	scale,
		vec &	reg
	)

inlineprivate

                                                                                                 {
     if (is_unit_inc) {
       switch (nelems * sizeof(*mem) * 8) {
         default:
         case 512 * 3:
           dst = pmadd(scale, src, ploadu<vec>(mem));
           break;
         case 512 * 2:
           dst = pmadd(scale, src, ploadu<vec>(mem));
           break;
         case 512 * 1:
           dst = pmadd(scale, src, ploadu<vec>(mem));
           break;
         case 256 * 1:
           dst =
               preinterpret<vec>(pmadd(preinterpret<vec_ymm>(scale), preinterpret<vec_ymm>(src), ploadu<vec_ymm>(mem)));
           break;
         case 128 * 1:
           dst =
               preinterpret<vec>(pmadd(preinterpret<vec_xmm>(scale), preinterpret<vec_xmm>(src), ploadu<vec_xmm>(mem)));
           break;
         case 64 * 1:
           dst =
               preinterpret<vec>(pmadd(preinterpret<vec_xmm>(scale), preinterpret<vec_xmm>(src), ploadl<vec_xmm>(mem)));
           break;
         case 32 * 1:
           dst =
               preinterpret<vec>(pmadds(preinterpret<vec_xmm>(scale), preinterpret<vec_xmm>(src), ploads<vec_xmm>(mem)));
           break;
       }
     } else {
       // Zero out scratch register
       reg = pzero(reg);
  
       switch (nelems * sizeof(*mem) * 8) {
         default:
         case 512 * 3:
           reg = pgather<Scalar, vec>(mem, inc);
           dst = pmadd(scale, src, reg);
           break;
         case 512 * 2:
           reg = pgather<Scalar, vec>(mem, inc);
           dst = pmadd(scale, src, reg);
           break;
         case 512 * 1:
           reg = pgather<Scalar, vec>(mem, inc);
           dst = pmadd(scale, src, reg);
           break;
         case 256 * 1:
           reg = preinterpret<vec>(pgather<Scalar, vec_ymm>(mem, inc));
           dst = preinterpret<vec>(
               pmadd(preinterpret<vec_ymm>(scale), preinterpret<vec_ymm>(src), preinterpret<vec_ymm>(reg)));
           break;
         case 128 * 1:
           reg = preinterpret<vec>(pgather<Scalar, vec_xmm>(mem, inc));
           dst = preinterpret<vec>(
               pmadd(preinterpret<vec_xmm>(scale), preinterpret<vec_xmm>(src), preinterpret<vec_xmm>(reg)));
           break;
         case 64 * 1:
           if (is_f32) {
             reg = pgather(reg, mem, inc, mask);
             dst = preinterpret<vec>(
                 pmadd(preinterpret<vec_xmm>(scale), preinterpret<vec_xmm>(src), preinterpret<vec_xmm>(reg)));
           } else {
             dst = preinterpret<vec>(
                 pmadd(preinterpret<vec_xmm>(scale), preinterpret<vec_xmm>(src), ploadl<vec_xmm>(mem)));
           }
           break;
         case 32 * 1:
           dst =
               preinterpret<vec>(pmadds(preinterpret<vec_xmm>(scale), preinterpret<vec_xmm>(src), ploads<vec_xmm>(mem)));
           break;
       }
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::inc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_f32, Eigen::internal::gemm_class< Scalar, is_unit_inc >::mask, Eigen::internal::pgather(), Eigen::internal::pmadd(), and Eigen::internal::pzero().

◆ write_c() [1/2]

template<typename Scalar , bool is_unit_inc>

template<int i, int um_vecs, int idx, int nelems>

EIGEN_ALWAYS_INLINE std::enable_if_t<(i > um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::write_c ( Scalar * cox )

inlineprivate

                                                                          {
     EIGEN_UNUSED_VARIABLE(cox);
   }

References EIGEN_UNUSED_VARIABLE.

◆ write_c() [2/2]

template<typename Scalar , bool is_unit_inc>

template<int i, int um_vecs, int idx, int nelems>

EIGEN_ALWAYS_INLINE std::enable_if_t<(i <= um_vecs)> Eigen::internal::gemm_class< Scalar, is_unit_inc >::write_c ( Scalar * cox )

inlineprivate

                                                                           {
     if (i < um_vecs) {
       auto &c_reg = zmm[c_regs[i + idx * 3]];
       auto c_mem = cox;
       if (is_unit_inc)
         c_mem += i * nelems_in_cache_line;
       else
         c_mem += i * nelems_in_cache_line * inc;
  
       c_store<nelems>(c_mem, c_reg);
       c_reg = pzero(c_reg);
  
       write_c<i + 1, um_vecs, idx, nelems>(cox);
     }
   }

References Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_regs, i, Eigen::internal::gemm_class< Scalar, is_unit_inc >::inc, Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line, Eigen::internal::pzero(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm.

Member Data Documentation

◆ a

template<typename Scalar , bool is_unit_inc>

const Scalar* Eigen::internal::gemm_class< Scalar, is_unit_inc >::a

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::nloop().

◆ a_off

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_off

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::nloop().

◆ a_prefetch_size

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_prefetch_size = nelems_in_cache_line * 2

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_a().

◆ a_regs

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_regs[] = {0, 1, 2, use_less_a_regs ? 0 : 3, use_less_a_regs ? 1 : 4, use_less_a_regs ? 2 : 5}

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_loads(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::load_a().

◆ a_shift

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_shift = 128

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_loads(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::load_a(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_a(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_x().

◆ a_stride

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::a_stride

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop().

◆ alpha

template<typename Scalar , bool is_unit_inc>

const Scalar* Eigen::internal::gemm_class< Scalar, is_unit_inc >::alpha

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update().

◆ alpha_load_reg

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::alpha_load_reg = 0

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update_1count().

◆ b

template<typename Scalar , bool is_unit_inc>

const Scalar * Eigen::internal::gemm_class< Scalar, is_unit_inc >::b

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop().

◆ b_off

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_off

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::nloop().

◆ b_prefetch_size

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_prefetch_size = nelems_in_cache_line * 8

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_b().

◆ b_regs

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_regs[] = {6, use_less_b_regs ? 6 : 7}

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::kloop().

◆ b_shift

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_shift = 128

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::kloop(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_b().

◆ b_stride

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::b_stride

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::nloop().

◆ c

template<typename Scalar , bool is_unit_inc>

Scalar* Eigen::internal::gemm_class< Scalar, is_unit_inc >::c

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop().

◆ c_load_regs

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_load_regs[] = {1, 2, 6}

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::scale_load_c().

◆ c_regs

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_regs[]

staticconstexprprivate

Initial value:

= {
      8, 16, 24, 9, 17, 25, 10, 18, 26, 11, 19, 27, 12, 20, 28, 13, 21, 29, 14, 22, 30, 15, 23, 31,
  }

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::scale_load_c(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::write_c().

◆ inc

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::inc

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_store(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::scale_load_c(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::vaddm(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::vfmaddm(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::write_c().

◆ is_alpha1

template<typename Scalar , bool is_unit_inc>

const bool Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_alpha1

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::scale_load_c().

◆ is_beta0

template<typename Scalar , bool is_unit_inc>

const bool Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_beta0

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::scale_load_c().

◆ is_f32

template<typename Scalar , bool is_unit_inc>

constexpr bool Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_f32 = sizeof(Scalar) == sizeof(float)

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::vaddm(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::vfmaddm().

◆ is_f64

template<typename Scalar , bool is_unit_inc>

constexpr bool Eigen::internal::gemm_class< Scalar, is_unit_inc >::is_f64 = sizeof(Scalar) == sizeof(double)

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern().

◆ k

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::k

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::kloop(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::nloop().

◆ ldc

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::ldc

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update_1count(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::prefetch_cs().

◆ m

template<typename Scalar , bool is_unit_inc>

Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::m

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::compute_kern().

◆ mask

template<typename Scalar , bool is_unit_inc>

umask_t Eigen::internal::gemm_class< Scalar, is_unit_inc >::mask

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_store(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::c_update(), Eigen::internal::gemm_class< Scalar, is_unit_inc >::vaddm(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::vfmaddm().

◆ n

template<typename Scalar , bool is_unit_inc>

const Index Eigen::internal::gemm_class< Scalar, is_unit_inc >::n

private

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::mloop().

◆ nelems_in_cache_line

template<typename Scalar , bool is_unit_inc>

constexpr int Eigen::internal::gemm_class< Scalar, is_unit_inc >::nelems_in_cache_line = is_f32 ? 16 : 8

staticconstexprprivate

◆ use_less_a_regs

template<typename Scalar , bool is_unit_inc>

constexpr bool Eigen::internal::gemm_class< Scalar, is_unit_inc >::use_less_a_regs = !is_unit_inc

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::kloop(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::load_a().

◆ use_less_b_regs

template<typename Scalar , bool is_unit_inc>

constexpr bool Eigen::internal::gemm_class< Scalar, is_unit_inc >::use_less_b_regs = !is_unit_inc

staticconstexprprivate

Referenced by Eigen::internal::gemm_class< Scalar, is_unit_inc >::innerkernel_1pow(), and Eigen::internal::gemm_class< Scalar, is_unit_inc >::kloop().

◆ zmm

template<typename Scalar , bool is_unit_inc>

vec Eigen::internal::gemm_class< Scalar, is_unit_inc >::zmm[32]

private

The documentation for this class was generated from the following file:

GemmKernel.h

Public Member Functions

Private Types

Private Member Functions

Private Attributes

Static Private Attributes

Member Typedef Documentation

◆ umask_t

◆ vec

◆ vec_xmm

◆ vec_ymm

Constructor & Destructor Documentation

◆ gemm_class()

Member Function Documentation

◆ a_load()

◆ a_loads() [1/2]

◆ a_loads() [2/2]

◆ b_load()

◆ c_store()

◆ c_update()

◆ c_update_1count()

◆ c_update_1pow()

◆ compute() [1/2]

◆ compute() [2/2]

◆ compute_kern()

◆ innerkernel()

◆ innerkernel_1pow() [1/2]

◆ innerkernel_1pow() [2/2]

◆ innerkernel_1uk()

◆ kloop()

◆ load_a() [1/2]

◆ load_a() [2/2]

◆ mloop()

◆ nloop()

◆ prefetch_a()

◆ prefetch_b()

◆ prefetch_c()

◆ prefetch_cs() [1/2]

◆ prefetch_cs() [2/2]

◆ prefetch_x()

◆ scale_load_c() [1/2]

◆ scale_load_c() [2/2]

◆ vaddm()

◆ vfmadd()

◆ vfmaddm()

◆ write_c() [1/2]

◆ write_c() [2/2]

Member Data Documentation

◆ a

◆ a_off

◆ a_prefetch_size

◆ a_regs

◆ a_shift

◆ a_stride

◆ alpha

◆ alpha_load_reg

◆ b

◆ b_off

◆ b_prefetch_size

◆ b_regs

◆ b_shift

◆ b_stride

◆ c

◆ c_load_regs

◆ c_regs

◆ inc

◆ is_alpha1

◆ is_beta0

◆ is_f32

◆ is_f64

◆ k

◆ ldc

◆ m

◆ mask

◆ n

◆ nelems_in_cache_line

◆ use_less_a_regs

◆ use_less_b_regs

◆ zmm