#include <GeneralBlockPanelKernel.h>

Inheritance diagram for Eigen::internal::lhs_process_one_packet< nr, LhsProgress, RhsProgress, LhsScalar, RhsScalar, ResScalar, AccPacket, LhsPacket, RhsPacket, ResPacket, GEBPTraits, LinearMapper, DataMapper >:

Public Types
typedef GEBPTraits::RhsPacketx4	RhsPacketx4

Public Member Functions
EIGEN_STRONG_INLINE void	peeled_kc_onestep (Index K, const LhsScalar blA, const RhsScalar blB, GEBPTraits traits, LhsPacket A0, RhsPacketx4 rhs_panel, RhsPacket T0, AccPacket C0, AccPacket C1, AccPacket C2, AccPacket *C3)

EIGEN_STRONG_INLINE void	operator() (const DataMapper &res, const LhsScalar blockA, const RhsScalar blockB, ResScalar alpha, Index peelStart, Index peelEnd, Index strideA, Index strideB, Index offsetA, Index offsetB, int prefetch_res_offset, Index peeled_kc, Index pk, Index cols, Index depth, Index packet_cols4)

Member Typedef Documentation

◆ RhsPacketx4

template<int nr, Index LhsProgress, Index RhsProgress, typename LhsScalar , typename RhsScalar , typename ResScalar , typename AccPacket , typename LhsPacket , typename RhsPacket , typename ResPacket , typename GEBPTraits , typename LinearMapper , typename DataMapper >

typedef GEBPTraits::RhsPacketx4 Eigen::internal::lhs_process_one_packet< nr, LhsProgress, RhsProgress, LhsScalar, RhsScalar, ResScalar, AccPacket, LhsPacket, RhsPacket, ResPacket, GEBPTraits, LinearMapper, DataMapper >::RhsPacketx4

Member Function Documentation

◆ operator()()

template<int nr, Index LhsProgress, Index RhsProgress, typename LhsScalar , typename RhsScalar , typename ResScalar , typename AccPacket , typename LhsPacket , typename RhsPacket , typename ResPacket , typename GEBPTraits , typename LinearMapper , typename DataMapper >

EIGEN_STRONG_INLINE void Eigen::internal::lhs_process_one_packet< nr, LhsProgress, RhsProgress, LhsScalar, RhsScalar, ResScalar, AccPacket, LhsPacket, RhsPacket, ResPacket, GEBPTraits, LinearMapper, DataMapper >::operator()	(	const DataMapper &	res,
		const LhsScalar *	blockA,
		const RhsScalar *	blockB,
		ResScalar	alpha,
		Index	peelStart,
		Index	peelEnd,
		Index	strideA,
		Index	strideB,
		Index	offsetA,
		Index	offsetB,
		int	prefetch_res_offset,
		Index	peeled_kc,
		Index	pk,
		Index	cols,
		Index	depth,
		Index	packet_cols4
	)

inline

                                                                                    {
     GEBPTraits traits;
     Index packet_cols8 = nr >= 8 ? (cols / 8) * 8 : 0;
     // loops on each largest micro horizontal panel of lhs
     // (LhsProgress x depth)
     for (Index i = peelStart; i < peelEnd; i += LhsProgress) {
 #if EIGEN_ARCH_ARM64 || EIGEN_ARCH_LOONGARCH64
       EIGEN_IF_CONSTEXPR(nr >= 8) {
         for (Index j2 = 0; j2 < packet_cols8; j2 += 8) {
           const LhsScalar* blA = &blockA[i * strideA + offsetA * (LhsProgress)];
           prefetch(&blA[0]);
  
           // gets res block as register
           AccPacket C0, C1, C2, C3, C4, C5, C6, C7;
           traits.initAcc(C0);
           traits.initAcc(C1);
           traits.initAcc(C2);
           traits.initAcc(C3);
           traits.initAcc(C4);
           traits.initAcc(C5);
           traits.initAcc(C6);
           traits.initAcc(C7);
  
           LinearMapper r0 = res.getLinearMapper(i, j2 + 0);
           LinearMapper r1 = res.getLinearMapper(i, j2 + 1);
           LinearMapper r2 = res.getLinearMapper(i, j2 + 2);
           LinearMapper r3 = res.getLinearMapper(i, j2 + 3);
           LinearMapper r4 = res.getLinearMapper(i, j2 + 4);
           LinearMapper r5 = res.getLinearMapper(i, j2 + 5);
           LinearMapper r6 = res.getLinearMapper(i, j2 + 6);
           LinearMapper r7 = res.getLinearMapper(i, j2 + 7);
           r0.prefetch(prefetch_res_offset);
           r1.prefetch(prefetch_res_offset);
           r2.prefetch(prefetch_res_offset);
           r3.prefetch(prefetch_res_offset);
           r4.prefetch(prefetch_res_offset);
           r5.prefetch(prefetch_res_offset);
           r6.prefetch(prefetch_res_offset);
           r7.prefetch(prefetch_res_offset);
           const RhsScalar* blB = &blockB[j2 * strideB + offsetB * 8];
           prefetch(&blB[0]);
  
           LhsPacket A0;
           for (Index k = 0; k < peeled_kc; k += pk) {
             RhsPacketx4 rhs_panel;
             RhsPacket T0;
 #define EIGEN_GEBGP_ONESTEP(K)                                    \
   do {                                                            \
     EIGEN_ASM_COMMENT("begin step of gebp micro kernel 1pX8");    \
     traits.loadLhs(&blA[(0 + 1 * K) * LhsProgress], A0);          \
     traits.loadRhs(&blB[(0 + 8 * K) * RhsProgress], rhs_panel);   \
     traits.madd(A0, rhs_panel, C0, T0, fix<0>);                   \
     traits.updateRhs(&blB[(1 + 8 * K) * RhsProgress], rhs_panel); \
     traits.madd(A0, rhs_panel, C1, T0, fix<1>);                   \
     traits.updateRhs(&blB[(2 + 8 * K) * RhsProgress], rhs_panel); \
     traits.madd(A0, rhs_panel, C2, T0, fix<2>);                   \
     traits.updateRhs(&blB[(3 + 8 * K) * RhsProgress], rhs_panel); \
     traits.madd(A0, rhs_panel, C3, T0, fix<3>);                   \
     traits.loadRhs(&blB[(4 + 8 * K) * RhsProgress], rhs_panel);   \
     traits.madd(A0, rhs_panel, C4, T0, fix<0>);                   \
     traits.updateRhs(&blB[(5 + 8 * K) * RhsProgress], rhs_panel); \
     traits.madd(A0, rhs_panel, C5, T0, fix<1>);                   \
     traits.updateRhs(&blB[(6 + 8 * K) * RhsProgress], rhs_panel); \
     traits.madd(A0, rhs_panel, C6, T0, fix<2>);                   \
     traits.updateRhs(&blB[(7 + 8 * K) * RhsProgress], rhs_panel); \
     traits.madd(A0, rhs_panel, C7, T0, fix<3>);                   \
     EIGEN_ASM_COMMENT("end step of gebp micro kernel 1pX8");      \
   } while (false)
  
             EIGEN_ASM_COMMENT("begin gebp micro kernel 1pX8");
  
             EIGEN_GEBGP_ONESTEP(0);
             EIGEN_GEBGP_ONESTEP(1);
             EIGEN_GEBGP_ONESTEP(2);
             EIGEN_GEBGP_ONESTEP(3);
             EIGEN_GEBGP_ONESTEP(4);
             EIGEN_GEBGP_ONESTEP(5);
             EIGEN_GEBGP_ONESTEP(6);
             EIGEN_GEBGP_ONESTEP(7);
  
             blB += pk * 8 * RhsProgress;
             blA += pk * (1 * LhsProgress);
  
             EIGEN_ASM_COMMENT("end gebp micro kernel 1pX8");
           }
           // process remaining peeled loop
           for (Index k = peeled_kc; k < depth; k++) {
             RhsPacketx4 rhs_panel;
             RhsPacket T0;
             EIGEN_GEBGP_ONESTEP(0);
             blB += 8 * RhsProgress;
             blA += 1 * LhsProgress;
           }
  
 #undef EIGEN_GEBGP_ONESTEP
  
           ResPacket R0, R1;
           ResPacket alphav = pset1<ResPacket>(alpha);
  
           R0 = r0.template loadPacket<ResPacket>(0);
           R1 = r1.template loadPacket<ResPacket>(0);
           traits.acc(C0, alphav, R0);
           traits.acc(C1, alphav, R1);
           r0.storePacket(0, R0);
           r1.storePacket(0, R1);
  
           R0 = r2.template loadPacket<ResPacket>(0);
           R1 = r3.template loadPacket<ResPacket>(0);
           traits.acc(C2, alphav, R0);
           traits.acc(C3, alphav, R1);
           r2.storePacket(0, R0);
           r3.storePacket(0, R1);
  
           R0 = r4.template loadPacket<ResPacket>(0);
           R1 = r5.template loadPacket<ResPacket>(0);
           traits.acc(C4, alphav, R0);
           traits.acc(C5, alphav, R1);
           r4.storePacket(0, R0);
           r5.storePacket(0, R1);
  
           R0 = r6.template loadPacket<ResPacket>(0);
           R1 = r7.template loadPacket<ResPacket>(0);
           traits.acc(C6, alphav, R0);
           traits.acc(C7, alphav, R1);
           r6.storePacket(0, R0);
           r7.storePacket(0, R1);
         }
       }
 #endif
  
       // loops on each largest micro vertical panel of rhs (depth * nr)
       for (Index j2 = packet_cols8; j2 < packet_cols4; j2 += 4) {
         // We select a LhsProgress x nr micro block of res
         // which is entirely stored into 1 x nr registers.
  
         const LhsScalar* blA = &blockA[i * strideA + offsetA * (LhsProgress)];
         prefetch(&blA[0]);
  
         // gets res block as register
         AccPacket C0, C1, C2, C3;
         traits.initAcc(C0);
         traits.initAcc(C1);
         traits.initAcc(C2);
         traits.initAcc(C3);
         // To improve instruction pipelining, let's double the accumulation registers:
         //  even k will accumulate in C*, while odd k will accumulate in D*.
         // This trick is crucial to get good performance with FMA, otherwise it is
         // actually faster to perform separated MUL+ADD because of a naturally
         // better instruction-level parallelism.
         AccPacket D0, D1, D2, D3;
         traits.initAcc(D0);
         traits.initAcc(D1);
         traits.initAcc(D2);
         traits.initAcc(D3);
  
         LinearMapper r0 = res.getLinearMapper(i, j2 + 0);
         LinearMapper r1 = res.getLinearMapper(i, j2 + 1);
         LinearMapper r2 = res.getLinearMapper(i, j2 + 2);
         LinearMapper r3 = res.getLinearMapper(i, j2 + 3);
  
         r0.prefetch(prefetch_res_offset);
         r1.prefetch(prefetch_res_offset);
         r2.prefetch(prefetch_res_offset);
         r3.prefetch(prefetch_res_offset);
  
         // performs "inner" products
         const RhsScalar* blB = &blockB[j2 * strideB + offsetB * 4];
         prefetch(&blB[0]);
         LhsPacket A0, A1;
  
         for (Index k = 0; k < peeled_kc; k += pk) {
           EIGEN_ASM_COMMENT("begin gebp micro kernel 1/half/quarterX4");
           RhsPacketx4 rhs_panel;
           RhsPacket T0;
  
           internal::prefetch(blB + (48 + 0));
           peeled_kc_onestep(0, blA, blB, traits, &A0, &rhs_panel, &T0, &C0, &C1, &C2, &C3);
           peeled_kc_onestep(1, blA, blB, traits, &A1, &rhs_panel, &T0, &D0, &D1, &D2, &D3);
           peeled_kc_onestep(2, blA, blB, traits, &A0, &rhs_panel, &T0, &C0, &C1, &C2, &C3);
           peeled_kc_onestep(3, blA, blB, traits, &A1, &rhs_panel, &T0, &D0, &D1, &D2, &D3);
           internal::prefetch(blB + (48 + 16));
           peeled_kc_onestep(4, blA, blB, traits, &A0, &rhs_panel, &T0, &C0, &C1, &C2, &C3);
           peeled_kc_onestep(5, blA, blB, traits, &A1, &rhs_panel, &T0, &D0, &D1, &D2, &D3);
           peeled_kc_onestep(6, blA, blB, traits, &A0, &rhs_panel, &T0, &C0, &C1, &C2, &C3);
           peeled_kc_onestep(7, blA, blB, traits, &A1, &rhs_panel, &T0, &D0, &D1, &D2, &D3);
  
           blB += pk * 4 * RhsProgress;
           blA += pk * LhsProgress;
  
           EIGEN_ASM_COMMENT("end gebp micro kernel 1/half/quarterX4");
         }
         C0 = padd(C0, D0);
         C1 = padd(C1, D1);
         C2 = padd(C2, D2);
         C3 = padd(C3, D3);
  
         // process remaining peeled loop
         for (Index k = peeled_kc; k < depth; k++) {
           RhsPacketx4 rhs_panel;
           RhsPacket T0;
           peeled_kc_onestep(0, blA, blB, traits, &A0, &rhs_panel, &T0, &C0, &C1, &C2, &C3);
           blB += 4 * RhsProgress;
           blA += LhsProgress;
         }
  
         ResPacket R0, R1;
         ResPacket alphav = pset1<ResPacket>(alpha);
  
         R0 = r0.template loadPacket<ResPacket>(0);
         R1 = r1.template loadPacket<ResPacket>(0);
         traits.acc(C0, alphav, R0);
         traits.acc(C1, alphav, R1);
         r0.storePacket(0, R0);
         r1.storePacket(0, R1);
  
         R0 = r2.template loadPacket<ResPacket>(0);
         R1 = r3.template loadPacket<ResPacket>(0);
         traits.acc(C2, alphav, R0);
         traits.acc(C3, alphav, R1);
         r2.storePacket(0, R0);
         r3.storePacket(0, R1);
       }
  
       // Deal with remaining columns of the rhs
       for (Index j2 = packet_cols4; j2 < cols; j2++) {
         // One column at a time
         const LhsScalar* blA = &blockA[i * strideA + offsetA * (LhsProgress)];
         prefetch(&blA[0]);
  
         // gets res block as register
         AccPacket C0;
         traits.initAcc(C0);
  
         LinearMapper r0 = res.getLinearMapper(i, j2);
  
         // performs "inner" products
         const RhsScalar* blB = &blockB[j2 * strideB + offsetB];
         LhsPacket A0;
  
         for (Index k = 0; k < peeled_kc; k += pk) {
           EIGEN_ASM_COMMENT("begin gebp micro kernel 1/half/quarterX1");
           RhsPacket B_0;
  
 #define EIGEN_GEBGP_ONESTEP(K)                                             \
   do {                                                                     \
     EIGEN_ASM_COMMENT("begin step of gebp micro kernel 1/half/quarterX1"); \
     EIGEN_ASM_COMMENT("Note: these asm comments work around bug 935!");    \
     /* FIXME: why unaligned???? */                                         \
     traits.loadLhsUnaligned(&blA[(0 + 1 * K) * LhsProgress], A0);          \
     traits.loadRhs(&blB[(0 + K) * RhsProgress], B_0);                      \
     traits.madd(A0, B_0, C0, B_0, fix<0>);                                 \
     EIGEN_ASM_COMMENT("end step of gebp micro kernel 1/half/quarterX1");   \
   } while (false);
  
           EIGEN_GEBGP_ONESTEP(0);
           EIGEN_GEBGP_ONESTEP(1);
           EIGEN_GEBGP_ONESTEP(2);
           EIGEN_GEBGP_ONESTEP(3);
           EIGEN_GEBGP_ONESTEP(4);
           EIGEN_GEBGP_ONESTEP(5);
           EIGEN_GEBGP_ONESTEP(6);
           EIGEN_GEBGP_ONESTEP(7);
  
           blB += pk * RhsProgress;
           blA += pk * LhsProgress;
  
           EIGEN_ASM_COMMENT("end gebp micro kernel 1/half/quarterX1");
         }
  
         // process remaining peeled loop
         for (Index k = peeled_kc; k < depth; k++) {
           RhsPacket B_0;
           EIGEN_GEBGP_ONESTEP(0);
           blB += RhsProgress;
           blA += LhsProgress;
         }
 #undef EIGEN_GEBGP_ONESTEP
         ResPacket R0;
         ResPacket alphav = pset1<ResPacket>(alpha);
         R0 = r0.template loadPacket<ResPacket>(0);
         traits.acc(C0, alphav, R0);
         r0.storePacket(0, R0);
       }
     }
   }

References alpha, Global_Physical_Variables::C1, Global_Physical_Variables::C2, cols, EIGEN_ASM_COMMENT, EIGEN_GEBGP_ONESTEP, EIGEN_IF_CONSTEXPR, i, k, Eigen::internal::padd(), Eigen::internal::lhs_process_one_packet< nr, LhsProgress, RhsProgress, LhsScalar, RhsScalar, ResScalar, AccPacket, LhsPacket, RhsPacket, ResPacket, GEBPTraits, LinearMapper, DataMapper >::peeled_kc_onestep(), Eigen::internal::prefetch(), and res.

◆ peeled_kc_onestep()

template<int nr, Index LhsProgress, Index RhsProgress, typename LhsScalar , typename RhsScalar , typename ResScalar , typename AccPacket , typename LhsPacket , typename RhsPacket , typename ResPacket , typename GEBPTraits , typename LinearMapper , typename DataMapper >

EIGEN_STRONG_INLINE void Eigen::internal::lhs_process_one_packet< nr, LhsProgress, RhsProgress, LhsScalar, RhsScalar, ResScalar, AccPacket, LhsPacket, RhsPacket, ResPacket, GEBPTraits, LinearMapper, DataMapper >::peeled_kc_onestep	(	Index	K,
		const LhsScalar *	blA,
		const RhsScalar *	blB,
		GEBPTraits	traits,
		LhsPacket *	A0,
		RhsPacketx4 *	rhs_panel,
		RhsPacket *	T0,
		AccPacket *	C0,
		AccPacket *	C1,
		AccPacket *	C2,
		AccPacket *	C3
	)

inline

                                                                                           {
     EIGEN_ASM_COMMENT("begin step of gebp micro kernel 1X4");
     EIGEN_ASM_COMMENT("Note: these asm comments work around bug 935!");
     traits.loadLhs(&blA[(0 + 1 * K) * LhsProgress], *A0);
     traits.loadRhs(&blB[(0 + 4 * K) * RhsProgress], *rhs_panel);
     traits.madd(*A0, *rhs_panel, *C0, *T0, fix<0>);
     traits.madd(*A0, *rhs_panel, *C1, *T0, fix<1>);
     traits.madd(*A0, *rhs_panel, *C2, *T0, fix<2>);
     traits.madd(*A0, *rhs_panel, *C3, *T0, fix<3>);
 #if EIGEN_GNUC_STRICT_AT_LEAST(6, 0, 0) && defined(EIGEN_VECTORIZE_SSE) && !(EIGEN_COMP_LCC)
     __asm__("" : "+x,m"(*A0));
 #endif
     EIGEN_ASM_COMMENT("end step of gebp micro kernel 1X4");
   }

References Global_Physical_Variables::C1, Global_Physical_Variables::C2, EIGEN_ASM_COMMENT, and PlanarWave::K.

Referenced by Eigen::internal::lhs_process_one_packet< nr, LhsProgress, RhsProgress, LhsScalar, RhsScalar, ResScalar, AccPacket, LhsPacket, RhsPacket, ResPacket, GEBPTraits, LinearMapper, DataMapper >::operator()().

The documentation for this struct was generated from the following file:

products/GeneralBlockPanelKernel.h

Public Types

Public Member Functions

Member Typedef Documentation

◆ RhsPacketx4

Member Function Documentation

◆ operator()()

◆ peeled_kc_onestep()