0.0.17/Doxygen/gemv_8tpp_source.html

#pragma once


#include <batmat/assume.hpp>

#include <batmat/linalg/micro-kernels/gemv.hpp>

#include <batmat/linalg/uview.hpp>

#include <batmat/loop.hpp>

#include <batmat/lut.hpp>

#include <batmat/ops/rotate.hpp>


#define UNROLL_FOR(...) BATMAT_FULLY_UNROLLED_FOR (__VA_ARGS__)


namespace batmat::linalg::micro_kernels::gemv {


template <class T, class Abi, KernelConfig Conf, StorageOrder OA>

inline const constinit auto gemv_copy_lut =

    make_1d_lut<RowsReg<T, Abi>>([]<index_t Row>(index_constant<Row>) {

        return gemv_copy_microkernel<T, Abi, Conf, Row + 1, OA>;

    });


/// Generalized matrix-vector multiplication d = c ± A⁽ᵀ⁾ b. Single register block.

template <class T, class Abi, KernelConfig Conf, index_t RowsReg, StorageOrder OA>

[[gnu::hot, gnu::flatten]] void


gemv_copy_microkernel(const uview<const T, Abi, OA> A,

                      const uview<const T, Abi, StorageOrder::ColMajor> B,

                      const std::optional<uview<const T, Abi, StorageOrder::ColMajor>> C,

                      const uview<T, Abi, StorageOrder::ColMajor> D, const index_t k) noexcept {

    static_assert(RowsReg > 0);

    using enum MatrixStructure;

    using namespace ops;

    using simd = datapar::simd<T, Abi>;

    BATMAT_ASSUME(k > 0);

    if constexpr (OA == StorageOrder::RowMajor) {

        // Load accumulator into registers

        simd C_reg[RowsReg]; // NOLINT(*-c-arrays)

        if (C) [[likely]] {

            UNROLL_FOR (index_t ii = 0; ii < RowsReg; ++ii)

                C_reg[ii] = rotl<Conf.rotate_C>(C->load(ii, 0));

        } else {

            UNROLL_FOR (index_t ii = 0; ii < RowsReg; ++ii)

                C_reg[ii] = simd{0};

        }

        // Matrix-vector multiplication kernel

        const auto A_cached = with_cached_access<RowsReg, 0>(A);

        for (index_t l = 0; l < k; ++l) {

            UNROLL_FOR (index_t ii = 0; ii < RowsReg; ++ii) {

                simd Ail  = shiftl<Conf.shift_A>(A_cached.load(ii, l));

                simd &Cij = C_reg[ii];

                simd Blj  = rotl<Conf.rotate_B>(B.load(l, 0));

                Conf.negate ? (Cij -= Ail * Blj) : (Cij += Ail * Blj);

            }

        }

        // Store accumulator to memory again

        UNROLL_FOR (index_t ii = 0; ii < RowsReg; ++ii)

            D.template store<Conf.mask_D>(rotr<Conf.rotate_D>(C_reg[ii]), ii, 0);

    } else {

        // Load B into registers

        simd B_reg[RowsReg]; // NOLINT(*-c-arrays)

        UNROLL_FOR (index_t l = 0; l < RowsReg; ++l)

            B_reg[l] = rotl<Conf.rotate_B>(B.load(l, 0));

        // Matrix-vector multiplication kernel

        const auto A_cached = with_cached_access<0, RowsReg>(A);

        if (C) [[likely]] {

            for (index_t i = 0; i < k; ++i) {

                simd Cij = rotl<Conf.rotate_C>(C->load(i, 0));

                UNROLL_FOR (index_t ll = 0; ll < RowsReg; ++ll) {

                    simd Ail = shiftl<Conf.shift_A>(A_cached.load(i, ll));

                    Conf.negate ? (Cij -= Ail * B_reg[ll]) : (Cij += Ail * B_reg[ll]);

                }

                D.template store<Conf.mask_D>(rotr<Conf.rotate_D>(Cij), i, 0);

            }

        } else {

            for (index_t i = 0; i < k; ++i) {

                simd Cij{0};

                UNROLL_FOR (index_t ll = 0; ll < RowsReg; ++ll) {

                    simd Ail = shiftl<Conf.shift_A>(A_cached.load(i, ll));

                    Conf.negate ? (Cij -= Ail * B_reg[ll]) : (Cij += Ail * B_reg[ll]);

                }

                D.template store<Conf.mask_D>(rotr<Conf.rotate_D>(Cij), i, 0);

            }

        }

    }

}


/// Generalized matrix multiplication d = c ± A⁽ᵀ⁾ b. Using register blocking.

template <class T, class Abi, KernelConfig Conf, StorageOrder OA>


void gemv_copy_register(const view<const T, Abi, OA> A, const view<const T, Abi> B,

                        const std::optional<view<const T, Abi>> C, const view<T, Abi> D) noexcept {

    using enum MatrixStructure;

    constexpr auto Rows = RowsReg<T, Abi>;

    // Check dimensions

    const index_t I = D.rows(), K = A.cols();

    BATMAT_ASSUME(A.rows() == I);

    BATMAT_ASSUME(B.rows() == K);

    BATMAT_ASSUME(B.cols() == 1);

    BATMAT_ASSUME(D.cols() == 1);

    BATMAT_ASSUME(I > 0);

    BATMAT_ASSUME(K > 0);

    static const auto microkernel = gemv_copy_lut<T, Abi, Conf, OA>;

    // Sizeless views to partition and pass to the micro-kernels

    const uview<const T, Abi, OA> A_                                    = A;

    const uview<const T, Abi, StorageOrder::ColMajor> B_                = B;

    const std::optional<uview<const T, Abi, StorageOrder::ColMajor>> C_ = C;

    const uview<T, Abi, StorageOrder::ColMajor> D_                      = D;


    if constexpr (OA == StorageOrder::RowMajor) {

        if (I <= Rows)

            return microkernel[I - 1](A_, B_, C_, D_, K);

        foreach_chunked_merged(0, I, Rows, [&](index_t i, auto ni) {

            auto Cj = C_ ? std::make_optional(C_->middle_rows(i)) : std::nullopt;

            microkernel[ni - 1](A_.middle_rows(i), B_, Cj, D_.middle_rows(i), K);

        });

    } else {

        if (K <= Rows)

            return microkernel[K - 1](A_, B_, C_, D_, I);

        microkernel[Rows - 1](A_.middle_cols(0), B_.middle_rows(0), C_, D_, I);

        foreach_chunked_merged(Rows, K, Rows, [&](index_t k, auto nk) {

            microkernel[nk - 1](A_.middle_cols(k), B_.middle_rows(k), D_, D_, I);

        });

    }

}


} // namespace batmat::linalg::micro_kernels::gemv

assume.hpp

BATMAT_ASSUME
#define BATMAT_ASSUME(x)
Invokes undefined behavior if the expression x does not evaluate to true.
Definition assume.hpp:17

UNROLL_FOR
#define UNROLL_FOR(...)
Definition gemm-diag.tpp:10

batmat::linalg::MatrixStructure
MatrixStructure
Definition structure.hpp:8

batmat::make_1d_lut
consteval auto make_1d_lut(F f)
Returns an array of the form:
Definition lut.hpp:39

batmat::foreach_chunked_merged
void foreach_chunked_merged(index_t i_begin, index_t i_end, auto chunk_size, auto func_chunk, LoopDir dir=LoopDir::Forward)
Iterate over the range [i_begin, i_end) in chunks of size chunk_size, calling func_chunk for each chu...
Definition loop.hpp:43

loop.hpp

lut.hpp

gemv.hpp

batmat::datapar::simd
stdx::simd< Tp, Abi > simd
Definition simd.hpp:99

batmat::linalg::micro_kernels::gemv
Definition gemv.hpp:9

batmat::linalg::micro_kernels::gemv::gemv_copy_lut
const constinit auto gemv_copy_lut
Definition gemv.tpp:15

batmat::linalg::micro_kernels::gemv::gemv_copy_register
void gemv_copy_register(view< const T, Abi, OA > A, view< const T, Abi > B, std::optional< view< const T, Abi > > C, view< T, Abi > D) noexcept
Generalized matrix multiplication d = c ± A⁽ᵀ⁾ b. Using register blocking.
Definition gemv.tpp:86

batmat::linalg::micro_kernels::gemv::RowsReg
constexpr index_t RowsReg
Definition gemv.hpp:31

batmat::linalg::micro_kernels::gemv::gemv_copy_microkernel
void gemv_copy_microkernel(uview< const T, Abi, OA > A, uview< const T, Abi, StorageOrder::ColMajor > B, std::optional< uview< const T, Abi, StorageOrder::ColMajor > > C, uview< T, Abi, StorageOrder::ColMajor > D, index_t k) noexcept
Generalized matrix-vector multiplication d = c ± A⁽ᵀ⁾ b. Single register block.
Definition gemv.tpp:23

batmat::linalg::with_cached_access
cached_uview< Order==StorageOrder::ColMajor ? Cols :Rows, T, Abi, Order > with_cached_access(const uview< T, Abi, Order > &o) noexcept
Definition uview.hpp:228

batmat::linalg::view
simd_view_types< std::remove_const_t< T >, Abi >::template view< T, Order > view
Definition uview.hpp:70

batmat::ops
Definition cneg.hpp:11

batmat::index_constant
std::integral_constant< index_t, I > index_constant
Definition lut.hpp:10

rotate.hpp

batmat::linalg::uview
Definition uview.hpp:80

uview.hpp