0.0.14/Doxygen/gemv_8hpp_source.html

#pragma once


#include <batmat/linalg/copy.hpp>

#include <batmat/linalg/micro-kernels/gemv.hpp>

#include <batmat/linalg/shift.hpp>

#include <batmat/linalg/simdify.hpp>

#include <batmat/linalg/triangular.hpp>

#include <batmat/linalg/uview.hpp>

#include <batmat/loop.hpp>

#include <batmat/matrix/storage.hpp>

#include <guanaqo/trace.hpp>


namespace batmat::linalg {


namespace detail {

template <class T, class Abi, micro_kernels::gemv::KernelConfig Conf = {}, StorageOrder OA>


void gemv(view<const T, Abi, OA> A, view<const T, Abi> B, std::optional<view<const T, Abi>> C,

          view<T, Abi> D) {

    GUANAQO_TRACE_LINALG("gemv", A.rows() * A.cols() * B.cols() * A.depth());

    // Check dimensions

    BATMAT_ASSERT(!C || C->rows() == D.rows());

    BATMAT_ASSERT(!C || C->cols() == D.cols());

    BATMAT_ASSERT(A.rows() == D.rows());

    BATMAT_ASSERT(A.cols() == B.rows());

    BATMAT_ASSERT(B.cols() == D.cols());

    BATMAT_ASSERT(B.cols() == 1);

    const index_t M = D.rows(), K = A.cols();


    // Degenerate case

    if (M == 0) [[unlikely]]

        return;

    if (K == 0) [[unlikely]] {

        // https://github.com/llvm/llvm-project/issues/146272

        constexpr detail::copy::CopyConfig rot{.rotate = Conf.rotate_C - Conf.rotate_D,

                                               .mask   = Conf.mask_D};

        constexpr detail::copy::FillConfig msk{.mask = Conf.mask_D};

        if (C)

            detail::copy::copy<T, Abi, rot>(*C, D);

        else

            detail::copy::fill<T, Abi, msk>(T{}, D);

        return;

    }

    micro_kernels::gemv::gemv_copy_register<T, Abi, Conf, OA>(A, B, C, D);

}


template <shift_opt... Opts>

constexpr micro_kernels::gemv::KernelConfig


apply_gemv_options(micro_kernels::gemv::KernelConfig conf, Opts...) {

    if (auto s = shift_A<Opts...>)

        conf.shift_A = *s;

    if (auto s = shift_B<Opts...>)

        conf.shift_B = *s;

    if (auto s = rotate_C<Opts...>)

        conf.rotate_C = *s;

    if (auto s = rotate_D<Opts...>)

        conf.rotate_D = *s;

    if (auto s = mask_D<Opts...>)

        conf.mask_D = *s;

    return conf;

}


} // namespace detail


/// @addtogroup topic-linalg

/// @{


/// @name Matrix-vector multiplication of batches of matrices

/// @{


/// d = A b

template <simdifiable VA, simdifiable VB, simdifiable VD, shift_opt... Opts>

    requires simdify_compatible<VA, VB, VD>


void gemv(VA &&A, VB &&B, VD &&D, Opts... opts) {

    constexpr auto conf = detail::apply_gemv_options({.negate = false}, opts...);

    std::optional<decltype(simdify(D).as_const())> null;

    detail::gemv<simdified_value_t<VA>, simdified_abi_t<VA>, conf>(

        simdify(A).as_const(), simdify(B).as_const(), null, simdify(D));

}


/// d = -A b

template <simdifiable VA, simdifiable VB, simdifiable VD, shift_opt... Opts>

    requires simdify_compatible<VA, VB, VD>


void gemv_neg(VA &&A, VB &&B, VD &&D, Opts... opts) {

    constexpr auto conf = detail::apply_gemv_options({.negate = true}, opts...);

    std::optional<decltype(simdify(D).as_const())> null;

    detail::gemv<simdified_value_t<VA>, simdified_abi_t<VA>, conf>(

        simdify(A).as_const(), simdify(B).as_const(), null, simdify(D));

}


/// d = c + A b

template <simdifiable VA, simdifiable VB, simdifiable VC, simdifiable VD, shift_opt... Opts>

    requires simdify_compatible<VA, VB, VC, VD>


void gemv_add(VA &&A, VB &&B, VC &&C, VD &&D, Opts... opts) {

    constexpr auto conf = detail::apply_gemv_options({.negate = false}, opts...);

    detail::gemv<simdified_value_t<VA>, simdified_abi_t<VA>, conf>(

        simdify(A).as_const(), simdify(B).as_const(), simdify(C).as_const(), simdify(D));

}


/// d = d + A b

template <simdifiable VA, simdifiable VB, simdifiable VD, shift_opt... Opts>

    requires simdify_compatible<VA, VB, VD>


void gemv_add(VA &&A, VB &&B, VD &&D, Opts... opts) {

    gemv_add(A, B, D, D, opts...);

}


/// d = c - A b

template <simdifiable VA, simdifiable VB, simdifiable VC, simdifiable VD, shift_opt... Opts>

    requires simdify_compatible<VA, VB, VC, VD>


void gemv_sub(VA &&A, VB &&B, VC &&C, VD &&D, Opts... opts) {

    constexpr auto conf = detail::apply_gemv_options({.negate = true}, opts...);

    detail::gemv<simdified_value_t<VA>, simdified_abi_t<VA>, conf>(

        simdify(A).as_const(), simdify(B).as_const(), simdify(C).as_const(), simdify(D));

}


/// d = d - A b

template <simdifiable VA, simdifiable VB, simdifiable VD, shift_opt... Opts>

    requires simdify_compatible<VA, VB, VD>


void gemv_sub(VA &&A, VB &&B, VD &&D, Opts... opts) {

    gemv_sub(A, B, D, D, opts...);

}


/// @}


/// @}


} // namespace batmat::linalg

BATMAT_ASSERT
#define BATMAT_ASSERT(x)
Definition assume.hpp:14

batmat::linalg::shift_opt
Definition shift.hpp:79

copy.hpp

guanaqo::StorageOrder
StorageOrder

batmat::linalg::gemv_add
void gemv_add(VA &&A, VB &&B, VC &&C, VD &&D, Opts... opts)
d = c + A b
Definition gemv.hpp:93

batmat::linalg::gemv
void gemv(VA &&A, VB &&B, VD &&D, Opts... opts)
d = A b
Definition gemv.hpp:73

batmat::linalg::gemv_neg
void gemv_neg(VA &&A, VB &&B, VD &&D, Opts... opts)
d = -A b
Definition gemv.hpp:83

batmat::linalg::gemv_sub
void gemv_sub(VA &&A, VB &&B, VC &&C, VD &&D, Opts... opts)
d = c - A b
Definition gemv.hpp:108

GUANAQO_TRACE_LINALG
#define GUANAQO_TRACE_LINALG(name, gflops)

loop.hpp

gemv.hpp

batmat::linalg::detail::copy::fill
void fill(T a, view< T, Abi, OB > B)
Definition copy.hpp:27

batmat::linalg::detail::copy::copy
void copy(view< const T, Abi, OA > A, view< T, Abi, OB > B)
Definition copy.hpp:68

batmat::linalg::detail::copy::CopyConfig
Definition copy.hpp:61

batmat::linalg::detail::copy::FillConfig
Definition copy.hpp:21

batmat::linalg::detail
Definition compress.hpp:13

batmat::linalg::detail::apply_gemv_options
constexpr micro_kernels::gemv::KernelConfig apply_gemv_options(micro_kernels::gemv::KernelConfig conf, Opts...)
Definition gemv.hpp:48

batmat::linalg::detail::gemv
void gemv(view< const T, Abi, OA > A, view< const T, Abi > B, std::optional< view< const T, Abi > > C, view< T, Abi > D)
Definition gemv.hpp:17

batmat::linalg::micro_kernels::gemv::KernelConfig::mask_D
int mask_D
Definition gemv.hpp:17

batmat::linalg::micro_kernels::gemv::KernelConfig::rotate_D
int rotate_D
Definition gemv.hpp:16

batmat::linalg::micro_kernels::gemv::KernelConfig::rotate_C
int rotate_C
Definition gemv.hpp:15

batmat::linalg::micro_kernels::gemv::KernelConfig::shift_A
int shift_A
Definition gemv.hpp:13

batmat::linalg::micro_kernels::gemv::gemv_copy_register
void gemv_copy_register(view< const T, Abi, OA > A, view< const T, Abi > B, std::optional< view< const T, Abi > > C, view< T, Abi > D) noexcept
Generalized matrix multiplication d = c ± A⁽ᵀ⁾ b. Using register blocking.
Definition gemv.tpp:79

batmat::linalg::micro_kernels::gemv::KernelConfig::shift_B
int shift_B
Definition gemv.hpp:14

batmat::linalg::micro_kernels::gemv::KernelConfig
Definition gemv.hpp:11

batmat::linalg
Definition compress.hpp:11

batmat::linalg::simdified_abi_t
typename detail::simdified_abi< V >::type simdified_abi_t
Definition simdify.hpp:204

batmat::linalg::rotate_C
constexpr std::optional< int > rotate_C
Definition shift.hpp:45

batmat::linalg::simdify_compatible
constexpr bool simdify_compatible
Definition simdify.hpp:207

batmat::linalg::mask_D
constexpr std::optional< int > mask_D
Definition shift.hpp:59

batmat::linalg::simdify
constexpr auto simdify(simdifiable auto &&a) -> simdified_view_t< decltype(a)>
Definition simdify.hpp:214

batmat::linalg::shift_B
constexpr std::optional< int > shift_B
Definition shift.hpp:38

batmat::linalg::rotate_D
constexpr std::optional< int > rotate_D
Definition shift.hpp:52

batmat::linalg::shift_A
constexpr std::optional< int > shift_A
Definition shift.hpp:31

batmat::linalg::view
simd_view_types< std::remove_const_t< T >, Abi >::template view< T, Order > view
Definition uview.hpp:70

shift.hpp

simdify.hpp

storage.hpp
Aligned allocation for matrix storage.

triangular.hpp

uview.hpp