kernels-community
/

quantization

Model card Files Files and versions Community

quantization / ext-torch /torch_binding.h

danieldk's picture

danieldk HF staff

Add cutlass_w8a8

b4cad21 3 months ago

2.89 kB

	#pragma once

	#include <torch/torch.h>

	bool cutlass_scaled_mm_supports_fp8(int64_t cuda_device_capability);

	void cutlass_scaled_mm(torch::Tensor& out, torch::Tensor const& a,
	torch::Tensor const& b, torch::Tensor const& a_scales,
	torch::Tensor const& b_scales,
	c10::optional<torch::Tensor> const& bias);

	void cutlass_scaled_mm_azp(torch::Tensor& out, torch::Tensor const& a,
	torch::Tensor const& b,
	torch::Tensor const& a_scales,
	torch::Tensor const& b_scales,
	torch::Tensor const& azp_adj,
	c10::optional<torch::Tensor> const& azp,
	c10::optional<torch::Tensor> const& bias);