vllm.model_executor.layers.fla.ops.index ¶

prepare_chunk_indices ¶

prepare_chunk_indices(
    cu_seqlens: LongTensor, chunk_size: int
) -> LongTensor

Source code in vllm/model_executor/layers/fla/ops/index.py

@tensor_cache
def prepare_chunk_indices(
    cu_seqlens: torch.LongTensor, chunk_size: int
) -> torch.LongTensor:
    indices = torch.cat(
        [
            torch.arange(n)
            for n in triton.cdiv(prepare_lens(cu_seqlens), chunk_size).tolist()
        ]
    )
    return torch.stack([indices.eq(0).cumsum(0) - 1, indices], 1).to(cu_seqlens)

prepare_chunk_offsets ¶

prepare_chunk_offsets(
    cu_seqlens: LongTensor, chunk_size: int
) -> LongTensor

Source code in vllm/model_executor/layers/fla/ops/index.py

@tensor_cache
def prepare_chunk_offsets(
    cu_seqlens: torch.LongTensor, chunk_size: int
) -> torch.LongTensor:
    return torch.cat(
        [cu_seqlens.new_tensor([0]), triton.cdiv(prepare_lens(cu_seqlens), chunk_size)]
    ).cumsum(-1)

prepare_lens ¶

prepare_lens(cu_seqlens: LongTensor) -> LongTensor

Source code in vllm/model_executor/layers/fla/ops/index.py

@tensor_cache
def prepare_lens(cu_seqlens: torch.LongTensor) -> torch.LongTensor:
    return cu_seqlens[1:] - cu_seqlens[:-1]