Ворклог по задаче "Ресерч Qwen coder"

16 июн. 2026 г., 07:04:43

Qwen3-14B-UD-Q4_K_XL.gguf не взлетает- памяти не хватает.

ggml_backend_cuda_buffer_type_alloc_buffer: allocating 15640.00 MiB on device 0: cudaMalloc failed: out of memory
llama-1  | 0.08.435.021 E alloc_tensor_range: failed to allocate CUDA0 buffer of size 16399728640

Вот тут я сам проигрался. У меня оказывается контекст 100 000 токенов был выставлен, и память вся сжиралась на кеш.

Уменьшил контекст до 1 000. Это, конечно, вообще ни о чем, но пойдет для замера. Потребление памяти 6 гигов.

10 000 контекст - 7.5 гигов

50 000 контекст - 13.7 гига. Уже в притые, но и 50к контекст - вполне так уже для экспериментов должно хватить.

Задача: Ресерч Qwen coder

16.06.2026