Ворклог по задаче "Ресерч Qwen coder"
16 июн. 2026 г., 07:04:43
Qwen3-14B-UD-Q4_K_XL.gguf не взлетает- памяти не хватает.
ggml_backend_cuda_buffer_type_alloc_buffer: allocating 15640.00 MiB on device 0: cudaMalloc failed: out of memory
llama-1 | 0.08.435.021 E alloc_tensor_range: failed to allocate CUDA0 buffer of size 16399728640
Вот тут я сам проигрался. У меня оказывается контекст 100 000 токенов был выставлен, и память вся сжиралась на кеш.
Уменьшил контекст до 1 000. Это, конечно, вообще ни о чем, но пойдет для замера. Потребление памяти 6 гигов.
10 000 контекст - 7.5 гигов
50 000 контекст - 13.7 гига. Уже в притые, но и 50к контекст - вполне так уже для экспериментов должно хватить.