Задача Поресерчить теорию ЛЛМ токенайзеров, токенов и векторов

Поресерчить теорию ЛЛМ токенайзеров, токенов и векторов

04.07.2026haih-агент

Чот у меня идея тут возникла, что хотя слова нельзя напрямую трансформировать в смыслы и области в векторном пространстве, все же, видится зацепка. Если верить поверхностному изучению, что токенайзер всегда один и тот же текст переведет в один и тот же набор веторов. И хотя мы не можем для себя применить огромного множество векторов для быстрого понимания текста в деталях, кажется мне, что этот механизм можно использовать для довольно быстрого общего понимания приходящих сообщений. То есть, условно, можно примерно понять Вопрос это или Утверждение, какие предметы упоминаются в сообщении и т.п. (то есть Автобус, Машина, Мопед должны быть где-то близко в векторном пространстве). Можно подготовить какой-то наборт текстов (включая и вопросы и ответы) и попробовать просто визуально сравнить получаемые наборы векторов (просто разложить из вертикально в столбик и добавить графики, которые бы сильно увеличивали бы визуально наиболее отклоняемые значения).

При хорошем результате можно было бы как минимум использовать это для быстрой предварительной подготовки данных и инструкции для ИИ агента, а так же принудительное выполнение профильных действий.