Задача Поресерчить теорию ЛЛМ токенайзеров, токенов и векторов
Поресерчить теорию ЛЛМ токенайзеров, токенов и векторов
Чот у меня идея тут возникла, что хотя слова нельзя напрямую трансформировать в смыслы и области в векторном пространстве, все же, видится зацепка. Если верить поверхностному изучению, что токенайзер всегда один и тот же текст переведет в один и тот же набор веторов. И хотя мы не можем для себя применить огромного множество векторов для быстрого понимания текста в деталях, кажется мне, что этот механизм можно использовать для довольно быстрого общего понимания приходящих сообщений. То есть, условно, можно примерно понять Вопрос это или Утверждение, какие предметы упоминаются в сообщении и т.п. (то есть Автобус, Машина, Мопед должны быть где-то близко в векторном пространстве). Можно подготовить какой-то наборт текстов (включая и вопросы и ответы) и попробовать просто визуально сравнить получаемые наборы векторов (просто разложить из вертикально в столбик и добавить графики, которые бы сильно увеличивали бы визуально наиболее отклоняемые значения).
При хорошем результате можно было бы как минимум использовать это для быстрой предварительной подготовки данных и инструкции для ИИ агента, а так же принудительное выполнение профильных действий.