Improve offline chat truncation to consider message separator tokens

2024-11-23 23:48:56 +01:00 · 2024-07-18 02:39:56 +05:30 · 2024-07-18 02:39:56 +05:30 · b0ee78586c
commit b0ee78586c
parent 6f46e6afc6
1 changed files with 3 additions and 2 deletions
--- a/src/khoj/processor/conversation/utils.py
+++ b/src/khoj/processor/conversation/utils.py
@ -186,7 +186,7 @@ def generate_chatml_messages_with_context(

 def truncate_messages(
    messages: list[ChatMessage],
-    max_prompt_size,
+    max_prompt_size: int,
    model_name: str,
    loaded_model: Optional[Llama] = None,
    tokenizer_name=None,
@ -232,7 +232,8 @@ def truncate_messages(
    tokens = sum([len(encoder.encode(message.content)) for message in messages if type(message.content) == str])

    # Drop older messages until under max supported prompt size by model
-    while (tokens + system_message_tokens) > max_prompt_size and len(messages) > 1:
+    # Reserves 4 tokens to demarcate each message (e.g <|im_start|>user, <|im_end|>, <|endoftext|> etc.)
+    while (tokens + system_message_tokens + 4 * len(messages)) > max_prompt_size and len(messages) > 1:
        messages.pop()
        tokens = sum([len(encoder.encode(message.content)) for message in messages if type(message.content) == str])