Como reduzir custos de aplicações LLM com cache semântico

Nesse vídeo vamos entender como reduzir custos de aplicações LLM (chatbots e muito mais) adicionando uma camada de cache para reduzir as solicitações de API nos modelos de LLM como OpenAI por exemplo. Dataset: https://huggingface.co/datasets/llama... Notebook: https://github.com/infoslack/youtube/...