nndeploy C++ API  0.2.0
nndeploy C++ API
Namespaces
nndeploy Namespace Reference

Namespaces

 base
 
 classification
 
 codec
 
 dag
 
 detect
 
 device
 
 infer
 
 inference
 
 ir
 
 llm
 
 matting
 
 net
 
 ocr
 
 op
 
 preprocess
 
 qwen
 
 segment
 
 stable_diffusion
 
 super_resolution
 
 thread_pool
 
 tokenizer
 
 track
 

Detailed Description

@ZhaodeWang 基于

  1. mnn/transformers/llm/engine/src/embedding.cpp
  2. mnn/transformers/llm/engine/src/llm.hpp
  3. mnn/transformers/llm/engine/src/diskembedding.hpp
  4. mnn/transformers/llm/engine/src/diskembedding.cpp 实现,有如下方案 方案1: 直接把mnn的实现代码抽出来,封装在两个类中 方案2: 在另外的文件种实现mnn代码的功能,这两个作为门面类,调用函数

讨论: 1. 是否可以把genPastKeyValue、genAttentionMask、genPositionIds挪到llm_infer种实现

  1. Embedding在prifill和decode阶段共用一份embedding权重,如何优化?
  2. 如何实现diskembedding

@ZhaodeWang 包装Infer、MnnLllmInfer或者其他类的实现

讨论:

  1. 将genPastKeyValue、genAttentionMask、genPositionIds挪到llm_infer种实现
  2. 如何一份模型,给prifill和decode两个阶段使用

@ZhaodeWang 基于

  1. mnn/transformers/llm/engine/src/sampler.hpp
  2. mnn/transformers/llm/engine/src/sampler.cpp 实现,有如下方案 方案1: 直接把mnn的实现代码抽出来,封装在两个类中 方案2: 在另外的文件种实现mnn代码的功能,这两个作为门面类,调用函数