在转换词表前,您需要安装 Python(3.8+),并安装所需的软件包。
cd tools/convertorpip install -r ./requirements.txt
您可以按照以下步骤将词汇表转换为 mllm 词汇表。我们目前支持两种类型的分词器:Unigram 和 BPE。
python vocab.py --input_file=tokenizer.json --output_file=vocab.mllm --type=Unigram