其中,第1章简单介绍 NLP 的基本任务和发展,为非 NLP 领域研究者提供参考;第2章介绍 LLM 的基本架构——Transformer,包括原理介绍及代码实现,作为 LLM 最重要的理论基础;第3章整体介绍经典的 PLM,包括 Encoder-Only、Encoder-Decoder 和 Decoder-Only 三种架构,也同时介绍了当前一些主流 LLM 的架构和思想;第4章则正式进入 ...
2024 年,随着边缘 SoC 算力正式迈入 6 TOPS 门槛,瑞芯微 RK3576 给出了首个可量产的答案:一套完整的多模态交互对话解决方案。 当 GPT-4o 用毫秒级响应处理图文混合指令、Gemini-1.5-Pro 以百万 token 上下文 “消化” 长文档时,行业的目光正从云端算力竞赛 ...
⭐⭐ 本项目基于Alpaca-CoT项目(一个多接口统一的轻量级LLM指令微调平台),目标是广泛收集开源的表格智能任务数据集(比如表格问答、表格-文本生成等),然后将【原始任务数据】整理为【指令微调格式的数据】并基于Alpaca-CoT项目微调相应的LLM,进而增强LLM ...
基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。预训练的LLM则负责理解和推理 ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com ...
3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出 ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出 ...
语音识别(ASR,Automatic Speech Recognition)是一种将语音转化为文字的技术,被广泛应用于智能语音交互和多媒体内容理解领域 ...
NVIDIA 的 TensorRT-LLM 现在支持具有飞行批处理功能的编码器-解码器模型,为 AI 应用提供优化的推理。探索 NVIDIA GPU 上生成式 AI 的增强功能。 NVIDIA 宣布对其开源库 TensorRT-LLM 进行重大更新,现在包括对具有飞行批处理功能的编码器-解码器模型架构的支持。根据 ...
教你如何结合Milvus向量数据库实现GraphRAG技术。 GraphRAG技术借助知识图谱,给RAG应用注入了新的动力,使其能够在海量数据中精确检索所需信息。本文将带你了解GraphRAG的实现方法,包括如何创建索引以及如何利用Milvus向量数据库进行查询,助你在信息检索的道路 ...