笔记 - wangzf

LLM 应用评估方法验证评估的一般思路以调用大模型为核心的大模型开发相较传统的 AI 开发更注重验证迭代。由于可以快速构建出基于 LLM 的应用程序，在几分钟内定义一个 Prompt，并在几小时内得到反馈结果，那么停下来收集一千个测试样本就会显得极为繁琐。因为现在可以在没有任何训练样本的情况下得到结果。验证 …

Llm 阅读

2024-06-10

LLM 架构--Agent

Agent 简介在科技发展的历史中，人类一直期望追求智能化的实现，由此的幻想早已先行，有《机器人总动员》中的瓦力，有《终结者》中的 T-800，也有《最后的问题》中的模，人们试图打造一种可以自主完成预设目标的代理或实体，即智能体(AI Agents 或 Agents)，以协助人类完成各种各样繁琐的任务。多年 …

Llm 阅读

2024-03-23

LLM 架构--RAG

RAG 介绍 LLM 会产生误导性的 “幻觉”，依赖的信息可能过时，处理特定知识时效率不高，缺乏专业领域的深度洞察，同时在推理能力上也有所欠缺。正是在这样的背景下，检索增强生成技术（Retrieval-Augmented Generation，RAG）应时而生，成为 AI 时代的一大趋势。 RAG 通过在语言模型 …

Nlp 阅读

LLM 应用框架

2024-09-24

LLM 框架--Gradio

Gradio 简介 Gradio 使用 Gradio API 参考 Gradio 官网

Llm 阅读

2024-09-23

LLM 框架--Vector Database

向量数据库简介向量数据库是用于高效计算和管理大量向量数据的解决方案。向量数据库是一种专门用于存储和检索向量数据(embedding) 的数据库系统。它与传统的基于关系模型的数据库不同，它主要关注的是向量数据的特性和相似性。在向量数据库中，数据被表示为向量形式，每个向量代表一个数据项。这些向量可以是数 …

Llm 阅读

2024-08-04

LLM 框架--Streamlit

Streamlit 介绍 Streamlit 简介 Streamlit 是一个用于快速创建数据应用程序的开源 Python 库。它的设计目标是让数据科学家能够轻松地将数据分析和机器学习模型转化为具有交互性的 Web 应用程序，而无需深入了解 Web 开发。和常规 Web 框架，如 Flask/Django 的不同之 …

App 阅读

2024-06-15

预训练模型和 Prompt Pretrain 首先，需要了解什么是预训练模型，以及其带来的 Prerain + Fine-tuning 的范式。在很长的一段时间内，NLP 的任务采用的都是 Pretrain + Fine-tuning(Model Tuning)的解决方案，但是这种方案， …

Deeplearning 阅读

2024-03-23

LLM 模型--Gemma

Gemma 模型介绍 Gemma: Google 最新推出开源大语言模型(Google’s new open LLM) 2024 年 2 月 22 日，Google 发布了一系列最新的开放式大型语言模型 – Gemma！ Gemma 是基于 Gemini 技术推出的新型大型语言模 …

Bidirectional Encoder Representations from Transformers

fasttext 算法简介 fasttext 的模型与 CBOW 类似，实际上，fasttext 的确是由 CBOW 演变而来的。 CBOW 预测上下文的中间词，fasttext 预测文本标签。与 Word2Vec 算法的衍生物相同，稠密词向量也是训练神经网路的过程中得到的 fasttext 的输入是一段词的序列，即 …

Nlp 阅读

NLP 任务类型

2022-04-05

NLP-问答系统

NLP 问答系统简介基于关键词匹配的 NLP 问答系统基于 FEMA 表抽取实体、关系基于 Neo4j 图数据库存储基于 java SpringBoot 框架做后端接口基于 HanLP 进行实体识别根据用户输入的问题, 进行设备实体、失效模式实体识别, 名词为设备实体, …

Nlp 阅读

2022-04-05

NLP-词性标注

词性标注介绍词性是词汇基本的语法属性, 通常称为词类词性标注(part-of-speech tagging) 是在给定句子中判断每个词的语法范畴, 确定其词性并加以标注的过程. 例如: 表示人、地点、事物以及其他抽象概念的名称即为名词表示动作或状态变化的词为动词描述或修饰名词属性、状态的词为形容词词 …

概览

控制算法

控制算法概述什么是控制算法控制算法的目标，是让系统输出 $y$ 按照期望值 $r$ 变化，并在扰动、噪声和模型不确定性存在时尽可能保持稳定、快速、准确。从工程角度看，控制算法主要解决四个问题：系统是否稳定响应是否足够快超调和振荡是否可接受稳态误差是否足够小控制系统的基本组成控制系统通常由以下部分组成： …

2022-04-20

时间序列分析概述

Time Series

Timeseries 阅读

时间序列分析-描述性

2023-03-03

时间序列数据信息

趋势 Trend 趋势是时间序列的基本组成部分之一。它表示数据均值的长期变化，如图 1 所示。此图显示了一个示例时间序列，表示一家航空公司随时间变化的每月乘客数量。时间序列的平均水平随时间增加，代表明显的上升趋势。一些学习算法难以处理时间序列的趋势分量。因此，通常建议将其删除以获得时间序列的最佳建模。您可以使用 …

Timeseries 阅读

2023-03-03

时间序列可视化

时间序列图形时间序列的时间结构 Line Plots Lag Plots or Scatter Plots Autocorrelation Plots 时间序列的分布 Histograms and Density Plots 时间序列间隔上分布 Box and Whisker Plots Heat Maps 时间序列 …

Timeseries 阅读

2022-04-22

时间序列预处理

时间序列示例数据澳大利亚墨尔本市10年(1981-1990年)内的最低每日温度 import pandas as pd import matplotlib.pyplot as plt series = pd.read_csv( …

2023-03-06

卡尔曼滤波

卡尔曼滤波简介卡尔曼滤波(Kalman Filter, KF) 是一种优化估算算法(Optimal Estimation Algorithm)，常用于制导与导航控制系统、计算机视觉系统和信号处理领域。实际作用主要是：从受误差影响的传感器测量中估算出最佳的系统状态。什么是卡尔曼滤波？可以在任何含有不确定信息的动 …

Timeseries 阅读

2022-11-19

滤波算法

限幅滤波限幅滤波也叫程序判断滤波法方法: 根据经验判断, 确定两次采样允许的最大偏差值, 假设为 $\delta$, 每次检测到新的值时判断: 如果本次值与上次值之差小于等于 $\delta$, 则本次值有效如果本次值与上次值之差大于 $\delta$, 则本次值无效, 放弃本次值, 用上一次值代替本次值优点: …

时间序列趋势性和周期性

时间序列趋势性检测移动平均法在原时间序列内依次求连续若干期的平均数作为其某一期的趋势值，如此逐项递移求得一系列的移动平均数，形成一个平均数时间序列时间回归法使用回归分析中的最小二乘法，以时间 $t$ 或 $t$ 的函数为自变量拟合趋势方程。常用的趋势方程如下一阶线性方程二次、多次方程曲线指数曲线趋势其 …

Timeseries 阅读

统计性时间序列-频域分析

2023-03-14

小波分析

小波变换的维基百科介绍小波分析介绍小波分析（wavelet analysis）或小波变换（英语：wavelet transform）是指用有限长或快速衰减的“母小波”（mother wavelet）的振荡波形来表示信号。该波形被缩放和平移以匹配输入的信号。 “小波”（英语：wavelet）一词由吉恩·莫莱特和阿列克 …

Timeseries 阅读

2022-03-11

傅里叶变换

傅里叶分析傅立叶分析(Fourier Analysis) 是研究如何将数学函数分解为一系列更简单的三角函数的领域。傅立叶变换(Fourier Transfrom) 是该领域的一种工具，用于将函数分解为其分量频率。傅里叶变换基本概念傅立叶变换是一种工具，可让您获取信号并查看其中每个频率的功率。基本概念包括：信 …

Statistic 阅读

概览

2023-02-24

机器学习概览

Machine Learning

Machine learning 阅读

探索性数据分析

2023-02-27

探索性数据分析概述

探索性数据分析探索性数据分析简介探索性数据分析是上世纪六十年代提出，其方法由美国统计学家 John Tukey 提出的。探索性数据分析(Exploratory Data Analysis，简称 EDA)，是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、 …

Data analysis 阅读

2023-02-09

单变量数据探索分析

针对单变量观测分析，可以将数据按照类型拆分成数值型、类别型、时间类型、字符串(object 型)、图像。数值变量关于数值变量分析，一般会有下面几点：是否存在异常值数据的整体分布情况基于数值观察可以直接通过 Pandas 的 describe() 函数去观测数值数据的分位数，基于分位数判断这些数据是否符合 …

Data analysis 阅读

2023-02-09

交叉变量探索分析

在数据竞赛或者建模的时候，将变量的交叉分析划分为下面的三大块：特征和标签的关系分析：重点探讨特征与标签的关系，特征与标签是否强相关等等特征和特征的关系分析：重点观察特征之间的冗余关系，是否是衍生关系等等可视化的技巧：特征之间的分析是做不完的，很多情况下一般也就只会看到三阶左右的特征关系，但是当数据特征字段上百的 …

Data analysis 阅读

2023-02-08

全局数据探索分析

数据整体观测先对数据进行简单的观测，对数据有一个简单的了解 import pandas as pd df = pd.read_csv("sample.csv", header = None) df[1] = df[1].astype(str) df[10] = df[10].astype(float) …

Data analysis 阅读

无监督学习模型

2023-02-28

基于图论的聚类

基于图论的距离 Affinity Propagation Affinity Propagation，亲和力传播 Affinity Propagation 是一种基于图论的聚类算法，旨在识别数据中的 “exemplars”(代表点)和 “clusters”(簇)。 …

Machine learning 阅读

2023-02-26

PageRank

Machine learning 阅读

2023-02-24

高斯混合模型

高斯分布 1733年，法国数学家棣莫弗在一个赌博问题的探索中首次发现了正态分布的密度公式，而后由德国数学家高斯将正态分布发扬光大。高斯在拓展最小二乘法的工作中，引入正态分布作为误差分布，解决了对误差影响进行统计度量的问题，为后世的参数估计、假设检验等一系列统计分析奠定了基础。高斯关于正态分布的工作对数理统计的发展做 …

Machine learning 阅读

2023-02-24

特征采样-分类任务

不平衡数据集的问题描述样本类别样本不平衡(class-imbalance)数据集是指一个类中的示例数量与另一类中的示例数量显著不同的情况。例如在一个二元分类问题中，一个类只占总样本的一小部分，这被称为不平衡数据集。类不平衡会在构建机器学习模型时导致很多问题。一般地，常情况下样本类别比例(imbalance …

Feature engine 阅读

2022-09-13

广义线性模型

广义线性模型概览模型介绍在统计学上，广义线性模型(Generalized Linear Model, GLM)是一种应用灵活的线性回归模型。该模型允许因变量的偏差分布有除了正态分布之外的其他分布。此模型假设实验者所测量的随机变量的分布函数与实验中系统性效应（即非随机的效应）可经由链接函数（link …

Machine learning 阅读

2022-09-23

广义加性模型

广义加性模型简介广义加性模型(GAM)作为回归家族的一个扩展，是最强大的模型之一，可以为任何回归问题建模线性模型简单、直观、便于理解，但是，在现实生活中，变量的作用通常不是线性的。线性的假设很可能不能满足实际需求，甚至直接违背实际情况 1985 年 Stone 提出加性模型(additive models)，模型 …

Machine learning 阅读

2022-09-13

GBDT 简介 GBDT 特点集成学习 Boosting 一族将多个弱学习器(或称基学习器)提升为强学习器，像 AdaBoost、GBDT 等都属于“加性模型”(Additive Model)，即基学习器的线性组合 1997年 Freund 和 Schapire 提出的 AdaBoost 先从初始训练集训练出一个基 …

PyAV 是FFmpeg库的 Pythonic 绑定。我们的目标是提供底层库的所有功能和控制，但尽可能多地管理细节 PyAV 用于通过容器、流、数据包、编解码器和帧直接和精确地访问您的媒体。它公开了该数据的一些转换，并帮助您将数据传入/传出其他包（例如 Numpy 和 Pillow）安装 $ pip install …

Video 阅读

概览

2022-04-05

NLP：Nature Language Processing

NLP 介绍自然语言处理(Nature Language Processing, NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言。NLP 包括多方面和步骤，基本有认知、理解、生成等部分。自然语言认知和理解是让计算机把输入的语言变成有意思的符号和关系，然后根据目的再进行处理。所以简单来 …

NLP 库

机器翻译 Machine Translation

Nlp 阅读

2022-12-02

文本生成 Text Generation

Nlp 阅读

卷积神经网络

2023-03-23

ZFNet

ZFNet 简介在 2013 年的 ILSVRC 大赛中，Zeiler 和 Fergus 在 AlexNet 的基础上对其进行了微调提出了 ZFNet，使得 top5 的错误率下降到 11.2%，夺得当年的第一 ZFNet 网络结构参考

Deeplearning 阅读

2023-03-23

VGG-Net

VGG-16、VGG-19

Deeplearning 阅读

2023-03-23

ShuffleNet-v1

Deeplearning 阅读

2023-03-23

ResNet

ResNet 简介梯度消失和爆炸深度卷积网络一开始面临的最主要的问题是梯度消失和梯度爆炸。那什么是梯度消失和梯度爆炸呢？所谓梯度消失，就是在深层神经网络的训练过程中，计算得到的梯度越来越小，使得权值得不到更新的情形，这样算法也就失效了。而梯度爆炸则是相反的情况，是指在神经网络训练过程中梯度变得越来越大，权值得到 …

Deeplearning 阅读

2023-03-23

CNN 发展历史 CNN 在计算机视觉的三大领域: 图像识别、目标检测、语义分割(图像分割) 有着广泛的应用 1985年，Rumelhart 和 Hinton 等人提出了反向传播算法，Back-Propagaion，即著名的反向传播算法训练神经网络模型，奠定了神经网络的理论基础深度学习三巨头(Yann …

Deeplearning 阅读

图像分割

2022-07-15

图像分割概述

Image Segment

Deeplearning 阅读

图像分类

2022-07-15

图像分类概述

参考 CNN图像分类发家史之从LeNet5到ResNet 使用 Google Colab 训练的图像分类模型

Deeplearning 阅读

图像处理

2023-04-29

图像及图像处理概览

数字图像概述相比于直观的数据处理，图像处理更抽象和复杂。因为在处理数据时，我们和计算机处理的是同一个对象–数据。与处理数据相比，处理图像的情况稍显复杂。我们擅长理解图像，而计算机擅长理解数值。在处理图像时，我们要把图像转换为数值，再交给计算机来处理。这意味着，我们要从自身擅长的领域，转换到我们不太擅 …

Computer vision 阅读

2022-08-14

Scipy Matplotlib Skimage 图像处理

numpy scipy.ndimage Scipy.ndimage Scipy-Numpy skimage skimage-doc skimage-tutorial matplotlib 任务 Input/Output, displaying images Basic manipulations: cropping, …

Computer vision 阅读

2022-03-10

Pillow 图像处理

Pillow 概览 PIL: Python Imaging Library, Python 图像处理库，提供了如下的功能: Image Archives, 图像存档和批处理图像读取(read image) 图像打印(print image) 图像缩略图(create thumbnails) 图像格式变 …

Computer vision 阅读

2022-03-10

OpenCV 图像处理

OpenCV 简介 OpenCV 基本信息 OpenCV (Open Source Computer Vision Library)，一个开源的计算机视觉库，官方网站为 http://opencv.org。它提供了很多函数，这些函数非常高效地实现了计算机视觉算法，从最基本的滤波到高级的物体检测皆有涵盖。 1999 …

Stable Diffusion

Stable Diffusion 简介 Stable Diffusion 是 CompVis、Stability AI 和 LAION 等公司研发的一个文生图模型，它的模型和代码是开源的，而且训练数据 LAION-5B 也是开源的。由于Stable Diffusion 是一个完全开源的模型（代码、数据、模型），而且 …

Deeplearning 阅读

2023-04-29

光学字符识别

Text Detection OCR

Computer vision 阅读

2022-08-31

OpenCV 人脸检测

目标简介目标: 使用 Flask API 部署 OpenCV App 进行人脸检测实现技术: Flask Flask 是一个广泛使用的微型 Web 框架，用于在 Python 中构建 API。它是一个简单而强大的 Web 框架，旨在快速轻松地启动，并能够扩展到复杂的应用程序 OpenCV OpenCV …

Computer vision 阅读

2022-07-15

CNN-风格迁移

style-transfer

最优化算法最优化算法，即最优计算方法，也是运筹学。最优化同运筹学一样，是利用现代数学、系统科学、计算机科学及其他学科的最新成果，来研究人类从事的各种活动中处理事务的数量化规律，使有限的人、物、财、时空、信息等资源得到充分和合理的利用，以期获得尽可能满意的经济和社会效果。最优化算法的内容包括：规划论线性规 …

Optimizer algorithm 阅读

启发式算法

2024-09-30

蚁群算法

Ant Colony Algorithm

Optimizer algorithm 阅读

2024-09-30

模拟退火算法

Simulated Annealing Algorithm

Optimizer algorithm 阅读

2024-09-04

粒子群算法

Particle Swarm Optimization

Optimizer algorithm 阅读

2023-03-30

遗传算法

Genetic Algorithm

Optimizer algorithm 阅读

LLM Embedding 调用

LLM 调用

LLM 概览

LLM 架构--RAG 应用

LLM 架构--Eval

LLM 架构--Agent

LLM 架构--RAG

LLM 框架--Gradio

LLM 框架--Vector Database

LLM 框架--Streamlit

LLM 框架--Huggingface

LLM 框架--LangChain

LLM 应用--聚类任务

LLM 应用--文本生成

LLM 应用--推荐任务

LLM 应用--句子分类

LLM 应用--Token 分类

LLM 应用--相似匹配

LLM 架构--Prompt

LLM 模型--Gemma

BPE 算法

LLM 应用-Llama 3.1 8B

LLM 模型--Llama

LLM 应用--ChatGPT

T5

GPT

Attention

Transformer

Seq2Seq

BERT

语言模型训练

语言模型架构

语言模型数据

语言模型概览

模型预训练

GloVe

Word2Vec

Word Embedding

模型蒸馏

FastText

NLP-问答系统

NLP-词性标注

NLP-纠错

NLP-特征提取

NLP-文本聚类

NLP-文本分类

NLP-指代消解

NLP-情感分析

NLP-命名实体识别

NLP-句法分析

NLP-分词

NLP-关键词提取

NLP-Solr 搜索引擎

控制算法

序列预测算法

根因分析

埋点

用户画像

A/B test

因果推断

贝叶斯网路

概率论

相关性

Sobol 灵敏度分析

DoWhy：因果推断框架

统计方差分析

统计因子分析

统计因果分析

读统计之都《因果推断简介》系列文章

统计假设检验

统计学知识

贪心算法

数据结构

分治算法

算法复杂度分析

搜索算法

排序算法

回溯算法

数据结构与算法概览

时间序列分析概述