论文思路探索1

少于 1 分钟阅读时长

发布时间： February 15, 2026

有关线性回归模型（自变量向量 $\cdot$ 权重向量的标量模型）对于SRS的前置知识系统应用如下，MLP的输入（统计参考值）是前置知识的熟练度参考值，记忆半衰期的参考值，RSME等参数组合参考值，MLP的前向传播优化目标是最大化做题正确率，以及知识回答正确率和学习速度的综合参考值，我们将实验各个参考值的权重，通过超参搜索来发现最优权重。对于模型自身评估水平，我们将排列组合所有可能因素，包括（前置知识缺失率，半衰期），（前置知识缺失率，RSME），计算出调度排程能够最优的能够使预测的评估指标K-L最大值，既最终的反向传播结果是各项指标，而前向传播结果是排程顺序。

综合评估指标K-L：对于一个受验者从未接触过的迁移知识点所用的问题P，我们定义评估指标K为问题P的每L个问题区间的正确率为K-L评估指标。

对于指标的组合包括（前置知识缺失率，半衰期），（前置知识缺失率，RSME）等，我们使用0/1函数计算，在传播过程中，我们需找到合适的计算0/1时机，以最优化模型的组合计算过程。对于指标组合的防止过拟合方法，我们使用L2正则，对不重要的指标进行去除。（不过我们可能需要指定目标学习的长度，如果记忆半衰期针对的是长期学习，而我们的目标是短期学习，那么他可能被L2剔除，但是反之它会被保留）

使用Softmax指定组合产生后各项数据样本权重（排程卡片输入参数的权重值）的分属概率情况，整个排程排卡是一个概率模型，我们将按照各项输入参考值权重的映射到概率调度卡片。对于数据样本权重的分属概率，我们使用L1正则化进行处理。

对此有以下对话：

有关线性回归模型（自变量向量 $\cdot$ 权重向量的标量模型）对于SRS的前置知识系统应用如下，MLP的输入（参考值）是前置知识的缺失率参考值，记忆半衰期的参考值，RSME等参数组合参考值，以及知识回答正确率和学习速度的综合参考值，我们将实验各个参考值的权重，通过超参搜索来发现最优权重。对于模型自身评估水平，我们将排列组合所有可能因素，包括（前置知识缺失率，半衰期），（前置知识缺失率，RSME），计算出调度排程能够最优的能够使预测的评估指标K-L最大值，既最终的反向传播结果是各项指标，而前向传播结果是排程顺序。

综合评估指标K-L：对于一个受验者从未接触过的迁移知识点所用的问题P，我们定义评估指标K为问题P的每L个的区间范围正确率为K-L评估指标。

对于指标的组合包括（前置知识缺失率，半衰期），（前置知识缺失率，RSME）等，我们使用Sigmoid函数计算，在传播过程中，我们需找到合适的计算Sigmoid时机，以最优化模型的组合计算过程。对于指标组合的防止过拟合方法，我们使用L2正则，对不重要的指标进行去除。（不过我们可能需要指定目标学习的长度，如果记忆半衰期针对的是长期学习，而我们的目标是短期学习，那么他可能被L2剔除，但是反之它会被保留）

使用Softmax指定组合产生后各项数据样本权重（排程卡片输入参数的权重值）的分属概率情况，整个排程排卡是一个概率模型，我们将按照各项输入参考值权重的映射到概率调度卡片。对于数据样本权重的分属概率，我们使用L1正则化进行处理。这是调度算法的训练逻辑

3) 训练目标（你写的 K-L / KL）需要先澄清

你文中有两种“KL”概念混在一起：

你定义的 K-L 指标：是“每 L 个区间的正确率”，这更像 K@L / 分段准确率，不是 KL divergence。
你又写“使预测的评估指标 K-L 最大值、K-L 最大、反向传播”等，这更像是在说“优化目标”。

工程上要能训练，必须明确：

L 是按什么切分（按复习次数、按时间段、按卡片数）？
K-L 是对单个概念、单个受试者，还是总体平均？
这是离线评估指标（评估一个已发生的排程）还是在线目标函数（可导、可反传）？

如果你暂时不想把它做成 RL/序列决策，建议第一版先用更稳妥的监督学习目标：

预测 is_correct（交叉熵/logloss）+ 预测 time_spent_sec（回归）+ L2 正则然后调度时用预测的 recall 概率去排序（例如优先复习“预计快忘/重要/根节点”的卡）。

等你把 K-L 指标定义清楚，再升级成“直接优化排程”的策略学习。

4) 正则化：建议把 L1/L2 放到“权重”而不是“概率”

你写“对样本权重概率用 L1 正则”，从实现和可解释性看更常见的是：

L2：对模型权重 θθ 做 L2（防止过拟合）
L1：对模型权重做 L1（特征稀疏/自动特征选择）

对 softmax 概率直接做 L1 通常意义不大（softmax 本身就约束和为 1）。

如果你希望我把这套逻辑开始“写进代码骨架”（但不实现最终论文公式），我需要你补 2 个关键定义我才能不写偏：

你说的 K-L：L 的窗口怎么定义？（按“每 L 次复习”？还是“每 L 天”？）K 是窗口内准确率的均值/最小值/最后一个窗口？
你要优化的是：缩短总学习时长 还是 固定时长内最大化 K-L？（两者的目标函数不同）

你回复这两点后，我可以在 srs/ 里加一个 learned_policy 的最小可跑版本：特征提取 → 线性/MLP 打分 → softmax 调度 → 网格/随机超参搜索接口，并把训练/评估脚本接到现有 app.db 的 reviews 日志上。

我的表述没有问题，但是有一点没解释清楚，K-L指标指的是对于一个受验者从未接触过的迁移知识点所用的问题P，我们定义评估指标K为问题P的每L个组合的正确率为K-L评估指标，它本质是一个正确率，K-L正确率最大值是模型反向传播的优化目的

yt确实是离散的，不过我们现在就要研究yt的概率。

综合评估指标K-L：对于一个受验者从未接触过的迁移知识点所用的问题P，我们定义评估指标K为问题P的每L个问题区间的正确率为K-L评估指标。这里的问题区间事实上是迁移问题的个数

明白了：你这里的“区间”不是时间区间，而是迁移问题数量的区间（按题号/作答序号分段）。

更精确地写就是：

对某个迁移知识点对应的问题序列 (P={p_1,p_2,\dots,p_N})，受试者首次接触时产生作答结果 (y_1,\dots,y_N)，其中 (y_i\in{0,1})。
设定一个段长 (L)（表示“每段包含的迁移问题数”）。
第 (j) 段（问题区间）的 K-L 正确率： [ K!-!L(j)=\frac{1}{L}\sum_{i=(j-1)L+1}^{\min(jL,N)} y_i ]
如果 (N) 不是 (L) 的整数倍，最后一段可以：
- 要么用实际长度归一化（上式这样做），
- 要么直接丢弃不足 (L) 的尾段（你需要选一种作为实验协议）。

如果你要把 “K-L 最大值” 当目标，那就是： [ \max_\theta \max_j K!-!L(j) ] 但请你再确认一个实验细节：K-L 是按连续分段（1..L，L+1..2L…）还是按滑动窗口（1..L，2..L+1…）来算？这会直接影响指标的敏感性和训练/评估实现方式。

分享到

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)

Vuiora

论文思路探索1

对此有以下对话：

3) 训练目标（你写的 K-L / KL）需要先澄清

4) 正则化：建议把 L1/L2 放到“权重”而不是“概率”

分享到

你可能感兴趣的

暴论之成果科学范式

成果科学范式：一种面向创新的科学方法论

论文思路探索2

超前学习

干涉