自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白水的博客

欢迎你的光临,随便看看就好

  • 博客(3)
  • 资源 (6)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 RecSim 可配置的推荐系统仿真平台 使用指南

RecSim是一个可配置平台,用于为自然支持顺序交互的推荐系统(RS)编写仿真环境 与用户。RecSim允许创建新的环境,该环境以抽象级别反映用户行为和项目结构的特定方面,非常适合在顺序交互式推荐问题中突破当前强化学习(RL)和RS技术的限制。可以轻松配置各种环境,这些环境可以改变以下假设:用户偏好和项目熟悉度;用户潜在状态及其动态;选择模型和其他用户响应行为。我们概述了RecSim如何为RL和RS研究人员和从业者提供价值,以及它如何充当学术与工业合作的工具。有关RecSim体系结构的详细说明,请阅读Ie等

2021-01-09 13:47:34 4840 3

翻译 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

A Brief Survey of Deep Reinforcement Learning深度强化学习的简要概述作者:Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath文章目录摘要 Abstract1. 引言 Introduction2. 奖励驱动行为 Reward-Driven Behavior2.1. 马尔科夫决策过程 Markov Decision Processes2.2. 强化学习的挑

2021-01-28 11:32:30 137 1

原创 强化学习——表格法 Tabular Methods

本博客将介绍最简单的表格型方法(tabular methods)来讲解如何使用value-based方法求解强化学习过程。文章目录1. 马尔科夫决策过程 MDP1.1. 基于模型的马尔科夫决策过程 Model-based1.2. 无模型的马尔科夫决策过程 Model-free1.3. 基于模型与无模型的对比2. Q表格 Q-table3. 无模型预测 Model-free Prediction1. 马尔科夫决策过程 MDP强化学习有三个要素:状态、动作和奖励。强化学习Agent跟环境是一步一步交互.

2021-01-01 20:32:37 121

微信小游戏跳一跳辅助脚本Python源码

来自GitHub:wangshub/wechat_jump_game 开发的微信小游戏Python脚本

2018-01-01

软考系统架构设计师历年真题及答案、题型归类

软件资格考试2009-2018年的真题及答案,以及综合知识题型归类,案例分析与论文部分必备知识点等,需要的小伙伴自行下载

2020-11-16

软考初级程序员历年真题

2009年-2017年计算机技术与软件专业技术资格(水平)考试初级程序员真题

2018-06-20

DirectX修复工具V3.3

DirectX修复工具(DirectX Repair)是一款系统级工具软件,下载后无需安装,可直接运行。

2018-03-06

进制转换工具

转换二进制、八进制、十进制和十六进制数,只需要输入数字后按回车即可(或者移开光标)

2018-03-10

AgentTable.csv

内含9000余条国外浏览器user-agent信息,csv文件,可直接导入数据库

2019-07-29

白水你一定要努力啊的留言板

发表于 2020-01-02 最后回复 2020-01-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除