• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

人机交互笔记HCI

武飞扬头像
亦梦亦醒乐逍遥
帮助1

导论

人机交互HCI(human computer interaction),是面向一个具体场景的任务,去指定人机之间的接口,实现人和计算机交换信息,让人看懂电脑,让电脑理解人是人机交互的核心思想和目标。

最开始,没有人机交互,就是程序员才能使用计算机,后来,windows(抄的mac)和mac横空出世,android也紧跟而上,桌面系统就是人机交互的最佳方式,我们现在也习惯了。

最基本的直接交互方式由那些要点呢:

  1. 可视化
  2. 连续操作和及时反馈
  3. 撤销
  4. 探索
  5. 语法纠正
  6. 用行为替代文本输入

但是,现在随着新技术的发展,我们完全可以用更先进,更自然,更和谐,更高效的方式去进行人机交互,并且对象也不仅仅局限于计算机,可以是在物联网基础上的各种智能设备,以及智慧房间。还有就是设备和设备之间的交互。

总之,现在人机交互其实本质上就是研究交互的,接口制定是核心。

对于智能设备,就是输入输出,并且随着人工智能的发展,对于自然信息的理解能力是越来越强的。

对于人来说,就是感官作为输入,行为作为输出。

人机交互有以下几个主题:

  1. human factors
  2. interaction factors
  3. CV based interaction
  4. X-R(VR,AR,MR)based interaction
  5. designing HCI experiment(要考)
  6. hypothesis testing(要考)

人类因素(human factor)

概述

学新通
deliberate是最短的人为时间,比如看到弹出的消息,是交互领域考虑最多的时间。

学新通
人类因素可以分为以下几个方面:

  1. 信息的输入输出
  2. 长短期记忆
  3. 强大的信息处理能力,真正的智能
  4. 情绪带来的不稳定性与巨大的差异性

输入

视觉

学新通
中央凹。收集了眼睛大部分的信息。

人的细胞对蓝色不太敏感,所以提示信息经常用红绿。而且色盲比例其实很高,%1-8%不等,只不过人们不自知。

视觉补偿。人的视觉有滞后性,不论是视觉残像,还是长时间处于明亮环境下进入

脑补。人的想象力可以作用于视觉,是底层的机制,大多时间是好的,可以纠正一些小错误,有时候会造成视错觉,模糊的视觉。

详略转换。人的视觉在凝视的时候会增强,耗时长,错误少,扫视和跳读的脑补更多,容易出错。

扫视路径。人的扫视路径是有规律的,顺应扫视路径的界面可以更快速地传入信息。

听觉

声音属性。音高,响度,音色。每一瞬间的声波都有这三个属性。

耳朵结构。外耳,负责收音,中耳,负责感受震动频率等,内耳将声音转换成电信号,沿着神经传入大脑。

智能增强和过滤。这个随着人的注意力而改变。

触觉

反馈。触觉的一大领域是及时反馈,比如手机按键,键盘按键。

嗅觉和味觉

基本没有,带来的信息太少了。

前沿技术

仿人眼摄像头。设计为眼镜的形状,可以获取用户的视角,包括用户的注意力等等信息,可以说是研究人类视觉的基础设备。

语音识别。比如现在的小爱等等,如何让他们获取更多的信息。

信息类型转换。把图像,文字,声音信息互相翻译转换,比如自动补字母,描述啥的。

虚拟形象投射。如何把现实形象投射到虚拟形象上,是虚拟现实的关键,而现在的动捕之类的,游戏,也需要这样的技术。

反应输出

学新通

器官。手指,脚步,脸部,声音。其中,手指在大脑皮层中占的区域是相当大的,所以现在的交互大方向在于手部,其次是人脸,然后是脚。

偏手性。不存在完全的左右手,只是有的习惯于左,有的习惯右,程度因人而异。

声音

分为语言类信号和非语音类信号。

语音类的就是转化为文字去理解。

非语音类,比如人的呼叫,就需要一些其他的识别方式。

眼神。比如使用眼神专注来进行文字输出。因为人眼很灵活,同时边界也比较模糊,所以任务难度比较大。

表情。

大脑处理

脑机接口。本来脑是用作处理的,脑机接口跳过了输入和输出,实现输入输出的独立定义。

这一部分其实就是脑科学的领域了,人和机器的本质区别就是智慧,高度的灵活性,逻辑性,理解能力。而机器仅仅是计算能力强,简单任务精度高罢了,而高难度任务机器反而无法做到精确。

感知过程

首先由感官接受自然信息,然后经过一些转换,变为电信号。这个感知可能会出问题,就是错觉,

目前有一些模型用来描述自然信息和人感知到的信息的映射。

认知过程

做出决定的过程非常复杂,关键是,我们无法观测人做出决定的过程。

不是所有的决定都是由大脑做出的,小脑,脑干,甚至肌肉都有自己的决定能力。

记忆

记忆分长短期记忆,以及非大脑记忆:STM和LTM,还有感官的记忆。

短期记忆:

  1. 进的快出得快
  2. 容量有限,大约为7。

长期记忆:

  1. 需要反复记忆,抽象,从这个角度理解,其实长期记忆也算是加强版的短期记忆,因为抽象可以将大量的信息变成少量信息,减少维持记忆的成本。
  2. 长期记忆有显性的,也有隐形的。
  3. 长期记忆的遗忘是缓慢的,兼顾了重要知识的维持以及不重要知识的替换。
  4. 新的记忆可以替换旧的记忆,也可以和旧的记忆产生联系。

感官记忆。正如认知可以由非大脑区域实现,记忆也有感官上的。

总结

人的因素非常具有创造力,表现力,智慧,也可以积累经验。也会带来失误,情绪与状态的不稳定性,差异性。

交互因素(interaction factor)

交互,本质上就是寻找一种合适的方式,将人的信息转化为电脑接受的信息。

计算机因素

计算机没什么可说的,都是数字信号 数值计算,顶多加个神经网络,最多涉及到类脑智能。

总之,计算机的输入比较规则化。

实际上,计算机并不是狭义的PC机,而是广义上的处理单元,包括单片机等等。

现代交互

基本原则

  1. 操作一致性。对不同的对象,可以使用一套或者类似的操作方式,极大地减少学习代价。
  2. 效率。
  3. 舒适度

软硬操作

过去的操作都是基于硬件实现的,单一目的的。

现在的显示具有可塑性,可以基于软显示,可以实现软操作,比如图形界面和选项等等。

显示和操作边界逐渐模糊,这更加符合现实环境。

映射

人的操控到具体指令的映射也是一个问题,操控是三维的,而实际上显示的是二维的,这其中就有一个映射。比如鼠标的轴就是一个变化。

CD gain

说白了就是灵敏度,我现实中移动多少,到显示中移动多少,其中的比例要刚刚好才对,移动速度快,可以加快粗略任务,但是会加大精细任务的难度。

延迟(latency)

有时候延迟应该有,需要给人反应时间,有时候延迟不应该有,我们需要实时显示,比如VR,延迟会造成失真感,晕眩感。

感知和操控优先级

人对静态对象,空间位置的感知是最灵敏的,对应的学习成本最低。

其次是动态的,关于空间变化的,速度的,需要一定的学习,比如旋钮和进度条的映射,他不是自然地。

最后是非空间相关的,比如灯的开关,以及各种按钮,这种很多人都记不住,所以需要较大的学习成本。

巧妙地将交互与现实联系起来,可以降低学习成本,让人在潜移默化之间学会一项操作。

多模式操作

单一操作在不同环境中对应多种功能。尤其是电脑键盘,配合ctrl,alt,fn,shift操作可以实现多种操作。

优点在于可以充分利用空间。

缺点就是学习成本提升,我们需要去适应不同模式的切换。有的切换是循环列表,有的是不同视图切换。

还需要设计者去考虑模式可视化,令用户明白现在处于什么模式。

自由度

当操作的自由度小于任务的自由度,将无法操作。

无非就是切换模式来增加自由度,或者是降低任务的自由度,很显然前者才是根本。

现实技术(X-R)

这是目前的一个热门方向,在ACM顶会上有很多文章。

VR

实时的,虚拟的,交互的,将想象具象化。

VR着眼于虚拟。

典型的虚拟现实系统

  1. 显示系统。头盔,触感反馈等等。

  2. 控制系统。

  3. 定位系统。

AR/MR

让虚拟和现实融合,自由切换,Augmented Reality和Mixed Reality并没有特别严格的界限。

AR/MR重在显示。

这里需要注意的就是3D的注册,即把现实中的物体位置和虚拟中的位置对齐,然后再叠加,防止穿模。

其实个人感觉,显示和虚拟叠加可以将信息以最直接的方式映射到现实,非常有用,比如布线,检查故障,教学,实体翻译之类的。

比起VR,AR和MR更令我振奋,因为他可以带来触手可得的提升,VR可能是未来更久远的宠儿。

交互理论

本质上,XR是3D的交互,最贴近现实,学习成本最低。

所谓3D交互,就是输入输出都是3D的。

3D缺少约束,带来不稳定性,缺少标准,缺少工具。

有三大交互任务

  1. 对象操作
  2. 漫游(navigation)
  3. 系统控制

对象选择和操作

学新通

  1. indication:指示
  2. occlusion:遮挡
选择
  1. 虚拟手。这个和真实手是一个一个地映射。优点在于自然,缺点就是自由度不高,而且捕捉人手不容易。
  2. 射线(ray casting)。类似于眼睛的准星。
  3. 遮挡。这实际上是2D操作。
  4. Go-Go Technique:相当于1和2的综合,在近距离用虚拟手,远距离使用别的策略。

两大核心思路:

  1. 增加选择区域。
  2. 增加控制比例。
操控

学新通

  1. HOMER。就是最简单的一个一个地映射,人手可及。
  2. 其他

漫游

漫游分具体目标的漫游以及漫无目的的随意漫游。

问题在于,真实空间是有限的,甚至是一个很小的空间,仓位,而虚拟空间是无限的。如何实现从有限到无限的漫游?

学新通

运动设备

比如跑步机,在空间中产生运动,但是不产生实际位移。

视线控制

人看哪里就往哪里走。

指向技术

类似于手柄啥的,指哪走哪。

缩微图沙盘

上帝视角。

重定向技术

修改人的反馈,让人以为在直走,实际上是在来回走,或者走曲线。

系统控制

学新通

物理控制

在真实世界中提供物理器件辅助

虚拟控制

将选项列表,图形化界面放到虚拟空间中

语音控制

输入装置

手柄

指套

手势跟踪

投影桌面。这就是增强现实表面,将信息渲染在表面上。

跨维度操作。将二维物体拉出来到三维。

计算机视觉(CV)

概览

摄像头可以清楚看到现实世界,但是不能对世界进行高层解释,甚至连准确识别出物体都是个问题。

实际上,摄像头仅仅是能看到像素,无论是单通道的灰色图像,还是RGB的三层叠加。如何通过像素形成物体的识别与解释,是CV的核心问题。

计算机视觉流程

  1. 底层视觉。边缘,纹理,以及一些局部特征。
  2. 中层识别。将边缘转化为轮廓,进而产生大小,位置,形状等信息。
  3. 高层解释。图形分割segmentation(将所有像素点归类),物体检测,这种相对来说粗略,识别,以及复杂场景下的识别,时序动作识别,高级分析,信息获取,简单推理。

HCI中CV的目标

人如何通过视觉传递信息,我们的目标就是如何利用CV去实现视觉信息的传输。

识别(Recognition)

人脸

检测有没有人脸,如果有,在哪里,是谁,调出他的相关信息。

人脸识别此前采用模式识别或者机器学习方法,随着技术发展,主流技术变成CNN类似架构,至于卷积神经网络相关知识,可以看吴恩达视频,这里有我当时学习的笔记。

笔记

人脸作为交互数据的优势不必多言,这是人进行交流的一个主要途径,简单粗暴点论证,请问你如果没有表情,你的交流会不会受到很大影响?甚至如果没有脸的话,别人都认不出你,如果觉得无法忍受,那就对了。

人眼

主要是检测眼睛观测的方向以及注意力。

身体

  1. 手势。将人的关节作为节点。
  2. 身体姿势。有关节模型,也有矩形模型,还有三维颜色模型。
  3. 二维转三维。由图片生成3D的姿势信息比较难。

使用场景(uses cases)

一个小问题

100字简述你见过的或者用过的采用CV技术的交互,写下如下问题:

本质上CV的应用就是用摄像头实现定位识别等功能。我们前面说到的各种人机交互,实际上或多或少都应该有CV的技术基础,尤其是将现实空间中的物体匹配 对齐 到虚拟空间,CV技术是一大利器!

对于我见过的来说,我想说的是3D动作捕捉。

  1. 描述。在各种3A游戏大作以及一些比如逆水寒,原神之类的游戏里,动作很多,这些动作靠建模成本太高而且不够灵动,最好的方式是直接将人类动作信息传给系统,这本质上就是一种人向计算机的交互,至于计算机向人,大概没有比任务动作更加直接的了。
  2. 优点。相比于传统的基于传感器的动捕,基于CV的光学动捕速度更快,支持的场地范围更大,精度更高,可以捕捉细腻灵动的动作,有人眼的效果。
  3. 缺点。研究不是特别完善,成本也比较高,但是未来可期,相关公司比如这家:https://www.nokov.com(有趣的是这公司竟然还是有北理工北京)

具体应用场景

其实吧,老师给出了很多的例子,无论是针对感官障碍人士的视觉/听觉转换描述,还是各种虚拟现实的应用,他们的核心都是通过视觉来检测人的位置,动作等信息,然后基于信息实现自己的想法,后一步因人而异,但是不约而同地,都会选择通过CV去识别姿态,面部等等信息。

总的来说,真的有一种未来的感觉,我理想中的未来。

设计人机交互实验(重要)

核心:如何用科学的方法验证人机交互的idea

重点关注三个点:

  1. 观测指标
  2. 验证过程
  3. 用户。具体到用户的数量,分类,用户画像。

大概有三种实验:

  1. lab experiment。比较理想,可以控制条件。
  2. field study。将用户放在真实场景,真实任务里,结果真实,但是缺点是不可控因素过多,用户会受到各种随机因素的干扰。
  3. survey。就是一个问卷(questionnaire),目的并不是去验证,而是获取一些先验知识,为其他人的工作提供指导,所以这种也可以发论文。

学新通
实验目的:

排除实验结果中的随机因素,得到两个 变量 之间真实的因果关系(有时间序列ARIMA那味儿了)
学新通
方法(methodology):

使用APA(一个主流心理学组织)准则

伦理审查(Ethics):

因为和人打交道,所以要尊重人伦,比如对实验者要尊重,不要影响实验人群。现在做心理学和人机交互类实验,要先和委员会申请许可。

审核点大致如下:

  1. 实验方法
  2. 风险和益处
  3. 用户有权主动终止实验
  4. 用户有权要求匿名

设计实验

变量(任务成败关键)

独立变量(IV):

独立变量是我们要探究的因素,是我们做实验中控制的用于对比的自变量。

定义:

  1. 独立变量可以被操控,可以引起人的变化和反应
  2. 独立变量不受人行为的影响
  3. 一个IV至少应该具有两个值(测试条件),毕竟是变量

补充:

  1. 独立变量和因子(factor)是同义词(synonym)
  2. 独立变量有环境变量的和人类属性两种,人类特征无法改变,环境相关可以改变。

建议:

  1. 确定独立变量的同时要给出他的定义域(level)
  2. 确定名字后,尽量不要改变说法,造成混淆

个数:

  1. 个数太少不行
  2. 个数太多会导致效应数量急剧增加,加大判断难度
  3. 通常考虑1,2个,3个就到头了

效应:

  1. 单一效应。
  2. 交互效应。同时考虑多个独立变量时相互影响的效用
  3. 主效应。多个独立变量中可能会有主次之分

学新通
依赖变量(DV):

依赖变量有时候作为自变量,有时候作为因变量。但是作为自变量的时候是无法自由控制的,只能通过样本分割实现半控制,因为一个样本就直对应一个DV水平。

定义:

  1. 和用户相关,具有人的差异性。
  2. 比如完成任务的时间,速度,准确度。这些DV和人的聪慧程度,工作效率,状态等等有关。

补充:

  1. 依赖变量应该明确区分定义,不然没办法复现。
  2. 比如用次数之类的可衡量指标定义。

收集:

  1. 数据应该有详细标签,具体的,可记录的。比如时间戳,按键,按钮。
  2. 可以先进行小规模数据实验和收集
  3. 做实验之前规划好数据组织形式的设计,一边做一边处理数据,防止数据量太多无从下手。比如文件名,表格列名。

控制变量(CV)& 随机变量(RV):

定义:

  1. 控制变量。环境常量,被人为固定。现实中其实可能是随机的。
  2. 随机变量。环境变量,但是不进行人为控制。

补充:

  1. 增加CV提高准确性。
  2. 增加RV提高泛化性。
  3. RV和CV是互相对立的,需要权衡(trade off),就像欠拟合和过拟合一样。

学新通
学新通
学新通
混淆变量(Confounding Variable):

定义:

  1. 随着IV变化会系统性变化的变量,可以对结果造成影响,从而混淆IV造成的影响。

学新通

实验任务(Task)

一般的实验任务往往很显然,就是比性能,和idea匹配,比如研究用了你的ieda和不用你的idea在结果上的不同。

但是知识类任务就比较复杂。

实验流程(Procedure)

  1. 欢迎用户
  2. 做好权限约定
  3. 对用户介绍好任务,最好写个文档。
  4. 小规模测试与可视化,适应
  5. 间歇性休息
  6. 收集主观感受,与客观数据配合,进行修正
实验介绍(Instruction)
  1. 所有用户的信息统一
用户(Participants)
  1. 用户选择系统服务人群,比如儿童游戏就找小孩
  2. 采样。随机采样是最理想的,然而难以实行,更多采用便捷采样
  3. 用户量。用户太少不具有统计规律,太多难免出现例外,一般15-30之间,但常常参考同方向其他论文的数量。
问卷(Questionnaires)
  1. 提前做。获取用户先验信息,为用户画像。
  2. 事后做。收集反馈。
  3. 问卷设置比较灵活,可以是选择,填空,主观,打分等等。

学新通

测试分配方法
  1. within-subject(被试内)。一个对象分配所有的测试条件。优点在于省事,样本少,缺点就是人的学习能力会造成顺序效应,人随着任务测试会逐渐适应。
  2. between-subject(被试间)。一个对象分到一个测试条件。不会产生顺序效应,但即使是同类样本,内部也可能有偏差。而且消耗大量样本。

学新通

补充:

  1. 有时没得选。比如涉及到依赖变量的,一个样本没办法产生两个level
  2. 有时可以混合使用。

顺序效应(Order effect)的应对:

  1. 顺序效应又名学习效应,训练效应。

  2. 将不同的顺序应用在不同的测试者身上,进行一个对冲(counter balancing)

  3. 顺序安排可以使用拉丁方阵(Latin Square),说白了就是类似于一串珠子,从不同起点开始顺着一个方向进行全排列。比较抽象,看图便知。但是吧,这么做,在人数上会膨胀,和between-subjects一样了。
    学新通

  4. 拉丁方阵有缺点,就是无法确定前后顺序的次数相等(很明显,我们是按珠子顺着排的)。

  5. 平衡拉丁方阵可以保证前后顺序的次数相等,但是平衡拉丁方阵也只适用于偶数(原因没注意)

  6. 奇数情况下,可以选择使用全排列方式替代。

  7. 采用随机挑选测试条件的方式来做,但是因为人不多,所以不一定有效果,得测试条件够多才行。

假设检验(Hypothesis Testing)

假设检验方法目前存在争议,但是还是很常用。

同样是用来测定,独立变量和依赖变量之间的关联。

基础概念

定义与目的

  1. 先假设,再验证。
  2. 目的是确保我的样本可以代表全体(采样误差),并且确保我从样本中得到的数据有统计意义。

初步组织数据与可视化

  1. 拿到数据第一步要先进行大致的分析,一个常用方法就是画出频数分布,通常都是直方图,或者是做成折线图的屑直方图。柱状图也可以。总之就是做一个描述性的图。
  2. 集中趋势(Center Trending)。平均数(Mean),中位数(Median),众数(Mode)
  3. 变异性(variance)。与3相反,反应散度,比如方差标准差,四分位数,整体范围区间。

假设检验判断步骤

  1. 假设:给出 H 0 H_0 H0空假设。一般是假设没有差异,如果空假设为真,那么就会有统计量服从某个分布。注意,做假设是为了推翻假设!
  2. 选择显著性水平 α \alpha α level,根据它计算出一个置信区间(critical region)
  3. 检验:得出测试数据。
  4. 根据检验结果,在置信区间之外的就可以以置信概率否定原假设。

假设检验细究

p值和 α 的 关 系 \alpha的关系 α

  1. α \alpha α p − v a l u e p-value pvalue的区别。首先我们的分布已经给出。 α \alpha α是用来计算置信区间的,如果统计结果落在置信区间之外,就推翻原假设。 p − v a l u e p-value pvalue是用来估计 α \alpha α的,通过统计结果的落点,计算出出现在这个落点以外的概率,就是p值。
  2. 一般来说p<0.05就算显著。当可以推翻原假设,必然 p < α p<\alpha p<α,p和 α \alpha α差距越大, 实际上 的可信度就越高。但是 仅仅针对你的原假设 和显著性来说,两个不同的p值效果是一样的,所以不存在谁比谁更显著的说法。
  3. p>0.05,仅仅能说明无法拒绝原假设,即无法证明有差异,但是并不代表实际差异就不显著,实际就没有规律,只不过是我没有发现罢了。

检验的两类错误:

  1. 一类:拒绝原假设。发现了“差异”,但是差异只是偶然的,所以这是个比较严重的问题。
  2. 二类:无法拒绝原假设。没有发现差异,没有发现规律,即使是有规律的。这个不算严重的问题,还有希望,只不过我没有发现罢了。

可选假设方法

学新通

  1. 参数化假设。这个就是通过先验给出数据的分布类型。
    • 变异数分析(Analysis of variance——ANOVA)。又名F(Fisher是人名)检验,可以检验多种变量。(就tm 方差分析 而已)。因为我们平常碰到的变量多是连续有序的,所以方差分析最常用。
    • T检验。只能检验两种变量。
  2. 非参数化假设。不给出分布类型。
    • 卡方检验(Chi-Square test)。有时候要分析性别之类的,这个属于定类变量,顶对算个定序,但是总的来说都得用非参数化,那卡方就是最常用的。
    • 其他检验方法。
  3. 变量分类:
    • 定类变量。仅仅分类,类别平等。比如性别。
    • 定序变量。不仅分类,而且有等级,是偏序关系,但是无法定量衡量,也没法作差。比如学历。
    • 定距变量(定比变量)。有类,有偏序,作差也有意义。定距变量和定比变量通常不做区分,实际使用中没啥区别。比如速度。

方差分析详解

比如一个因变量受到很多自变量影响,我们要分析其中哪些自变量对因变量的影响比较显著,哪些比较无足轻重。

方差分析有单因素分析,无交互作用的双因素分析,有交互作用的双因素分析等等。

方差分析全解
python方差分析案例

概述

目的
  1. 用来检测独立变量对依赖变量是否有显著性效应。
  2. 具体一点就是通过观察不同测试条件产生的不同依赖变量输出。
结果

通常的结果就是一张表。
学新通

  • DF:自由度,分用户自由度(用户数-1)和项目自由度(测试条件-1)。最后一项是两者相乘
  • P-value:空假设为真时观察到这个结果以及超出这个结果的概率。
  • F-value:F值和自由度决定P值,具体就是查表。
结果表述

结果表述总有一些套话,模板。

成功的诸如:学新通
失败的诸如:
学新通

文献阅读

课程要求对人机交互领域的论文进行研读,通常是从ACM会议上选取,我选取的文章为:

论文:
AdapTutAR: An Adaptive Tutoring System for Machine Tasks in
Augmented Reality

PDF下载链接:
链接

之所以选择这篇文章,主要是我喜欢AR技术。VR技术听着高大上,但是还是对现实生产没有多大帮助,而AR技术更加贴近现实。

论文概述

首先对论文的思路进行一个解析,这里附上我的Latex代码,请自行编译。

% 规定文档类型
\documentclass[12pt, a4paper, oneside]{ctexart}


% ------------导包区(我自创的名字)导入宏包----------------
\usepackage{amsmath, amsthm, amssymb, graphicx}
\usepackage[bookmarks=true, colorlinks, citecolor=blue, linkcolor=black]{hyperref}
\usepackage{listings}
\usepackage{xcolor}
\usepackage{subcaption}


% ------------导言区,这里规定了标题等各种功能信息-------------
\title{论文分享 AdapTutAR: An Adaptive Tutoring System for Machine Tasks in 
Augmented Reality }
\author{作者}
\date{\today}

% -------------正文区-----------------------

\begin{document}

\maketitle  % 这一句将上面导言区的设置实现出来

\begin{abstract}
    本文设计了一种基于用户表现的自适应AR辅导系统,并对系统进行假设检验测试,
    结果表示系统具有较好的辅导效果。

    本文还在末尾提出了一些改进建议,诸如采用SNN架构的低功耗嵌入式智能网络。
    \\[5pt]
    \textbf{关键词: AR辅导\ 自适应\ 假设检验\ 脉冲神经网络}
\end{abstract}

\tableofcontents

\section{提出问题}
\subsection{背景与问题}
传统录制培训系统不具有适应性,学习效果并不理想。如果一个系统具有适应性,可以根据学习者
的表现自动修改内容的展示,理论上将会表现出更好的效果。
\section{解决问题}
\subsection{AR辅导元素设计}
AR辅导实际上就是通过一些元素来和学习者进行交互,那么恰当的辅导元素可以更有效的
传达信息以及接受反馈。基于一些先验知识和基础调研,本文采用了四种基本的AR辅导元素。
\subsubsection{虚拟化身}
机器任务经常涉及到空间和身体协调的人机交互,而平常的技能教学中,人们从老师端获取信息
的最有效方式也是直接观察老师的行为,所以人形化身是信息最直接的载体。
\subsubsection{动画组件和箭头}
动画组件一般指诸如按钮,旋钮,拉杆之类的虚拟动画组件,可以通过计算机视觉技术实现
学习者的操控与变化。

同时,因为动画本身是循环的,所以在方向上可能会混淆,故增加了箭头指示动画的方向。
\subsubsection{对步骤的期望}
进行一个动作,预期的结果往往是很复杂的。如果仅仅是像开门这种简单操作,那只依靠动画
组件和箭头也可以胜任。但是一旦涉及到具体精细的数值以及一些不直观的反馈信息,就需要
将这些信息以期望值的方式显示在旁边,给学习者提供足够的信息。
\subsubsection{子任务描述}
学习的过程其实往往是两阶段的。

初级阶段更倾向于对具体步骤的逐个把握,高级阶段更侧重对整体流程,原理的把握。
添加子任务描述,可以将一连串微小的动作抽象成一个子任务,有利于学习者快速进入
高级抽象阶段,迅速把握任务的整体思路。

\subsection{适应性模型}

\subsubsection{适应特征:LOD}
首先规定一些变量来量化适应系统提供的信息密度。称作LOD(Level of Detail)

\begin{enumerate}
    \item [] LOD 5: 显示全部四种辅助元素
    \item [] LOD 4: 排除人形化身
    \item [] LOD 3: 排除动画组件
    \item [] LOD 2: 排除期望,只保留子任务描述
    \item [] LOD 1: 不显示,认为学习者已经熟悉
\end{enumerate}

本文通过对学习者和系统环境状态观测来确定LOD水平。
\subsubsection{信息感知}
人机交互中,计算机获取信息的种类有两种:用户和环境。
\begin{enumerate}
    \item 用户信息:AR头盔的位置和方向,以及用户的第一人称视角。
    \item 环境信息:人形化身,动画组件的位置,方向,尺寸。(由此可得,环境指的是
    AR制造出的虚拟环境)
\end{enumerate}

\subsubsection{低层次状态识别}
先通过收集到的信息进行一个底层次的状态判断识别。

\begin{enumerate}
    \item 识别机器组件的状态。
    \item 识别用户的基本模式。用户基本模式分为静态观察,导航,交互三种。分类依据
    之一就是用户是否触摸了物理组件。
    \item 注意力区域(ROI)分类。对某一个步骤的目标对象判断其是否被用户看到,进一步说
    是是否在用户AR头显的视场内。分为两种状态,在ROI内核在ROI外。
\end{enumerate}

\subsubsection{高层次认知}
利用第三步收集到的底层次状态来进一步抽象高层次认知,估计用户的状态,并依据
用户状态做出适应。

\begin{enumerate}
    \item 情景和状态判断。大致分为四种状态,一是不知道位置,二是不知道操作,三是与
    错误的界面互动,四是正确互动但耗时太久。
    \item 状态转换。一个切换模式是在ROI外-ROI内-改变视角这三种状态下转换,另一个切换模式
    是在操纵正确的物体-操纵错误的物体之间转换。
    \item 计时器阈值。判断一个状态往往要结合持续时间,这个阈值可以在适应过程中动态调整。
\end{enumerate}
\subsection{AR辅助系统设计}
基于认知模型,本文构建了AR辅助系统。

\begin{enumerate}
    \item 前提条件。系统应该有开箱即用的效果,所以需要提前配置好环境。
    \item 创作模式。专家录入自己的操作。
    \item 修改模式。专家对操作进行修改,以及添加子任务描述。
    \item 学习模式。学习者进行学习,同时系统会自适应调整显示的信息密度。
\end{enumerate}

\subsection{技术具体实现}
具体细节较多,且与总思路关联不大,故不列出。

\section{实验方案}
\subsection{预实验}
实验进行之前,本文先邀请6名参与者进行先验知识的收集,推进系统的设计与优化。
\subsection{正式实验}
正式实验邀请了24名用户测试,包括了熟练的和新手,以及有不同背景的人,人群具有较好代表性。

实验采用被试内方式,通过一系列技巧克服学习效应的干扰,得到尽可能客观的数据

\section{感想}
\subsection{思考}
本文的想法具有创造性,实验设计比较精巧,克服了很多干扰因素。

实验遵循假设检验原则,具有较强的说服力,可信性,具有统计意义上的显著性。

同时,基于实验结果的分析,系统还有大量的空间改进,提高用户的学习速度和体验性。
\subsection{建议}
系统的智能程度不够强,并没有用到很多深度学习技术,我的猜测是,因为成本以及硬件
本身的算力和储存限制。

这里我建议考虑一下基于脉冲神经网络(Spiking Neural Networks)
的类脑智能,该技术具有良好的生物可解释性,理解能力的泛化性。重点在于该技术的功耗和
资源占用非常小,适合部署在嵌入式设备上,比如无人机,辅助系统之类的地方。

\end{document}

学新通

假设检验分析

对于实验部分要进行具体分析,好在我的文章里有假设检验部分,虽然不是那么完整,但是好歹也是有。不用换文章了。

先把图放出来:

Table
学新通
自我评价
学新通
结果数据
学新通
用户投票。
学新通

% 规定文档类型
\documentclass[12pt, a4paper, oneside]{ctexart}


% ------------导包区(我自创的名字)导入宏包----------------
\usepackage{amsmath, amsthm, amssymb, graphicx}
\usepackage[bookmarks=true, colorlinks, citecolor=blue, linkcolor=black]{hyperref}
\usepackage{listings}
\usepackage{xcolor}
\usepackage{subcaption}


% ------------导言区,这里规定了标题等各种功能信息-------------
\title{假设检验分析 AdapTutAR: An Adaptive Tutoring System for Machine Tasks in 
Augmented Reality }
\author{作者}
\date{\today}


\begin{document}

\maketitle  % 这一句将上面导言区的设置实现出来

\begin{abstract}
    本文针对自适应AR辅助系统的实验流程进行分析,逐步解析假设检验的流程。
    \\[5pt]
    \textbf{关键词: AR辅导\ 自适应\ 假设检验\ 脉冲神经网络}
\end{abstract}

\tableofcontents

\section{概述}
\subsection{前情回顾}
上一篇论文,因为篇幅限制,所以只是着重分析了文章对于AR自适应辅助系统的设计思路,
而将实验部分弱化。

本文接续上篇论文,从假设检验的角度详细解析实验思路。

同时,对于文章在假设检验方面步骤的确实,本文也会进行补充。
\subsection{假设检验概述}

本文采用被试内方式,让用户分别在自适应系统和非自适应系统下学习同一难度的任务,
并进行假设检验分析。

\section{实验场景}
\subsection{虚拟实验}
因为疫情原因,用户实验需要远程实现,本文为此建立了一个虚拟的多功能机器,可以
进行3D打印和绘画,这实际上是在VR支持下的AR测试。

为了保证结果的科学性,本文对VR的准确率进行测试,几乎可以达到100\%的识别,所以基于
这个VR系统的AR实验具有正常的效果。
\subsection{用户群体}
本文招募了24名用户,按照不同标准进行分类得出结果:

\begin{enumerate}
    \item 19名男性,5名女性,年龄在18到35岁之间。
    \item 19个有工程背景,另外5个有科学背景。
    \item 11位用户有AR/VR经验,15位用户有实际的机器操作经验。
    \item 9名用户拥有VR设备。
    \item 14名用户使用Oculus Rift系统,10名用户使用Oculus Rift S系统。
\end{enumerate}

\section{研究设计}

\subsection{实验变量}
\begin{enumerate}
    \item 培训方式。独立变量。分两个测试条件,
    level-1 自适应AR培训 level-2 非自适应AR培训(固定LOD5级别)
    \item 实验任务。独立变量,与培训方式绑定。两个测试条件在难度上相仿,但是具体细节有较大差异。
    \item 学习顺序。独立变量。学习重复两节,分别用适应性和非适应性系统学习,先适应后非
    适应与先非适应后适应是两个测试条件。

\end{enumerate}

\subsection{$H_0$假设}
本文没有明确列出空假设,我补充了一下,即$H_0$:采用非适应性和适应性辅导系统
在学习效果上没有差异。

\subsection{测试分配}
本文采用被试内(within-object)方式分配测试。
被试内测试容易受到学习效应的影响,所以进行一些调整来对冲学习效应。
以下为具体的分配方式:

被试内测验,每一个用户都
进行两节学习。

\begin{enumerate}
    \item 自适应辅导。进行一项学习。
    \item 非自适应辅导。进行另一项学习,难度相仿,但是具体细节有较大差异,这样做的好处
    是可以对冲学习效应。
\end{enumerate}

为了平衡学习效果,将用户随机分成两组,各12人,都进行被试内测验,一组先进行非自适应后自适应,
另一组先进行自适应后进行非自适应。最后将样本混合统计。

\subsection{结果分析}
\subsubsection{自我评价结果}
用户评价采用5点Likert打分评估。

对每组评价进行的单因素方差分析表明,
在 "准确性"(p = 0.10)、"理解"(p = 0.12)、
"记忆"(p = 0.46)和 "信心"(p = 0.27)方面,p值都超过了0.05,
说明结果没有统计意义上的显著性,评价没有明显的差异

\begin{figure}[htbp]
    \centering
    \includegraphics{图片/自我评价.png}
\end{figure}

\subsubsection{客观数据}
客观数据分为两类,一是在学习阶段,而是在测试阶段。

具体就不多说了,看图便知,数据总体表现:

\begin{enumerate}
    \item 学习阶段,自适应的时间要更长
    \item 测试阶段,自适应的错误率显著低
\end{enumerate}

这两个数据都具有统计意义上显著性,p值都很低,符合0.05的a-level显著水平。

\begin{figure}[htbp]
    \centering
    \includegraphics[width=0.6\textwidth]{图片/结果数据.png}
\end{figure}


\newpage
\subsection{问卷调查}
两个问卷调查都展示出了用户对适应系统的倾向性。

\begin{figure}[htbp]
    \centering
    \includegraphics[width=0.7\textwidth]{图片/用户投票.png}
\end{figure}

\subsection{结论与猜想}
之所以出现自我评价相似,是因为人们普遍习惯高估自己的水平。

而测试错误率客观展示了学习效果。

\subsection{感悟与质疑}
自适应的学习时间较长,长的学习时间是否也能降低错误率?所以我觉得这个可能是个混淆
变量。

\end{document}

学新通

结课项目

老师要求做人机交互类的结课项目。
可以是复现,也可以是自己想点子,但是要突出交互。

实际上你分析,对于一个学生,没有设备,只有鼠标,键盘,摄像头,能用到摄像头已经是很高级别了,涉及到视觉方面的技能,尤其是复现,也需要比较多的知识储备,所以要是想快速完成不翻车,最好只用鼠标和键盘,不复现。

我的时间不多了,而且这方面也没必要花大精力搞,再加上我喜欢自己搞一点实用的小东西,所以我就本着实用为主的理念搞出了这么个不复杂但是有一些用的玩具。

文章:MouseBoard-用键盘辅助实现鼠标微操
报告文件百度云 提取码:cyyy
工程文件以及编译后文件 提取码:cyyy

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgafbka
系列文章
更多 icon
同类精品
更多 icon
继续加载