Differences

This shows you the differences between two versions of the page.

--- intern:construction_vqa [2023/08/05 22:25] – [Meeting Notes] jinghaozhang
+++ intern:construction_vqa [2023/08/18 22:51] (current) – [Research Progress (Update weekly)] jinghaozhang
@@ Line 5: / Line 5: @@
 ====Meeting Notes====
 Week 1：
-Time: 2023/7/20
+Time: 2023/7/21
 第一次会议中分享了实现VQA的经典模型，从基本的ViT到改进版的ViLT，以及利用VQA实现工程安全评估的一个案例。
 .会议中就工程安全这一关键词进行了探讨，即如何围绕“安全”这一非定性词汇进行问题的构造。安全既可以具体到工人行为或物体运动的分析，也可以抽象到对现象背后的Score与Reasoning。可以从这个角度出发来构造数据标签、选择对应的模型。
@@ Line 16: / Line 16: @@
 Week 3：
-Time: 2023/8/2
+Time: 2023/8/3
-第二次会议中，我主要调研了要实现VideoQA，从CNN与光流法的“two-stream model”，到3D神经网络,再到目前最主流的Transformer，科学家如何改进模型在空间与时间尺度的信息学习。并结合两篇在模型上给予自己启发的文章进行分析，探讨将其应用到项目中的可能性。其中一篇的ALBEF模型将TEXT Transformer进行拆分，前半部分用作BERT TEXT Encoding，后半部分用作多模态的学习，并在多模态学习前添加了新的loss函数，使其学习更为有效；另一篇的AIM调试则旨在将图像的完备Transformer应用到视频中,他们复制了Image Transformer，分别用来学习时间与空间信息，取得了较好的fine-tuning效果。
+第二次会议中，主要报告了实现VideoQA的调研，从CNN与光流法的“two-stream model”，到3D神经网络,再到目前最主流的Transformer，科学家如何改进模型在空间与时间尺度的信息学习。并结合两篇在模型上给予自己启发的文章进行分析，探讨将其应用到项目中的可能性。其中一篇的ALBEF模型将TEXT Transformer进行拆分，前半部分用作BERT TEXT Encoding，后半部分用作多模态的学习，并在多模态学习前添加了新的loss函数，使其学习更为有效；另一篇的AIM调试则旨在将图像的完备Transformer应用到视频中,他们复制了Image Transformer，分别用来学习时间与空间信息，取得了较好的fine-tuning效果。
 .会议中老师提出，在会议介绍时，__可以先提出big picture，让大家明白自己的工作是基于什么问题展开__。
 .会议后老师提醒，并不能只根据几篇对自己有启发的论文，把它们的创新点拼合起来提出一个新模型就算是解决了问题，__需要以问题为背景（question based），尤其是项目中的safety evaluation进行工作的开展，需要把这个问题重新梳理组织，定义到数据标签或实验设计上，成为更加简单、具体且可操作的问题。__
 PPT: {{ :intern:0802.pptx |}}
-====Research Progress (Update weekly)====
-- [[intern:construction_VQA:construction_VQA | Week 1  (July 10 - July 17)]]
+Week 4:
+Time: 2023/8/10
+本次会议中，主要报告了对safety in construction site进行的工作，以更好地对接VideoQA模型部分。
+Markdown Note: {{ :intern:group_meeting_on_august_10th.pdf |}}
+PPT：{{ :intern:0810.pptx |}}
+Week5:
+Time: 2023/8/18
+本次会议报告了对VideoQA模型复现的进展，并接续上次会议中提到的VQA for better reasoning的topic进行的论文调研。
+Markdown Note：{{ :intern:meeting_on_august_18th.pdf |}}
+PPT：{{ :intern:0818.pptx |}}