Posit 2024 会议视频的合集今天发布了。这是非常好的数据科学学习材料。视频有 100 多个。为了能够挑选感兴趣的视频,通过下载字幕的方法利用大模型对视频内容进行了总结。
总结内容列在这里备查。
Updates from Posit - posit conf 2024
摘要
这段视频内容主要介绍了杜邦公司在食品保鲜、水资源利用和废物价值提升等方面的创新努力,强调了其实现碳中和目标的决心。杜邦设定了到2050年实现全面碳中和的目标,并展示了如何通过各种项目和投资来减少碳足迹。公司鼓励科学家们提问、探索和分享新想法,推动技术创新,并提升数据科学共享的可及性。此外,视频还提到了一些新工具和教育项目,旨在让每位员工都能灵活掌握数据知识,实现可持续发展和社会价值。最后,视频解说了Posit公司的使命与愿景,强调开放源软件在数据科学中的重要性,并介绍了Posit如何通过新开发的工具支持教育和科学研究。
Introducing Positron, a new data science IDE - posit conf 2024
摘要
视频介绍了一项名为Positron的新型数据科学集成开发环境(IDE),该项目在六周前首次公开。演讲者Julia Silge强调Positron的特点,包括其多语言支持(目前支持R和Python),以及针对数据科学工作的专门设计。Positron的开发理念是提高数据科学家的生产力,尤其是因为传统软件工程IDE对数据分析不够友好。
Positron将包括多语言使用的灵活性,用户可以在同一项目中使用不同的编程语言。此外,演讲者还介绍了Positron在代码执行、代码辅助和调试等方面的功能,并通过现代的标准协议(如Jupyter协议和语言服务器协议)实现这些功能。这种架构使得Positron能够无缝支持新的数据科学语言,并提供更好的用户体验。
另外,团队还明确指出RStudio将继续维护,并非被Positron取代,用户可以选择继续使用其熟悉的工具或尝试新的Positron。视频最后提供了有关如何安装和使用Positron的链接,并鼓励参与者提供反馈以帮助其进一步改进。
Closeread: bringing Scrollytelling to Quarto - posit conf 2024
摘要
该视频由加州大学伯克利分校的安德鲁·布雷教授主讲,内容围绕他在教授统计和数据科学时对“scrollytelling”的探索。布雷分享了自己在写期末考试时的拖延经历,并提到了一篇引发他兴趣的文章,强调了媒介在吸引注意力方面的有效性。为此,他和数据记者詹姆斯·戈尔迪合作开发了名为“Close Read”的Quarto扩展格式,以实现更具吸引力的叙事方式。
通过三个示例,布雷展示了如何利用“Close Read”格式来分析文本、图像和代码,强调了“sticky”和“trigger”元素在动态展示中的重要性。他还探讨了如何通过空间交互和动态图形呈现来增强用户体验,认为这一方法在教学和数据新闻中具有广泛应用潜力。最后,他邀请观众访问其文档网站以获取更多信息。
A Future of Data Science - posit conf 2024
摘要
这段视频讲述了数据科学的历史、发展和未来。演讲者以2003年自己通过数据分析研究第一个孩子出生时机的项目为引子,强调数据的重要性。他指出,数据科学是一个能够回答问题、解决争议和提升决策品质的工具和过程。接着,他讨论了数据科学如何在技术和统计学之间找到平衡,强调计算能力在数据科学崛起中的关键作用。
他引用了Gartner的 hype cycle,分析了数据科学的期望峰值和失望谷。在谈到如何改善现状时,演讲者提到数据新闻在提升公众数据素养方面的重要作用,同时也指出,过度关注负面新闻可能会影响人们的幸福感。他强调,尽管面临挑战,但通过合理利用数据和科学方法,人们可以一起解决问题并实现更好的未来。
最后,他对数据科学新人的建议是,利用开放的数据和资源,掌握必要的工具,关注实践,以此来推动持续的进步和创新。
Be Kind, Rewind - posit conf 2024
摘要
视频中,Ellis Huges分享了数据科学中的故事讲述技巧,强调数据科学家通过故事化的方式传达分析结果的重要性。他提到,视频以90年代的Blockbuster为引子,讲述了其辉煌的历史以及未能跟上时代变化而最终破产的教训。他介绍了“camcorder”包,这是一种R语言工具,能够简化数据可视化过程中记录图表的操作,方便数据科学家在探索数据时不需要手动保存每个图表,同时也提升观众对于可视化结果的理解。Ellis展示了如何利用camcorder制作动画以及比较数据的可视化,并鼓励数据科学家在分析中加入故事情节,帮助利益相关者更好地理解分析结果的背景和意义。
Your journey from data science to animated web graphics - posit conf 2024
摘要
本视频由James Goldie主讲,他是澳大利亚墨尔本360INFO的数据与数字故事讲述负责人。他分享了从数据科学到使用JavaScript进行动画网页图形创作的过渡经历。James在360INFO领导数据工作,专注于通过开放图形和数据集提供可靠的信息。他讨论了在数据可视化中使用Quarto和Observable JavaScript的优势,强调了使用这些工具创建交互和动态图形的简单性。此外,James介绍了Sverto工具,这是一种能将Svelte组件集成到Quarto中的扩展,使得数据可视化更加流畅和反应灵敏。他还提供了一些学习资源,帮助不同水平的开发者更好地使用这些工具。整体而言,视频强调了数据科学与数字故事讲述之间的结合,并鼓励观众勇于探索新的技术和工具。
Give me the Data - posit conf 2024
摘要
视频的主要内容是Colin Gillespie分享他在数据处理和使用R语言方面的经历及见解。他介绍了自己从学术界转型的背景,以及在数据读取、管理和存储中的不同选择,特别是CSV和Parquet文件格式。Gillespie强调,虽然R语言提供了多种选择,但这也可能导致复杂性,尤其在处理大数据时。他讨论了如何使用Parquet格式存储数据以提高效率,并引入了DuckDB数据库,作为应对大型数据集查询的解决方案。他总结了稳定性的重要性,并鼓励听众探索不同的数据处理工具,以找到最适合其需求的方案。最后,他邀请与会者提出问题,讨论数据存储和处理的最佳实践。
Event Automation with Posit Connect - posit conf 2024
摘要
在这段视频中,产品经理Kelly介绍了Posit Connect的三项有关事件自动化的激动人心的新功能。她提到,有时使用文档而非应用程序更具优势,尤其是在需要批量创建内容时。此外,Kelly强调了通过自动化和定期发送更新以改善用户体验的重要性。她宣布该团队已接手维护connectapi包,并推出了新的内容渲染功能。此外,还介绍了针对Python的新接口以及新的食谱和博客文章的发布。这些功能旨在提升用户的交互方式和内容管理效率。
Oops I’m A Manager - Finding your Minimal Viable Process - posit conf 2024
摘要
Andrew Holtz在他的演讲中探讨了“最低可行流程”(Minimum Viable Process)的概念,他认为这与初创公司中的“最低可行产品”(Minimum Viable Product)有相似之处。Holtz分享了自己从历史中的管理经历,强调在团队管理中,如何促进有效的沟通和协作,以便团队能够高效工作。他提出,良好的流程应当具有可行性和可持续性,即不仅有效,还需避免团队成员的疲惫和挫败感。此外,他指出,管理过程中应尽量减少不必要的程序,使团队有更多的自由空间来发挥创意。Holtz的演讲还强调了领导力的培养和团队动态的优化,提倡在实践中不断尝试和改进,以求得更好的工作效率和团队氛围。
Using Generative AI to Increase the Impact of Your Data Science Work - posit conf 2024
摘要
视频内容摘要:
在本次演讲中,讲者探讨了生成性人工智能(AI)如何帮助数据科学家提升数据分析结果的沟通能力。他介绍了谷歌的多模态模型Gemini,强调其在处理文本、视频、音频和图像数据方面的强大功能。通过示例,讲者展示了如何使用Gemini解释机器学习模型的输出,以及如何将数据分析结果生成可读的文本,便于与非技术受众沟通。此外,讲者还讨论了如何利用Gemini快速为2024年巴黎奥运会的预测生成多语言讲解,为每个国家提供个性化分析,节省了大量报告撰写时间。最终,总结了Gemini在促进数据科学家有效沟通方面的潜力。
To Explore or To Exploit: Decoding Human Decision Making with R and Python - posit conf 2024
摘要
在这次演讲中,加拿大卡内基梅隆大学的博士生Erin Bugbee探讨了人类决策的模型,尤其是“探索与利用”之间的权衡。通过以选择航班为例,她介绍了最优停止问题,说明决策者如何在搜集信息和做出选择之间找到平衡。她的研究分为三个主要部分:设计人类实验、使用Python模拟行为和利用R进行数据分析。Bugbee表示,人类的决策常常不够最优,导致认知偏差。她的方法包括收集实验数据、模拟理想决策者与认知代理的行为,并通过R语言分析结果,得出人们在不同条件下的决策模式。她的研究强调了反馈在决策过程中的重要性,并指出知识对探索行为的影响,认为这种整合R与Python的方式能够更好地解码人类心理和决策机制。演讲最后,Bugbee鼓励与会者在会议期间继续探索新知识,同时分享了自己在GitHub上发布的相关研究成果。
Posit Academy in the Age of Generative AI - Lessons from the Frontlines - posit conf 2024
摘要
该视频内容讨论了生成式人工智能(AI)对编码教育的影响,特别是在Posit Academy的应用。James Wade分享了他在Dow公司Academy项目中的经验,参与者主要为拥有技术背景的研究人员,他们对AI编码助手的评价并不高。Wade指出,学习过程中至关重要的是“阈值概念”,这些概念一旦掌握,能够根本改变对某一领域的理解。然而,AI助手并不能有效传授这些概念。
他强调,AI助手虽能加快学习速度,但学生仍需亲自体验和掌握基础知识。此外,Wade提出在教学过程中逐步引入AI工具的建议,以避免过度依赖,并鼓励学生在学习中保持主动性和灵活性。他也提到,Posit Academy是一个为期十周的项目,旨在通过实用的课程和项目经验,帮助学员在R或Python中提升编码能力,最终成功地利用AI工具。
Auth is the product, making data access simple with Posit Workbench - posit conf 2024
摘要
视频中,Aaron Jacobs分享了Posit的专业产品,特别是Workbench的演变和新功能。他强调了数据科学在企业中的复杂性,以及如何应对云环境中的认证与授权挑战。Aaron提到,过去企业客户使用传统的文件共享和本地数据库来管理数据访问,而现在、随着云环境的普及,这种方式变得越来越复杂。为了解决这些问题,Posit开始在Workbench中集成云平台的管理凭证,使得数据科学家在使用RStudio等IDE时,能够自动获得所需的访问凭证,无需亲自管理。这种新功能旨在简化企业中的数据访问过程,提高数据科学家的工作效率。他还提及了将来将进一步增强Workbench的功能,并与云服务的无缝合作。最后,Aaron邀请与会者深入交流并体验新的功能。
Keras 3: Deep Learning Made Easy - posit conf 2024
摘要
视频介绍了Keras 3.0,这是一个用于R语言的深度学习框架。演讲者首先简要回顾了深度学习的历史,然后阐述了Keras的优势,包括其适应性强、易于使用等特点。Keras 3.0的新功能包括多后端支持,允许用户在JAX、PyTorch和TensorFlow之间切换,并且提供了新的保存和加载API。此外,Keras还引入了更灵活的API,适用于不同用户需求的自定义深度学习模型。视频还涉及了Keras与Reticulate的集成,确保了Python和R用户之间的一致性。最后,演讲者提到Keras 3.0将继续支持各种深度学习任务,并提供丰富的文档和学习资源。
Shiny x AI - posit conf 2024
摘要
在这段视频中,讲者分享了自己对人工智能(AI)战略的复杂感受,提到自己在过去一年中经常被问及该问题。讲者经历了从否认到接受的五个阶段,最后决定以建设性的方式探讨Shiny与AI的关系。首先分析了Shiny对AI研究人员的价值,说明Shiny是构建AI应用的良好框架。接着讲述了Shiny如何利用大型语言模型(LLMs)提升现有应用,通过与用户交互和实时分析,增强数据可视化的功能。讲者强调SQL作为人与AI之间的有效中介,说明了在开发过程中对LLMs的初步实验和学习成果,鼓励与会者保持批判思维的同时,对AI的潜力保持好奇心,期待未来的发展和应用。
Editable data frames in Py-Shiny: Updating original data in real-time - posit conf 2024
摘要
在2022年,Joe Cheng发表了一段有力的声明,称R是Shiny的最佳语言,并提及Dan Callahan在2018年表示Python是次优语言。Barret Schloerke作为Shiny团队的一员,致力于改变这一观点。视频回顾了自2012年Shiny推出以来的数据框架支持历程,介绍了多个数据表格处理工具,包括DT、rhandsontable、Reactable和GT,各自的优势与局限性。
随着时间演进,Shiny为Python的推出使其有机会与R的丰富经验相比较。Python版本的Shiny内置了基于列的过滤功能,增强了数据选择和样式功能,虽然在编辑方面尚未达到与R版本相同的水平。视频还提及未来对Narwhal等库的支持,以便更好地处理数据框架。
总的来说,Barret强调了Shiny工具包的进步与互补性,并期待将Python版本的Shiny打造成一个强大的数据表格处理平台。
Deep Learning is Just LEGO: and Other Hands on Machine Learning Activities - posit conf 2024
摘要
在这段视频中,切尔西·帕勒特-佩勒里提(Chelsea Parlett-Pelleriti)探讨了如何通过动手实践的学习活动来提高深度学习的可理解性和趣味性。她分享了自己的职业转变,从学术界转向工业界,但仍然在工作中体现出教学的职能。切尔西强调,通过诸如乐高活动等互动式教学方式,使得深度学习概念更容易被理解,尤其是计算机视觉中的卷积和梯度下降等数学概念。她提出,利用物理对象来展示抽象的数学,是帮助学生更好理解和消化知识的有效方式。切尔西鼓励教育者设计能够降低认知负担、利用物理直觉和促使逐步解决问题的活动,以提高学习的参与度和效果,适用于各种教学环境。最后,她提到寻求更广泛的资源和社区,以分享这些教学活动的经验和材料。
Easing the pain of connecting to databases - posit conf 2024
摘要
视频中,Edgar,一位来自Posit的开发者,总结了有关简化数据库连接的一系列改进。主要谈到ODBC包的更新,特别是引入了一个新函数Databricks
,它大大减少了连接所需的参数,只需提供SQL仓库路径即可。这种设计使得用户可以更方便地连接数据库,并且优化了认证方式的设置。此外,还介绍了新引入的snowflake()
函数,用于连接Snowflake数据库,实现了类似的简化。Edgar还讨论了Positron中的数据库连接功能,强调了在新的IDE中可以更轻松地进行数据预览和分析,从而提升了工作效率。最后,他解答了观众提出的一些有关远程数据库连接及ODBC更新的问题。
tidymodels for time-to-event data - posit conf 2024
摘要
该视频介绍了生存分析在客户流失预测中的应用。演讲者来自Posit的tidymodels团队,分享了以前与一个订阅型企业合作的经验,帮助该企业利用数据分析客户流失问题。演讲中强调,生存分析能够同时处理事件发生的时间和状态,这是标准回归和分类模型无法有效解决的。通过构建生存曲线,可以对客户的留存时间和流失概率进行建模。演讲者还演示了如何利用tidymodels框架进行生存分析,包括数据处理、模型训练和生存概率预测。最后,演讲者提到如何结合其他数据类型(如空间数据和文本数据)进一步提升分析效果。
Saving time (and pain) with Posit Public Package Manager - posit conf 2024
摘要
视频内容摘要:
在视频中,Joe Roberts,Posit的产品经理,介绍了Posit公共软件包管理器(P3M)的功能和优势。他首先解释了公共软件包管理器的基本概念,并讨论了使用R语言时常见的软件包问题,如软件包更新导致的代码不兼容、软件包消失以及安装速度慢等。Joe指出,R语言的流行部分源于其便捷的CRAN包安装能力。
Posit公共软件包管理器提供了对CRAN的完整镜像及额外功能,包括每日快照和旧版本支持,从而帮助用户轻松重建软件包环境并提高安装速度。他提到,它支持所有主要的操作系统和多个Linux发行版的预构建二进制包,这大大减少了安装时间。
最后,Joe展示了如何简单设置P3M,鼓励用户尝试该工具,并表示它可以与其他包管理工具(如renv)配合使用。视频中还回答了一些常见问题,重点强调了P3M的便捷性和实用性。
Supporting Social Good Through Community-Based Data Science Education - posit conf 2024
摘要
在这段视频中,约翰霍普金斯大学的弗雷德·哈钦森癌症中心的数据科学教育者讲述了如何通过社区基础的数据科学教育支持社会公益。她强调,数据科学不仅令人振奋,更需负责任地运用,尤其是在伦理方面。尽管许多本科数据科学课程缺乏伦理培训,但她倡导通过与社区组织的合作,让学生在实际项目中学习数据科学和数据伦理,从而讲述更有说服力的数据故事。课程(巴尔的摩社区数据科学课程)目的在于增强学生的技能,同时支持社区组织,帮助它们更好地利用数据进行自我推广和改进。她总结了五个重要经验,包括关注历史背景、优先以人为本、进行批判性反思、应对挑战和关注可持续性。最终呼吁培养更多负责任的数据科学家并强调学生与社区组织间的协作价值。
Using the Kyber R package to connect Google Sheets, RMarkdown, GitHub, and Agenda docs for open edu
摘要
本视频由生物学家Stefanie Butland讲述,介绍了她在OpenScapes的工作及其使用Kyber包的经历。OpenScapes旨在推动开放科学运动,与NASA、NOAA渔业和西雅图的Fred Hutch癌症中心等研究团队合作,提升科学研究效率。Butland分享了使用Kyber包自动化创建多页Google文档议程的过程,从而减少手动操作带来的错误和时间消耗。Kyber包可以通过简单的R函数提高工作效率,使得研究团队能够更专注于工作内容,而不是重复性任务。California Water Boards的Anna Holder团队已成功应用Kyber,显著提升了他们的工作效率。Butland期待与团队一起探索Kyber的更多可能性。
Fair machine learning - posit conf 2024
摘要
本视频讨论了机器学习模型的公平性,并通过一个例子展示了如何在不同上下文中对模型进行评估。演讲者首先通过预测花瓶重量的例子,引出一个问题:这个模型是否公平?观众的反应大多是困惑。随后通过更改上下文,将模型转变为房屋评估,演示出类似的统计行为在不同情况下的道德感受差异。演讲者指出,机器学习的公平性并不只是数学度量,而是与我们的道德信念密切相关。他强调,要在分析模型时,考虑整个系统的背景,而不仅仅是模型本身的表现。最后,他鼓励与会者选择能够支持这一思考的工具,强调了对公平性定义的复杂性以及需要综合考虑道德、数学和系统背景的挑战。
Understanding, Generating, and Evaluating Prediction Intervals - posit conf 2024
摘要
本视频讨论了关于太阳能公司预测不准确的问题,以一对签署了20年太阳能面板租赁协议的夫妇为例,展示了太阳能公司未能准确预测家庭用电量变化,导致客户失望。接着,演讲者探讨了在提供预测时纳入不确定性的重要性,建议使用预测区间而非单一估计值,以便为利益相关者提供更全面的信息。演讲者还介绍了量化回归和符合性预测等方法,以生成包含不确定性度量的预测区间,并强调了这些方法的适用性和优势,同时还提及如何在模型中实现不确定性管理,以提高决策的有效性。
Tidypredict with recipes, turn workflow to SQL, spark, duckdb and beyond - posit conf 2024
摘要
本讲座讨论了如何在建模工作流程中利用“orbital”包进行模型预测。演讲者分享了其在数据建模过程中的经验,包括使用“penguins”数据集建立简单模型,处理缺失值和生成虚拟变量等步骤。演讲的重点是如何利用“orbital”包,使得已拟合的模型能够在数据库中运行预测,实现了模型的简化和降低依赖性。
“orbital”包不仅支持预测,还能生成相应的SQL代码,方便将模型直接应用于数据库而无需依赖R环境。演讲者强调了该包的优点和缺点,包括对某些模型的支持限制和输入检查的缺乏。总之,“orbital”包展示了高效且灵活的模型预测应用前景,极大地简化了数据科学家的工作流程。
GitHub: How To Tell Your Professional Story - posit conf 2024
摘要
视频中,Abigail Haddad回顾了她七年来的数据科学职业生涯,包括她取得的工作和参与的项目。她强调了专业故事的沟通,特别是通过GitHub展示个人技能的重要性。Abigail指出,GitHub不仅可以有效展示编码技能、问题解决能力和沟通方式,同时也是业界标准且免费的个人作品展示平台。她建议选择能够展示能力的项目,并分享了一些良好的开发实践,如模块化代码、文档化和组织结构,以提升代码的可读性和可维护性。最后,她呼吁数据科学从业者积极利用GitHub建立和维护个人项目,以便在求职时更好地向潜在雇主展示自己的技能。
Building ML and AI apps with Shiny for Python - posit conf 2024
摘要
视频内容介绍了一款名为“Shiny Assistant”的新工具,它旨在帮助用户使用Shiny进行编程。演讲者分享了自己对生成性人工智能和大型语言模型(LLMs)的看法,强调了该工具在创建应用程序和简化工作中的实用性。Shiny Assistant拥有聊天界面,可以回答用户的问题、生成代码示例并与Shinylive平台结合,实时运行生成的应用程序。
视频展示了如何通过Shiny Assistant创建线性回归应用,并对生成的数据进行调整、调试及改进。此外,演讲者还演示了如何使用Shiny Assistant与外部API交互,并构建一个基础的检索增强生成(RAG)应用。整体来说,这款工具旨在加速Shiny项目开发,提高效率,但用户仍需具备一定的编程知识来验证和调试生成的代码。最后,演讲者鼓励观众积极探索,创造新的应用程序并分享成果。
https://www.youtube.com/watch?v=VJEBg1Ke0lE
摘要
处理出错: 未找到字幕文件
Using GitHub Copilot in R Shiny Development - posit conf 2024
摘要
本次演讲讲述了GitHub Copilot在Shiny开发中的应用。演讲者通过展示几个Shiny应用,讨论了如何使用Copilot将其他前端框架转换为Shiny UI,并强调了对数据分析师的适用性。Copilot通过与R语言集成,可以帮助开发者改善前端工作,自动化重复性任务,以便他们更专注于数据分析和统计工作。演讲中详细介绍了使用Copilot的基本工作流程,包括提示(prompt)、响应(response)、上下文(context)和迭代(iteration)。演讲者提供了编写有效提示的原则,并分享了如何利用文档、网络知识和示例来丰富上下文,从而提高Copilot的工作效果。最后,他鼓励数据专家尝试使用Copilot,以提高工作效率和质量。
Report Design in R: Small Tweaks that Make a Big Difference - posit conf 2024
摘要
视频的主题是使用R语言设计高质量报告。主讲人David分享了他通过R制作参数化报告的经历,强调了可重复性和美观性的重要性。他指出,尽管技术人员往往忽视设计,但好的设计不仅能提高信息的实用性,还能建立信任。David介绍了实现美观报告的三个路径,并强调了品牌颜色和字体的一致性。通过使用自定义函数和图形主题,他展示了如何将品牌元素融入数据可视化中,最终达到吸引人的报告效果。David希望观众也能掌握这些技巧,以创建出色的报告。
Democratizing Organizational Surveys with Quarto and Shiny - posit conf 2024
摘要
本次讲座的主题是如何重新思考在组织中收集反馈的方式。讲者指出,反馈的有效性受时间、动机、隐私和信任等多重因素的影响,传统的调查方法常常无法激励参与者认真回应。通过结合参与者的个人网络报告,讲者提出了一种新方法,即不仅提供管理层数据,还直接给予参与者有价值的反馈,帮助他们理解和利用网络信息。该方法通过将反馈过程转变为个体反思和能力建设的环节,提高了数据质量和参与者的积极性。讲者举例说明了在一些公司中如何实现这一目标,并展示了通过互动工具建立的平台在改变数据收集与分析方式中的潜力。最终,讲座强调了提升参与者体验和重新定义权力关系的重要性,以便于推动组织内的积极变革。
Evaluating Time-to-Event Models is Hard - posit conf 2024
摘要
视频内容讨论了如何评估时间事件模型的有效性,特别是在生存分析中的概率预测。主要涉及的内容包括数据点的处理、动态性能指标的计算、Brier曲线和ROC曲线的应用等。演讲者强调了评估过程中面临的挑战,例如缺失数据的处理和模型评价的复杂性。通过举例说明了如何使用反向Kaplan-Meier曲线和逆概率加权的方法来弥补数据缺失的影响。最后,演讲者总结道,尽管模型评估过程复杂,但通过使用简化的API和工具,依然能够有效地进行数据分析。
CONNECTing with our clients - posit conf 2024
摘要
在这次演讲中,发言者分享了自己在posit::conf上的体验,代表ConcertAI讨论数据科学过程中的一些瓶颈和改进策略。ConcertAI是一家专注于真实世界数据的公司,主要收集和分析肿瘤患者数据。发言者指出,在分析结果交付后,常常会收到修订请求,导致项目周期延长和效率降低,并强调了团队间信息传递的多样性和不一致性。
解决这些问题的一个方法是通过自助服务减少反复的请求,并引入基于网络的开发平台的互动性。发言者介绍了Posit Connect作为一个企业出版平台的优势,让不同背景的用户能够快速部署和共享内容,同时保持版本控制,确保质量和安全。此外,演讲中还着重展示了团队在多个项目中使用Posit Connect的成功案例,包括文档自动化、数据浏览器和API创建,提升了内部团队和客户的效率和体验。
最后,发言者感谢团队的支持,并表达了对未来可能性的期待,如更广泛的应用和更高的客户满意度。
Beyond the Classroom: Unspoken Realities of a Data Science Career - posit conf 2024
摘要
在POSIT大会上,演讲者分享了数据科学职业的三个重要现实:扩展网络、找到自己的专业领域和自我倡导。首先,他强调了网络的重要性,鼓励大家通过与同事和其他专业人士交流,寻求帮助和建立友谊来扩展自己的社交圈。其次,他提到找到自己的专业领域可以帮助个人专注于感兴趣的事情,从而提升职业价值。最后,自我倡导则是让他人了解自己的能力和职业目标,确保在职场中获得成长和机会。尽管演讲者是个内向者,他也鼓励参与者勇敢走出舒适区,通过小目标逐步改善人际交往技能。总体而言,他传达了职业发展不仅依靠技术能力,还与人际关系息息相关。
Context is King - posit conf 2024
摘要
视频由数据科学家Shannon Pileggi主讲,讨论了在数据管理和处理中的元数据(metadata)重要性。她通过一个职场情境,展示了在处理数据报告时遇到的歧义问题,强调了变量命名的模糊性可能导致的困惑。Shannon提出了将元数据嵌入到数据中的方法,例如使用变量标签,以便在程序环境中更快速、更有效地理解数据。她介绍了如何在R编程中利用标签来改善数据的可读性和可用性,强调这对于现有和未来的工作、团队协作及数据审查过程至关重要。此外,她还分享了保留元数据的方法和工具,以及如何在团队内部建立这种标准的实践,旨在提升数据科学工作的效率和质量。最后,她鼓励观众探索如何在各自的工作中有效使用这些元数据功能。
Reproducible, dynamic, and elegant books with Quarto - posit conf 2024
摘要
本视频讨论了利用Quarto创建可重复的、动态的和优雅的书籍的实践经验。演讲者分享了自己在过去一年中与Quarto合作写作的三本书:一本关于现代统计学的教材、一部关于数据科学的书及一部正在进行中的Quarto指南。演讲中提到,创建书籍的过程中需要考虑多个输出格式(如HTML和PDF)、可访问性(如为图表添加替代文本)以及使用GitHub Actions进行代码检查等功能。通过具体示例,演讲者展示了如何通过精心设计样式和有效管理代码,确保书籍在不同平台上的一致性和功能性。演讲的最后,演讲者展望了未来的项目,期待能简化书籍制作的流程。
Contributing to the R Project - posit conf 2024
摘要
这段视频主要讨论了开源软件R项目的可持续性和多样性,强调了用户和开发者在构建和维护该项目中的重要性。演讲者提到,虽然R有一个小型核心开发团队,但社区用户和外部贡献者的参与至关重要。他们鼓励大家通过代码贡献、文档修正、预发布测试和报告bug等多种方式来贡献自己的一份力量。此外,金融支持也非常重要,比如通过R基金会和R联盟的会员制度。演讲者分享了参与的具体方法,走势许多社区和支持资源,号召更多人加入到R项目的持续发展中。最后,他提供了获取更多信息的QR码。
Giving your scientific computing environment (SCE) a voice - posit conf 2024
摘要
视频中,James Black讲述了他在罗氏公司作为科学计算环境产品负责人的项目经验。他与API工程师Vijita及数据产品开发者Krystian合作,致力于优化科学计算环境的用户体验和资源利用效率。主要讨论了两个问题:一是将用户实际操作数据纳入决策过程,二是优化计算资源的使用。在分析用户行为时,James聚焦于用户使用的R版本、交互容器的闲置情况、Connect服务器的磁盘空间管理及用户部门的使用模式。他强调了通过操作数据提升用户对计算资源的认知,并试图引导用户改进资源使用习惯,以减少不必要的费用和环境影响。最终,James展示了一个实时仪表板,帮助团队有效地分析这些数据,从而更好地满足用户需求。
Getting Data Done with a Pragmatic Data Team - posit conf 2024
摘要
该视频讨论了数据科学团队在工作中面临的挑战和发展机会,借用安纳普尔纳山脉的攀登故事为例,强调了团队成员在完成复杂项目和解决临时需求之间的矛盾。演讲者提到,团队成员常常在期待数据科学价值的同时,从事一些不一定具有直接价值的基础性工作。这种对价值观的偏差会影响团队士气和工作的有效性。因此,作为团队领导,需要明确设定工作期待,帮助团队成员在满足业务需求的同时,发展个人技能。通过建立常规的分享平台,团队可以互相学习、获得反馈,从而提高士气与信心。此外,演讲者还建议,通过合理的目标设定和团队协作,避免职场倦怠。整体而言,该演讲强调了在复杂工作环境中,追求技能成长与业务目标之间的平衡。
Uniquely Human: Data Storytelling in the Age of AI - posit conf 2024
摘要
视频内容由Laura Gast主讲,围绕如何有效沟通复杂技术信息,尤其是在人工智能(AI)领域展开。Laura回顾了自己的多元背景,包括机器学习、公共卫生等领域的经验,并强调了在向高管推销技术项目时,个人沟通的重要性。她提出三大关键点:首先是“背景”,即为数据和项目提供适当的上下文;其次是“叙事”,将技术故事化以吸引听众的参与和情感反应;最后是“影响”,强调人类在数据转化为行动中的不可或缺性。她总结道,作为技术的代言人,清晰而有力的沟通能够帮助传达数据的价值与影响。
From idea to code to image: Creative data visualizations in R - posit conf 2024
摘要
视频内容摘要:
本视频讨论了如何使用R语言中的ggplot制作富有创意和美观的数据可视化。演讲者强调创意可视化的重要性,认为它们能够使观众更容易理解和记忆信息,同时也是自我表达的方式。创意可视化的关键要素包括新颖性和将不同概念的结合。视频中介绍了几个获取创意的途径,比如参考他人的作品,探索新包,慢下来进行草图绘制,以及尝试打破可视化的常规规则。
演讲者还分享了一些编码时的创意技巧,例如学习他人的代码,复刻喜欢的图表,以及玩弄不同的图形几何形状(geoms)。此外,强调了寻找个人风格的重要性,并建议多尝试和记录灵感。在创作中,观众被鼓励保持简单、可接近,同时也要给他人的创意和代码适当的认可。最后,演讲者提醒大家创造性不应成为唯一目标,应以实践和反馈为基础,逐步提升自己的可视化技能。
API-first package design — and learning patchwork in the process - posit conf 2024
摘要
在这段视频中,软件工程师Thomas Lynn Peterson介绍了Patchwork,这是一个用于R语言的图形组合包,旨在帮助用户将多个ggplot2图表无缝组合成一个整体。他解释了Patchwork如何通过增强ggplot2的加号操作符,使得图形排列更加直观和一致。视频还探讨了API优先设计的重要性,强调明确的使命感和保持API简洁性在包开发过程中的必要性。Patrickwork通过有效的API设计,能够在保持简单易用性的前提下,灵活支持复杂布局,同时避免不必要的功能杂乱。最后,Peterson分享了在Patchwork开发中的经验教训,鼓励用户思考API设计带来的可能性。
AI for Gaming: How I Built a Bot to Play a Video-Game with R and Python - posit conf 2024
摘要
该视频讨论了AI在游戏中的应用,以Gatai为例,它在"Christmas three"这一在线拼图游戏中进行学习和优化。Gatai项目源自于一个游戏创建者的网络门户,随后演变为基于AI的系统。在视频中,讲者解释了游戏的基础规则,以及使用强化学习和Q学习算法的必要性,提到由于可能的状态组合数量极大,必须开发策略来减少状态空间。经过多个策略的尝试,Gatai成功通过训练在小型子板上实现智能移动,并通过Selenium与浏览器进行交互。最终,Gatai在游戏中取得平均每步42.5的得分,远超讲者的水平。讲者还探讨了将相似算法应用于其他类型游戏的可能性,并计划将这项研究成果用于大学课堂的教学中。
Supercharge Your Shiny (for Python) App: Unleashing Jupyter Widgets for Interactivity - posit conf
摘要
本视频讲解了如何使用 Jupyter Widgets 强化 Shiny for Python 的功能。演讲者首先解释了 Jupyter Widgets 的概念,介绍了两种类型的绑定:一是单向绑定,仅允许在 Python 代码与前端之间传递数据;二是双向绑定,允许 Python 和 JavaScript 之间的数据双向传输,提供更强的交互性。例如,使用 quak 包可以创建交互式表格,用户操作时能够实时更新 Python 对象。视频还探讨了如何通过 shinywidgets 包在 Shiny 中使用 ipywidgets,利用其双向绑定特性来实现更复杂的交互和数据更新。最终,总结强调了两者之间的互操作性,使得在 Shiny 中使用这些先进的小部件成为可能。
Practical Tips for Using Generative AI in Data Science Workflows - posit conf 2024
摘要
视频的主要内容是Melissa Van Bussel谈论她作为数据分析师对生成性人工智能(GenAI)的个人经历和看法。起初她对GenAI感到恐惧,担心它会影响自己的职业,但随着学习的深入,她逐渐对该技术产生了浓厚的兴趣。她指出,GenAI的确改变了编程和数据科学的思维方式,并分享了她通过制作视频和举办讲座建立更广泛网络的经历。然而,在准备演讲的过程中,她产生了对GenAI的疲惫感,但也找回了兴趣。
接下来,Melissa提供了一些关于如何利用GenAI进行数据分析和可视化的具体示例,特别是讨论了OpenAI的GPT-4.0模型在图像处理、数据清洗和分析方面的应用。同时,她分享了一些创意实用案例,旨在帮助那些感到疲惫或怀疑的人重新找到对GenAI的热情。最后,她强调了负责任地使用GenAI的重要性,介绍了加拿大政府制定的“FASTER”原则,旨在推动快速、负责任的GenAI使用方法。
整个演讲传达了对GenAI的复杂关系,既有热情也有谨慎,鼓励观众在自己的数据科学工作中探索GenAI的潜在应用,同时注意伦理和安全的考量。
Elevating enterprise data through open source LLMs - posit conf 2024
摘要
视频内容主要由Zac讲解了如何利用组织内部的数据与大语言模型(LLMs)结合,提升公司的竞争优势。他指出数据的成熟度与公司的竞争力密切相关,强调了数据治理和安全性的重要性。在传统的LLM使用中,用户直接向模型提问,而RAG(检索增强生成)技术则通过访问相关数据,提高了回答的准确性和实用性。Zac还介绍了如何使用Databricks和Posit Connect等工具,构建一个既安全又有效的AI应用。最后,他总结了数据、模型和治理安全三个关键要素,呼吁企业尽快采取行动,利用数据与LLMs的结合创造竞争优势。
Building sustainable open-source ecosystems: Lessons from the #rstats community and an NSF grant
摘要
在这次会议上,演讲者讨论了开放源代码生态系统的可持续性,特别是围绕R语言社区的未来发展。她分享了个人经验,包括在新冠大流行、Posit品牌重新命名和社交媒体环境变化的背景下,R语言和其重要包(如data.table)的现状。她强调了社区成员的重要性,并提出了多种支持开发者和包的方式,包括贡献时间、报告问题、翻译、给开发者打赏和引用他们的作品。此外,她呼吁参与者积极分享知识、鼓励新用户,并重新建立社区联系。演讲结束时,她鼓励大家享受这个过程,并继续为R语言的发展贡献力量。
Quality Control to Avoid GIGO in Deep Learning Models. - posit conf 2024
摘要
视频中,资深数据科学家Vasant Marur分享了他在制药领域应用深度学习模型的经验,强调图像质量控制(QC)对模型有效性的关键作用。他主要讨论如何避免“垃圾进,垃圾出”(GIGO)现象,通过自动化的图像QC流程来确保所用图像的质量。Marur介绍了他团队使用显微镜采集细胞(如巨噬细胞)的图像,并采用多种染色技术以获取最佳表现的细胞形态数据。在QC过程中,他们利用Python编写的工具及Isolation Forest算法来检测图像中的异常,以筛选出高质量图像供深度学习模型训练。为便于生物学家使用,团队还开发了一个基于Shiny的用户界面,使生物学家能够调整图片筛选的阈值,以实现更精确的QC过程。最终目标是提升深度学习模型的可靠性,以助力药物发现和疾病研究。Marur强调了团队协作和技术的整合在这一过程中发挥的重要作用。
“Please Let Me Merge Before I Start Crying”: And Other Things I’ve Said at The Git Terminal
摘要
这段视频讨论了关于Git的使用,特别是如何处理合并和冲突的问题。讲述者分享了自己如何从初学者迈向能够自信地使用Git的经验。视频中强调了Git和GitHub的区别,并探讨了合并的基本概念和常见的合并冲突类型。讲述者通过个人经历,比喻使用Git协作类似于驾车旅行,提到了解决冲突的过程通常涉及沟通、工作流程及个人知识的提升。视频还 recommends 了一些策略来减少冲突发生的频率,包括在编码前后进行充分的准备和检查,保持良好的沟通,以及合理使用工作流。讲述者希望观众能逐渐克服对合并冲突的恐惧,通过练习和准备,变得更自信地掌握Git的使用。
R Scripts to Databricks: Lessons in Production Workflow - posit conf 2024
摘要
在这段视频中,数据科学家Eric Leung分享了他在华特迪士尼公司与ESPN合作项目中的经验,重点讨论了如何评估广告在直播电视上的有效性。他总结了三个关键经验教训:首先,不要重复造轮子,可以借鉴他人的成功案例来提高效率;其次,要使用最佳可用工具,如Databricks,以便于数据处理和规模化工作;最后,要在项目计划中预留时间,以便掌握新工具并确保项目顺利完成。
Datapages for interactive data sharing using Quarto - posit conf 2024
摘要
视频内容摘要:
Mika是斯坦福大学的软件开发员,她介绍了一套旨在改善数据共享的工具和模板。她以研究人员为例,说明了如何有效共享高价值数据,确保数据的可发现性、可访问性、互操作性和可重用性(FAIR原则)。Mika强调了传统的数据共享方式(例如在GitHub上上传静态文件)的有限性,并提到自定义数据库和网站虽然功能强大但工作量大。因此,她提出了使用Redivis数据平台和Quarto格式创建数据页面的方法,该页面既易于制作又具丰富功能,使得用户能够轻松互动和可视化数据。视频中详细讲解了创建数据页面的步骤和功能,包括主页、数据浏览器和分析页面等,展示了如何定制和配置个人数据网站。最后,Mika鼓励观众访问datapages.github.io,探索已有的数据页面模板并开始制作自己的数据页面。
Level up! Empowering industry R users with different levels of experience - posit conf 2024
摘要
视频介绍了如何提升团队成员在R语言方面的技能,将技术解决方案与文化解决方案结合起来。数据科学家Seth Copolnix强调了团队成员在技术背景和编程能力上的多样性,并提出了两个技术解决方案:首先是创建内部R包,以提高代码重用性、减少错误、便于维护;其次是利用Posit Connect来使项目可重复和可调度,方便团队协作。接着,Seth讨论了文化解决方案,包括建立Wiki来分享知识、设立办公时间和配对编程,鼓励团队成员相互帮助和学习。他强调,无论团队规模如何,每个人都可以通过分享知识和创造积极的文化来提升团队的整体技能水平。最后,Seth鼓励观众采取行动,从小处着手,共同提升团队技能。
CI madness with Ibis: testing 20 query engines on every commit - posit conf 2024
摘要
本视频讲述了如何在每次提交时对二十个数据库进行测试,演讲者Philip Cloud分享了他在Voltron Data的IBIS项目中的经验。IBIS是一个用于探索性数据分析的Python库,支持多种数据库。Philip指出,测试复杂系统时常常面临的挑战,包括Docker设置、Python包管理和测试速度等。他强调了快速的环境设置和测试的重要性,并介绍了使用Poetry进行依赖管理,从而提高了CI(持续集成)的效率。另外,Philip探讨了如何利用Docker和简单的任务运行工具来简化复杂的测试流程。他还分享了通过量化测试工作流和作业的时长来优化CI流程的经验。最后,他鼓励团队在开发过程中重视测试,持续改进工作流程。
https://www.youtube.com/watch?v=4zy9R26B8kk
摘要
处理出错: 未找到字幕文件
Empowering Decisions: Advanced Portfolio Analysis and Management through Shiny - posit conf 2024q
摘要
该视频讲述了在2024年Posit大会上,由数据与人工智能咨询公司ProCogia的Love介绍的一个投资组合分析与管理工具的开发历程。Love分享了他们如何利用R和Shiny技术,为金融行业客户创建一个动态、互动的工具,以实时提供数据信息并辅助投资决策。
他指出,传统的电子表格和商业智能工具在处理投资数据时存在许多局限,如易出错和缺乏定制化。为了解决这些问题,ProCogia使用R和Shiny构建了一个用户友好的仪表盘,能够快速分析数据和提供即时反馈,从而提升决策效率和准确性。该工具允许用户进行资金配置模拟和“假设分析”,并运用Plumber API进行后台数据处理及日志记录,确保操作透明可追溯。
视频最后,Love总结了这个工具在真实世界中带来的影响,比如增强了用户参与感和决策质量。同时,他也回应了观众关于多用户访问、数据动态更新等技术细节的问题,展示了R和Shiny如何有效整合,实现投资组合管理的创新。
Mixing R, Python, and Quarto: Crafting the Perfect Open Source Cocktail - posit conf 2024
摘要
这段视频内容是关于一个母亲同时也是Apache Arrow开源项目维护者的分享。她描述了在回家时被孩子们的热情包围的感受,类比于开源项目中面临的各种挑战。在Apache Arrow项目中,众多新人贡献者的参与带来了大量的信息和问题,这使得管理变得困难,因此她和同事们创建了一个仪表板来整合和管理这些信息。仪表板突出新贡献者的贡献,并支持Python和R语言的结合,方便快速获取所需信息。此次项目还强调了团队合作和不同技能背景的重要性,他们通过相互学习和共享思路解决了信息过载的问题。最后,她鼓励与会者在会议中寻找合作机会,讨论感兴趣的问题。
Converting Posit-Enthusiasm into Posit-Action - posit conf 2024
摘要
这段视频的内容分享了一位演讲者的经历和启发,重点在于他参加一年一度的会议posit::conf()后,如何通过与当地社区的联系,实施自己的计划并取得成功。演讲者提到了一种传统的毛利文化连接方式——Pepeha,以及他在会议中的灵感,包括使用毛利语进行会议开场,建立社区引导的会议,以及创建个人网站来记录自己的学习和兴趣。他分享了在这些过程中面临的挑战和收获,特别是如何通过建立联系来实现个人目标,强调了社区的重要性和参与的力量。最后,他鼓励听众积极与社区互动,通过共同的经历来促进学习和成长。
Building scalable data pipelines through R and global health information systems’ API - posit conf
摘要
视频中,Karishma分享了如何通过API简化数据访问流程,以提高工作效率。她以鲁布·戈德堡机器为比喻,强调了简化复杂工作的重要性。通过在美国国际开发署工作的经验,Karishma介绍了团队在面对庞大和多样化数据时所遇到的挑战,例如缺乏集中数据湖和手动处理的麻烦。她总结了四个关键经验:1)从小做起,逐步扩展;2)减少手动操作,避免错误;3)利用现有基础设施,如Google API;4)把成功的工作打包成可复用的工具和文档。通过这些方法,团队实现了数据处理的自动化,节省了时间,能够更专注于分析和决策。最后,她鼓励大家思考如何优化自己的数据流程,推动自动化。
https://www.youtube.com/watch?v=Baoa9Yr6TaM
摘要
处理出错: 未找到字幕文件
JSquarto: Bridging JavaScript Documentation with Quarto’s Power - posit conf 2024
摘要
该视频内容介绍了沙特阿拉伯开放源代码社区的一名协作者的工作,重点讨论了如何改善JavaScript项目的文档。演讲者提到,良好的文档对开源项目至关重要,但许多项目面临文档过时和难以本地化的问题,特别是对非英语国家的贡献者。为了解决这些问题,可以使用工具如JSDoc,它允许开发者在编码时直接通过代码注释生成文档,从而简化文档生成过程。总的来说,视频强调了全面、及时的文档在开源项目中的重要性和实用性。
We CAN have nice Shiny apps: What’s new in Shiny’s UI & UX - posit conf 2024
摘要
在这段视频中,设计师Greg分享了他在Shiny应用程序设计方面的工作和改进。他表示自己一直致力于使Shiny应用程序在默认情况下变得更加美观和易用。他回顾了过去两年与Shiny团队的合作,展示了他们如何通过更新配色方案和组件设计来提升用户体验,包括引入新的颜色调色板和布局设计,使得应用程序在手机和桌面上都能更友好地展示。Greg还介绍了新建的Shiny组件和布局画廊,帮助用户快速查找和选择所需功能。同时,针对不同的使用场景,Shiny还提供了模板和示例代码,以便轻松上手。他强调了现代化设计对提高应用程序使用效果的重要性,并鼓励用户探索这些新功能。
Shiny in Action: Transforming Film Production with TARS - posit conf 2024
摘要
视频总结:
本视频由Appsilon的工作人员分享,重点讲述了与一间好莱坞电影制片厂合作开发的TARS应用程序的案例研究。视频介绍了电影行业的复杂性,强调了在制作过程中数据和报告的重要性。以前,该制片厂手动生成大约60份报告,协调20个部门之间的工作,但报告的质量和效率都不令人满意。
TARS的开发解决了这些问题,成为了一个集成的、自动化的报告生成工具,提供准确的数据来源和定制功能。用户可以根据自己的需求生成报告,设置自动化的报告生成和分发,显著提高了工作效率。演讲者表示,TARS的成功展示了Shiny作为企业级软件解决方案的潜力,优化企业流程没有限制,未来电影制作也可能会由TARS支持。视频结束时,演讲者欢迎观众进一步提问。
Data Wrangling [for Python or R] Like a Boss With DuckDB - posit conf 2024
摘要
在这次演讲中,Hannes介绍了DuckDB,强调了它在数据处理中的高效性和用户友好性。他回顾了记录管理的历史,从古代的表格到当今的数据技术,并指出当前数据库系统在处理大数据时的痛点。他比较了传统数据库(如Postgres)和DuckDB,展示了DuckDB在读取和分析大数据时的高效性,尤其是在避免内存限制时的表现。
他强调DuckDB的“在过程内”的架构,使得用户无需复杂设置即可使用,并具有良好的性能。此外,DuckDB支持多种数据格式(如CSV和Parquet)并能通过SQL及dplyr等接口进行分析,提升了用户体验。Hannes提到,DuckDB在设计上关注用户需求,并通过并行处理和高效的C++实现来提高速度,进而使得使用该工具进行大规模数据分析成为可能。
最后,他呼吁大家将数据存储在DuckDB中,以减少数据处理的复杂性和提高效率,并认为单节点数据库将成为未来的数据处理趋势,传统的“大数据”概念可能会逐渐失去意义。
Data Wrangling for Advocacy: Tidy Data to Support the Affordable Connectivity Program - posit conf
摘要
视频讲述者Christine分享了一个关于她作为数据专家的经历,尤其是如何通过一个仪表盘(dashboard)支持美国“可负担互联网连接项目”的故事。起初,Christine接到来自白宫的电话,讨论该项目的资金需求。为了应对日益增长的需求,她和团队创建了一个易于访问并具可视化功能的数据仪表盘,以帮助解释各地的参与率以及项目的资格估算。
在创建仪表盘的过程中,Christine强调了数据处理和可视化的重要性,使用了现有的工具(如Tableau和R),并强调了简化设计以方便最终用户使用。同时,她也提到协作的重要性,积极与其他团体和研究人员交流,以改进计算模型和数据处理。
尽管这个项目的资金最终未能续期,Christine的仪表盘取得了成功,成为政策倡导和研究的有用工具,帮助识别低参与率的区域,指导资源的投入。视频最后总结了创建有效数据工具的关键点,包括利用现有工具、关注用户需求、进行协作和扩大影响力。
Demystifying Data Modeling - posit conf 2024
摘要
这段视频由dbt Labs高级软件工程师Kshitij主讲,探讨了数据建模的重要性和基础知识。他以一个虚拟的“Jaffle店”为例,演示了如何通过数据提取和转化来识别高价值客户并刺激销售增长。演讲中,Kshitij详细描述了数据工作流程,包括数据提取、清理、文档化和测试,并强调了团队间标准化定义的重要性。
他解释了数据模型的定义,并指出其目的是为组织提供结构化数据以支持决策。最后,他提供了一些实践建议,包括如何开始进行数据建模、文档化及测试标准化等,鼓励大家持续改进,并推荐了相关书籍供深入学习。通过这些实践,数据工程师能够有效管理和利用数据,推动组织发展。
Python Rgonomics - posit conf 2024
摘要
视频中,Emily Riederer探讨了她在数据科学领域中使用R和Python的经验。她分享了自己的观点,强调了尽管R在数据处理和可视化方面有独特优势(如tidyverse和R Markdown),她也逐渐认识到Python的优势,尤其是在数据处理和开发工具方面。她介绍了一些在Python中实现类似于R的工作流程和“人性化”设计的工具,例如Polars(数据处理)、Plotnine和Seaborn(可视化)以及Quarto(报告生成)。Emily强调,选择合适的Python工具可以帮助用户在熟悉的工作流和技能基础上,顺利过渡到Python社区,最终实现更高效的数据科学工作。她希望听众能够探索这些Python工具,并分享自己的使用经验。
Coding in a Cyclone: open-source and the public sector in the birthplace of R - posit conf 2024
摘要
该视频中,演讲者李以毛利语介绍自己,以表达对土著文化的重视。他讲述了自己自2019年搬到新西兰奥克兰的经历,分享了2023年初新西兰遭遇的重大挑战,包括总理阿德恩的意外辞职和奥克兰的严重洪灾。李描述了他作为数据分析师在危机中如何迅速利用R编程语言帮助协调志愿者支持紧急庇护所的工作。
演讲中,他提到自己在2020年开始工作的过程中,如何通过学习R来提高工作效率,规范报告流程,并在随后的几年中不断提升自己的编码能力,以更好地服务组织。他强调了三个重要的认识:熟练程度(在高效交付质量),商业价值(推动组织使命的实现),以及可持续性(分享知识与资源的重要性)。李最后提到,通过分享和合作,促成了一个更成熟的数据文化,强调了每个人在成长和成功中的重要性。
Art of R Packages: Forging Community with Hex Stickers - posit conf 2024
摘要
视频内容的摘要:
Hubert是一位视觉设计师,他在视频中探讨了R包的艺术及如何围绕其建立社区。他强调社区的定义是人们在某一主题上分享经验和情感,并通过游戏体验将其与R社区相提并论。接着,他介绍了如何利用Hex贴纸促进社区建设,认为收集贴纸能够连接人们。Hubert提出了三个设计原则:使用象征性符号、唤起情感的颜色和细节的运用,以增强Hex的识别度和吸引力。最后,他提到Appsilon最近举办了Hex贴纸设计比赛,以促进社区的参与和互动。
earthaccess: Accelerating NASA Earthdata science through open, collaborative development
摘要
在这段视频中,Luis Lopez是NASA地球科学数据中心的一名软件工程师,他介绍了一个Python包——EarthAccess,它旨在改善科学家获取卫星数据的体验,从而加快科学研究的进程。Luis强调,科学家在研究气候变化和地球系统时,面临着数据获取的复杂性和技术门槛。通过与OpenScapes的合作,NASA开发了这个包,以简化数据访问过程,使科学家能够专注于科学研究而不是技术细节。EarthAccess可以通过简单的代码获取庞大的数据集,并且计划将其扩展至其他编程语言,使更多科学家受益。Luis认为,科学应当是包容性的,技术不应成为科学研究的障碍。最后,他呼吁大家共同帮助科学家解决数据获取的技术问题。
Why You Should Think Like an End-to-end Data Scientist, and How - posit conf 2024
摘要
本视频讨论了数据科学家应如何采用“端到端”的思维模式来提高工作效率,特别是在将创意转化为实际产品方面。演讲者以NMDP公司为例,描述了他们如何预测捐赠者的可供性,以帮助医生在关键时刻做出更明智的决策。演讲过程中,讲者强调了跨部门合作的重要性,指出数据科学家在项目中的自主性和与工程团队沟通的必要性。尽管最初的交接过程可能会面临挑战,但通过持续学习和适应,数据科学家能够有效识别和解决问题,从而提升组织的整体效率。最后,讲者鼓励大家在遇到问题时主动参与解决方案的制定,以培养更全面的技能。
Wait, that’s Shiny? Building feature-full, user-friendly interactive data explorers - Posit Conf
摘要
Kiegan在本次视频中讨论了如何利用Shiny构建功能丰富、用户友好的互动数据探索工具。他以示例应用程序为基础,展示了如何通过数据表、互动地图和折线图等多种方式让用户探索犯罪数据。此外,Kiegan强调通过添加首页、方法论页和动态标题等功能,为用户提供更多上下文信息,从而提升用户体验和数据理解能力。他还提到Shiny开发者具备多种技能,能够将数据结构、前端界面和后端连接整合在一起,便于快速构建完整的数据探索网站。最后,他鼓励开发者通过答案用户的问题来引导Shiny应用的设计,以增强用户的探索体验。
Breaking Barriers: Adopting R in Biotech with Posit - posit conf 2024
摘要
本视频内容由Nicole Jones分享,她是一名资深数据科学家,介绍了Denali Therapeutics如何采用R语言及其Posit平台。起初,Denali是一个以R程序员为主的团队,进行内部分析时使用R,而在进行监管工作时则依赖于SAS。为了解决不统一的工作环境和激励内部分析,团队决定实现一个符合GxP标准的R环境,以便支持R的工作流程和共享环境。最终,他们选择了Posit,因其提供了熟悉的RStudio IDE和内部包管理功能。
在实施过程中,Nicole和她的经理面临了很多挑战,如系统架构的定义、与IT和QA团队的协作,以及如何确保不同系统间数据的共享。他们制定了详细的计划并积极学习新技能,克服了技术障碍。通过与Posit支持团队和供应商的合作,他们实现了与SCE的集成及Quarto文档的部署,并确保了程序包的版本一致性。
Nicole总结了一些关键经验教训,包括充分利用Posit管理指南、及早开始项目、寻求团队协作的支持等。她鼓励其他团队在类似过程中勇于尝试,不断学习。最终,Denali成功地建立了一个有效的工作环境,能够支持数据分析及监管需求。
bRewing code: Ingredients for successful tribal collaboration - posit conf 2024
摘要
视频内容摘要:
Elena Reynolds是华盛顿州Skokomish部落的水质项目协调员,她分享了自己从命令生成水质报告的过程中所面临的挑战和学习经历。她决定使用R语言来提升报告的质量和效率,但意识到需要在学习过程中获得更多支持,因此申请了技术协助。在Angie Reed的帮助下,Elena学习了如何使用R Markdown进行数据分析,并结合自己的数据完成了报告。两位讲者强调了合作的重要性、团队的支持、以及在学习过程中保持乐趣的益处。最终,Elena不仅完成了她的水质报告,还在与Angie的合作中建立了深厚的友谊和信任,成为了一名自信的数据操作者,并积极参与帮助其他部落的环境专业人士。视频还提到她们与其他人合作开发的自定义插图和临时纹身,进一步展示了她们在数据处理中的创造力和社区意识。
Making Waves with R, Python, and Quarto - posit conf 2024
摘要
该视频讲述了一种使用水动力模型来保护海岸线的方法。演讲者以沙堡为引子,讨论了海岸侵蚀和人类对自然环境的影响。通过在华盛顿州的克莱顿海滩进行案例研究,演讲者探讨了如何利用开放科学和数据科学技术,改善海岸防护设计,以便更好地应对海洋波浪和侵蚀问题。演讲中强调了新技术,特别是Python和R语言工具在数据分析和建模中的应用,提升了海岸保护方案的可行性和效率。演讲者呼吁将这些研究成果推广给不同的利益相关者,以便共同应对海岸线变化带来的挑战。
The Expanse - Navigating the R Package Universe - posit conf 2024
摘要
本视频中,GSK数据科学总监Ben Arancibia探讨了在团队内建立有效沟通和合作文化的重要性。他以自己参与的R包“beastt”为例,分享了与统计学博士和R开发者之间因术语理解不同而引发的沟通障碍。Ben强调设定团队价值观的重要性,提出团队应共同讨论并确定核心价值,以应对工作中出现的困难。其中,他提到“激进透明”是他最喜欢的价值观,强调在问题解决时,如何通过这些价值观指导决策。最后,Ben邀请有兴趣的人们了解更多内容,讨论开源项目“beastt”,并表示对这一数据产品感到自豪。
Templated Analyses within R Packages for Collaborative, Reproducible Research - posit conf 2024
摘要
视频中,哈佛大学的博士生克里斯·肯尼介绍了他的研究团队Alarm Project如何利用R包中的模板来结构化他们的研究,以便实现协作和可重复性。肯尼的研究主要集中在算法性重划选区(redistricting),涉及如何将州或地区划分为不同选区,从而影响选民的声音转化为权力。团队生成大量替代方案来评估各州的重划过程,并识别潜在的恶劣做法,如选区划分不公(gerrymandering)。
视频还探讨了社会科学数据的复杂性及如何借助本科生的支持来克服数据处理中的挑战。为帮助缺乏经验的学生,团队将项目纳入R包中,简化工具使用,使其能更顺利地参与研究。通过设置特定功能和自动化流程,团队实现了项目管理的高效,并使学生能够使用他们已熟悉的工具,增强了学习体验。最后,肯尼提到该方法虽然灵活而有效,但仍有不足之处,鼓励观众查看他们的GitHub页面以了解更多信息。
Deploying data applications and documents to the cloud - posit conf 2024
摘要
视频摘要:
在这段视频中,Posit的产品经理Alex Chisholm讨论了如何将数据资产(应用程序或文档)方便地部署到云端。他提到,当前数据工程师面临的主要挑战是如何在不需要大量工程支持的情况下,快速、安全地共享他们的工作。Alex回顾了他职业生涯早期的经历,指出部署流程的复杂性以及随着技术的发展,现如今可用的各种工具和平台如Connect Cloud,使得数据科学家的工作变得更加高效。
他强调了云平台和开源工具的快速发展,使得数据科学家能更轻松地共享成果,同时也提出了不同组织和项目的安全性和可扩展性考虑。此外,Alex鼓励与会者积极探索当前可用的多种部署工具,帮助他们在现实世界中更好地展示自己的数据科学成果,并从中获得反馈。最后,Alex提到Posit Connect Cloud是一个新的云方案,旨在更好地支持用户在GitHub上的代码共享和部署,帮助数据科学家减少上手的门槛。
Data Contracts: Keep Your Weekend Work-Free!
摘要
视频内容主要讨论了数据合同的概念及其在数据科学和数据工程领域的重要性。演讲者分享了自己在数据领域多年的经验,强调了建立信任与数据结果之间的关系。数据合同被定义为数据生产者和消费者之间的一种协议,旨在确保数据的可靠性、一致性和自治性。他提出,良好的数据合同应包括明确的拥有者、责任人和咨询团队,以及详细的预期和合规要求。
同时,演讲者提到数据合同不应仅依赖技术工具,应注重组织内部的动态,推动数据生产者与消费者之间的合作。最后,他提供了一些建议,如预期阻力、建立同理心和简化数据合同的实施过程,以帮助在公司内推广数据合同的使用。
Modernizing the Data Science Toolkit of a 40-year-old Market Research Company - posit conf 2024
摘要
这段视频讲述了1989年埃克森瓦尔迪兹油轮事故,并以此引出“船太大而无法转弯”的概念,强调在各种领域和组织内推动变革的可能性。讲者分享了在市场研究公司KS&R工作一年半以来,如何现代化数据科学工具包的经验,以及在转变过程中所采用的三个原则:清晰导航、管理期望和寻找合适的团队。
他介绍了KS&R的工作内容,包括调查设计、数据分析和报告制作,以及如何通过迁移到GitHub等措施提高团队的协作和效率。在管理期望方面,强调了领导层与团队之间的对齐,以及在变革过程中保持业务需求与学习之间的平衡。此外,讲者还讨论了与IT团队的合作,通过共同开发基础设施和使用现代化工具来提升工作效率。
总体而言,视频强调了通过有效的策略和团队合作,虽然过程可能缓慢,但在组织内推动变革绝对是可行的。
A New Era for Shiny-based Clinical Submissions using WebAssembly - posit conf 2024
摘要
在视频中,Eric Nantz 介绍了结合 Shiny 和 WebAssembly 技术,开发临床提交管道的潜力。视频开始通过讲述一个关键研究数据锁定后的情景,展示传统制药行业在提交结果时面临的挑战,特别是在处理大量静态数据的过程中。Nantz 强调,尽管已经进入数字时代,但许多提交仍以静态格式存在,难以消化和审查。
他提出,通过 Shiny 和 WebR 的结合,可以创造出更互动、更易于理解的结果展示方式,并讨论了 R 提交工作组的努力,该小组包括行业和监管机构的成员,旨在开发开放源码和透明的解决方案。Nantz 还分享了在不同技术间转换的挑战和成功,包括从传统的 R 和 Shiny 平台迁移到利用 WebAssembly 的新方案,这种方法将审查过程简化为在用户浏览器中运行应用程序。他期待该技术能够加速创新药物的审批过程,并强调团队合作的重要性。最后,他表达了自己参与这一项目的个人原因,期待新技术能为癌症治疗带来希望。
Teaching and learning data science in the era of AI - posit conf 2024
摘要
本视频中,安德鲁·加德教授探讨了在人工智能时代教授和学习数据科学的挑战与机遇。他指出,今天的数据科学学习者大多数可以方便地使用AI工具,而过去学习者的编程技能是在没有这些工具的情况下获得的。加德教授通过一个例子展示了在使用AI生成横向条形图时,AI的成功与失败都源于提示的设计,强调了学习数据科学基本概念的重要性。他认为,尽管AI可以加速学习过程,但学习编程和相关概念依然不可或缺。他还提出,在课堂上,教师应通过分析AI生成的输出,来引导学生思考和解决问题,从而更好地理解数据科学。最后,他介绍了他维护的教育资源平台“公平方程式”,希望能为其他教育工作者提供帮助。
Leveraging Data in a Volunteer Fire Department - posit conf 2024
摘要
视频内容讲述了数据分析师和志愿消防员Joseph Ritchie的经历。2024年6月20日,他在与妻子共进晚餐时接到火警通知,迅速赶到消防站参与扑灭邻镇的一起房屋火灾。Ritchie强调,尽管志愿消防员并非全职工作,仍接受与职业消防员相同的培训,并承担了重要的社区保护职责。他分享了志愿消防部门在数据收集和管理方面面临的困难,特别是手工记录和管理训练与出勤数据的低效问题。为解决这些问题,他开发了多个Shiny应用程序,简化了出勤登记、事件记录和数据报告的流程,提升了工作效率。通过这些工具,志愿消防员可以更方便地记录和利用数据,进而为社区的规划和资金申请提供支持。他展望未来,希望这些工具能够帮助消防部门更好地服务社区,同时也希望其他志愿消防部门能借鉴这一开放源码的解决方案。
Partnering with Posit for progress on Environmental Stewardship - posit conf 2024
摘要
本视频由Saumiitha Leelakrishnan,Cummins全球排放中心的技术专家主讲,分享了R语言在商业应用中的广泛采用实例。Cummins是一家拥有百年历史的财富120强公司,传统上以柴油发动机制造为主,近年来积极投资于清洁柴油、天然气、电动产品以及氢燃料电池技术,以提升环保和减排能力。视频中展示了Cummins全球产品合规团队如何利用R语言开发了一整套工具和流程,通过分析发动机排放数据和利用机器学习,提升了产品合规性的效率。整个过程包括数据收集、处理、分析和报告生成,并且强调了利用ETL流程、SQL数据库和Quarto生成报告的重要性。最后,演讲者总结了该项目的关键经验,鼓励数据科学社区运用R和Python的优势,推动创新和环保实践,并表示感谢与Posit的合作。
Why’d you load that package for? - posit conf 2024
摘要
视频中,生物学家Luis分享了他在研究生态与进化过程中,协助学生和同事进行代码分析的经验。他提到,尽管他并不总是熟悉各种代码包,但他会主动询问其用途并建议在代码中添加注释来解释这些包。为此,他开发了一个名为Annotater的R包,能够自动在加载包的代码中添加信息,如包的标题、导出函数和版本等。他通过检查公共GitHub库中的代码评论,发现不少人在代码中添加了关于包的功能和技术细节的注释。他呼吁大家在编写代码时考虑添加这类注释,以减少他人在阅读新代码时的困惑,从而提高代码的可读性和理解。
Translating clinical guidance to actionable insights with R - posit conf 2024
摘要
本视频由Claire在posit::conf会议上发言,介绍了Cota公司针对复杂真实世界数据的解决方案——“rwnavigator”(Real World Navigator)R包。该R包旨在简化肿瘤学数据的准备过程,以便用户能够有效地进行生存分析。Claire讨论了数据准备过程中常见的挑战,如数据缺失和变量选择,并强调rwnavigator的目标是提供易于使用且经过充分测试的函数,以实现以患者为单位的数据整理,方便癌症研究。通过这样的工具,研究人员能够更迅速地准备数据,从而加速癌症治疗和护理的重要发现。
Novice to data scientist: a pediatric anesthesiologist uses RStudio to help kids access surgical ca
摘要
在本次演讲中,儿科麻醉医师Nick Pratap分享了他在医疗质量改进和数据科学领域的自我探索之旅。他讲述了2011年他从伦敦来到辛辛那提儿童医院进行质量改进工作,专注于减少手术取消率。通过分析数据,他发现手术取消不仅造成了潜在的收入损失,也对家庭造成了重大影响。
Nick提到,手术取消的主要原因包括患者生病、不来手术、以及未遵循术前禁食规定。他和团队采取了多项措施进行干预,并利用数据科学方法进行预测,以便在预约前识别高风险家庭。他由此收获了实用的洞察,发现经济较弱家庭的儿童面临的手术取消风险更高。
演讲中还强调了数据科学在医疗领域的重要性,通过机器学习和社区数据分析,他能够揭示更深层次的医疗不平等问题,并为改善患者体验提供了有力依据。最终,Nick向帮助过他的资源和工具致以感谢,并鼓励其他人在类似领域中继续探索和学习。
{mirai} and {crew}: next-generation async to supercharge {promises}, Plumber, Shiny, and {targets}
摘要
该视频由Charlie Gao和Will Landau主讲,介绍了他们的项目mirai和crew,这是一种用于R语言的异步评估框架及其扩展。Charlie首先解释了异步(async)的基本概念,强调与并行计算的不同之处,指出许多R用户缺乏真正的异步体验。接着,他介绍了nanonext库及其与mirai的结合,允许用户同时连接数千个并行进程,极大提升响应速度,尤其在Shiny应用程序中表现突出。
Will接着讲述crew的功能,强调其在高性能计算中的应用,提供自动扩展功能,能根据任务需求动态调整计算资源。crew能够与高性能计算系统如Slurm和AWS Batch无缝对接,极大降低使用门槛及成本,同时也提升了在临床试验分析中的效率。
最后,两位讲者回答了一些关于mirai和crew的使用细节以及与其他异步编程方式的兼容性的问题。总的来说,该视频介绍了通过mirai和crew实现高效、响应迅速的异步计算,尤其是在R和Shiny环境下的潜力。
Making sense of marginal effects - posit conf 2024
摘要
在这段视频中,Demetri讨论了比较在数据科学中的重要性,并介绍了一种名为“marginaleffects”的R包,用于生成来自各种模型的反事实比较。他通过具体例子展示了如何将实验结果转化为易于理解的比较,以及如何处理样本偏差问题,以确保比较的准确性。他强调,通过清晰的语言和适当的工具,数据科学家能够有效地讲述引人注目的故事,提升分析结果的可理解性和可信度。最终,他鼓励观众访问marginaleffects的官方网站,探索其强大的功能。
Mastering the Art of Adopting R and Python: Innovative Strategies for Effective Change Management
摘要
视频中,Mark Behnens分享了在强生公司中推动科学计算操作转变的经验,重点讲述了如何管理变革,特别是在从SAS转向开源软件R和Python的过程中。他讨论了变革管理的五个阶段,包括情绪反应(如否认、愤怒、讨价还价、抑郁和接受),以及成功变革的关键要素:技术面与人事面的结合。Behnens强调,变革不仅需要技术实施,还需要人们的接受与适应。他提出了三大变革管理阶段:规划、实施和维持变革,并详细阐述了每个阶段的关键步骤,如定义变革目标、识别关键利益相关者、评估变革影响等。此外,他指导在应对抵制时应注重沟通和支持,强调教育不足以改变行为,社交规范在变革过程中的重要性。最后,他还分享了创造积极氛围、加强沟通及持续支持团队的经验。
Open Source Software in Action: Expanding the Spatial Equity Data Tool - posit conf 2024
摘要
视频摘要:
演讲者在视频中分享了自己在2018年时对芝加哥大学重新开放创伤中心的研究经历。通过了解创伤中心的功能和芝加哥各地区的创伤中心分布情况,演讲者意识到南芝加哥地区缺乏医疗资源的严重性,并因此决定学习地理学。随后,他参与了城市研究所的“空间公平数据工具”项目,该工具旨在帮助政府和非营利组织评估空间公平性。演讲者介绍了该工具如何处理上传的空间数据,并生成两种评分:人口差异评分和地理差异评分,以帮助分析资源分配的公平性。他强调了工具在使用中的便利性、免费开放的特性,并演示了其应用案例,如评估公用设施的分配和未来投资区域的识别。最后,他鼓励人们使用这一工具,并强调寻找合适工具的重要性,以实现意想不到的工作成果。
Empowering Reproducible Finance through Tidy Finance with R and Python - posit conf 2024
摘要
Christoph在视频中分享了Tidy Finance的故事,讲述了他们如何创建支持R和Python的教育内容,以促进研究者、教师和学生的学习。他们的故事始于2015年,当时教授Camp Harvey发表了一篇具有争议的论文,指出金融经济学中的研究结果大多为假。这篇论文促使顶级期刊引入了代码和数据共享政策,使研究者在发表论文时需提供代码和数据。
在此背景下,Christoph和他的同事Stefan Foycht面临缺乏公开可用代码和数据的挑战。Christoph决定写博客分享知识,而Stefan则创建了一个数据科学课程,取得了成功。最终,他们创建了一本教材,并与CRC Press合作出版。该书保持开放源代码,便于更新和反馈。
他们的工作不仅增进了可重复性和可及性,还支持了学习灵活性。目前,Tidy Finance的网站同时提供R和Python版本的内容,这一过程虽然面临双重代码维护的挑战,但他们认为这是值得的。他们希望通过这样的努力,激励更多人迈向可重复性研究的世界。
Open-Source Initiatives in Pharma - What’s Out There and Why You Should Join - posit conf 2024
摘要
在这段视频中,讲者分享了自己在40岁时因为健康问题(高血压)去看医生而引发的改变。他提到自己有“白大褂综合症”,在思考血压时容易紧张。为了改善情况,他开始与朋友一起去健身房,体验到改变的必要性。这段经历被他比作自己在开源领域的旅程,强调了适应和创新的重要性。
他将开源的旅程分为三个阶段:1)考虑使用开源工具的组织;2)正在实施开源工具的组织;3)已经掌握开源工具的组织。他鼓励每个人思考开源如何能改善组织并推动变革。他提供了具体的建议,如展示开源工具的价值并与团队合作,确保其可持续性和有效性。
讲者强调了快速展示成果的重要性,比如将旧Excel流程转化为更高效的Shiny应用,以提高工作效率。同时,他也提到在开源过程中需要注意软件的信任度和结果的可重复性。最后,他鼓励大家参与开源项目,分享自己的经验,推动行业发展。通过这些努力,讲者希望能加快治疗新药的审批过程,为患者带来更快的治疗选择。
A Machine Learning Approach to Protect Patients from Blood Tube Mix-Ups - posit conf 2024
摘要
布伦丹·格雷厄姆(Brendan Graham)是费城儿童医院的数据科学家,他分享了一个关于如何利用机器学习在医院中防止患者伤害的项目。每天,成千上万的血液样本被送往实验室进行分析,以帮助临床医生做出诊断和治疗决定。然而,有时由于错误的血液样本被放入试管中,可能导致所谓的“错误血液在试管中”(WIBIT)错误,从而引发严重的后果。为了解决这个问题,团队开发了一种使用多分析物的方法来检测WIBIT错误,借助于患者之前的血液样本进行数据比较。由于WIBIT错误往往是“无声”的,团队需要模拟这种错误,以便创建一个能够识别这些情况的机器学习模型。
在项目中,他们使用了常见的全血细胞计数检测(CBC)数据,模拟了WIBIT错误,并利用不同的模型评估其性能。布伦丹强调,在临床应用中,需要特别关注假阳性,以避免不必要的额外工作和提高过度警报的疲劳感。他们计划在接下来的几个月中继续推动模型的实施,以最终减少由于WIBIT错误导致的可预防患者伤害。
Ten Simple Rules for Teaching an Introduction to R - posit conf 2024
摘要
视频中,Ava Hoffman分享了教授R语言入门课程的十条简单规则,旨在帮助新手讲师减轻教学压力。视频强调了面对面教学的重要性,尤其是对缺乏计算机科学背景的学习者。她建议创建一个无干扰的学习环境,团队合作、使用动态文档(如R Markdown和Quarto)教授可重复性实践,优先关注直觉而非记忆,鼓励学生动手实践。课程末尾应以项目总结,以增强学习动机和理解力。了解学习者的需求,避免混淆不同的R语言包,并经常给予和收集反馈,有助于不断改进教学内容。最后,Ava鼓励新教师勇敢尝试,祝他们教学顺利。
Breaking data identities: Making a case for language-agnosticity - posit conf 2024
摘要
视频中,顾问阿尔伯特·拉普分享了关于打破数据身份的主题,鼓励大家欣赏自己偏好的编程语言以外的其他语言。他以自己在数学与统计领域的博士生涯为例,谈到最初对其他学科文献的排斥,后来发现这些文献对解决问题有重要启发,这让他意识到跨领域的知识是非常宝贵的。他同样提到在编程中,只依赖一种语言(如R)也是一种误区,其他语言(如Python、JavaScript、HTML/CSS)可以为项目提供有益的支持和工具。他强调,无论是在数据可视化还是数据处理方面,借鉴其他语言中的优秀框架和理念都是可行的,并分享了将R转向其他语言的资源链接。他希望能够激励大家在保持偏好语言的同时,积极探索其他语言的价值。
Computing and recommending company-wide employee training pair decisions at scale… posit conf 2024
摘要
本视频讲述了在Regeneron进行的一项合作项目,旨在利用人工智能(AI)开发一个内部平台,以高效匹配员工的培训和指导需求。项目中,随着导师和学员申请数量的增加,传统的人工配对方式变得越来越不可行,因此团队研发了名为“Magnetron AI”的系统,通过数据科学和灵活的框架,实现了大规模的智能配对。该系统能够在短时间内处理成千上万的配对选择,显著提升了工作效率并满足了员工的成长需求。
视频中还探讨了数据科学如何通过减少模糊性和优化决策过程来实现有效的结果。通过使用API和友好的用户界面,Magnetron AI确保了信息的可访问性与复用性,使其在不同的配对场景中都具备广泛的适用性。实现的成果是一个用户友好的系统,能够简化信息提交过程,并促进机构知识的传递。
rainbowR - a community that supports, connects and promotes LGBTQ+ people who code in R - posit conf
摘要
视频中,Ella Kaye介绍了rainbowR,一个为LGBTQ+编程社群建立的R社区。rainbowR成立于2017年,旨在连接、支持和推广R语言界的LGBTQ+人士,同时通过数据驱动的活动提升对LGBTQ+问题的认识。社区定期开展线上聚会,提供友好的交流环境,并设有“好友计划”促进成员间的深入联系。此外,rainbowR还维护一个名为tidyRainbow的数据仓库,提供与LGBTQ+相关的数据集,用于数据可视化和分析等用途。Ella提到即将开始的读书会,讨论有关性别和性取向数据的书籍。欢迎LGBTQ+人士和支持者通过rainbowr.org加入该社区。
Making an App a System - posit conf 2024
摘要
视频内容主要讨论了如何在制药行业的限制下构建一个可以重用的Shiny应用系统。演讲者介绍了在数据访问受到严格控制的情况下,如何将多个应用程序基于相似模板进行开发和维护。具体方法是将原始应用程序打包成一个可重用的“父包”,并通过这个包作为其他“子应用”的依赖,这样可以更方便地进行版本管理和更新。演讲中还提到利用YAML文件来配置不同应用的特定数据需求,从而简化数据处理和减少重复工作。此外,还讨论了缓存数据以提高Shiny应用启动速度的策略,并对不同的Shiny开发框架进行了比较。总而言之,该方法旨在提高应用开发的灵活性和效率,同时确保符合行业标准。
Creating reproducible static reports. - posit conf 2024
摘要
在这次演讲中,Orla Doyle分享了在制药行业中进行自动化报告的过程,尤其是在临床药物开发中的静态报告生成。她强调了遵循高标准的规范性工作的重要性,确保数据的可追溯性、可重复性和准确性。Doyle提到,制药行业面临的挑战包括从传统工具向开源工具的迁移、实施动态输出,以及如何有效地更新和管理静态报告。通过与统计学家和合规团队的紧密合作,她的团队开发了一种利用R Markdown生成合规文档的工具,显著提高了报告的生成效率和准确性。此次讲座展示了非破坏性变革的有效性,强调了跨学科合作的重要性,以便在保持高标准的同时,改善工作流程和用户体验。
Adequate Tables? No, We Want Great Tables. - posit conf 2024
摘要
这段视频讲述了一个关于表格处理的演讲,主要介绍了名为“gt”的表格制作包。演讲者强调了表格在信息展示中的重要性,并分享了自己在2018年创建gt包的过程和目标,包括全面的表格结构、多样的格式化功能、灵活的表格样式和多输出类型的支持。演讲还提到了gt的不断改进及未来开发计划,如加入Excel输出、增强表格拆分功能等。此外,演讲者还介绍了新推出的Python版本“Great Tables”,旨在将gt的优点带入Python生态。总体上,演讲鼓励更多人利用gt包来创建出色的表格。
Quarto: A Multifaceted Publishing Powerhouse for Medical Researchers - posit conf 2024
摘要
在本次演讲中,约书亚·库克介绍了Quarto这一多功能出版工具,特别针对医学研究人员的需求。他分享了自己的学术背景及在医学研究中的经验,强调了使用Quarto进行文档管理和数据展示的优势。通过Quarto,用户可以从同一源文档高效生成报告、手稿和演示文稿,减少了重复劳动和错误的可能性。他详细讲解了项目结构、YAML设置和多个输出格式的应用,并提到如何利用Quarto的短代码来确保所有文档在数据更新时自动同步。演讲总结了Quarto在提升医务人员工作效率、改善病患沟通和加速治疗交付方面的潜力,尤其适合需要频繁更新的医学研究环境。
Stitch by Stitch: The Art of Engaging New Users - posit conf 2024
摘要
视频中,Becca Krouse 分享了她在制药行业的经验,介绍了如何吸引新用户,尤其是在使用新工具和编程语言时。她提到她所在的GSK团队开发了一款名为tfrmt的R包,旨在帮助用户高效地格式化临床试验中的数据表,避免重复工作和人为错误。为了解决新用户在学习新技能时的困难,团队还推出了一个Shiny应用程序tfrmt builder,使用户可以在无需深入了解编程的情况下探索和使用该包。
Becca还通过自身学习编织的经历,强调了提供支持和模板的重要性,帮助新用户建立信心,促进他们的成长。她希望借助这些工具,让新用户更容易适应R语言的生态,最终成为未来的专家。video最后,观众提问关于数据转换和工具使用的技巧,Becca也做了相应的解答。
Quarto, AI, and the Art of Getting Your Life Back - posit conf 2024
摘要
视频的主讲人是Tyler Morgan Wall,他是Ray Shader和Rayverse的开发者,也是维吉尼亚州亚历山德里亚国防分析研究所的研究员。在视频中,他分享了有关Quarto AI及其帮助他找回生活的艺术。他介绍了自己如何将2D建筑数据转换为3D建筑并生成城市,但意识到仅仅完成编码不足以让人了解其价值。为此,他决定写博文来解释项目的起源和其解决的问题。
Tyler讲述了在使用WordPress运行博客时遇到的麻烦,尤其是安全更新和服务器维护的问题。为了避免这些麻烦,他转向Quarto,这是一个可以构建静态网站的平台,使得网站维护变得更简单。同时,他介绍了利用Quarto Render Hooks自动化网站的部署,以及如何使用AI来定制网站和添加动态特性。他分享了一些与AI的互动经验,强调了AI在学习新工具时的有效性。
最后,Tyler总结了他在使用Quarto的收获,包括:Quarto可以渲染预先存在的HTML、使用Render Hooks简化部署流程、并利用AI提高开发效率,进而使他能够专注于自己喜欢的事情。
Beyond Dashboards: Dynamic Data Storytelling with Python, R, and Quarto Emails - posit conf 2024
摘要
本视频主要探讨了如何通过电子邮件向管理层推送关键信息,以提升数据仪表板的使用率。视频中,数据科学家分享了自己在创建仪表板过程中的经验,指出许多仪表板因信息量过大而导致用户的分析疲劳,最终未能得到有效使用。为了改善这种情况,他建议使用Quarto平台,通过动态电子邮件将关键信息推送给管理层,减少他们对仪表板的依赖。同时,该方法通过简化信息并在合适的时间进行个性化发送,帮助管理层快速获取重要的KPI,并做出决策。这种方法强调了设置条件逻辑和关注主要指标的重要性,并提到持续优化以提高用户参与度。视频最后,数据科学家鼓励观众探索使用Quarto电子邮件的可能性。
gtsummary: Streamlining Summary Tables for Research and Regulatory Submissions - posit conf 2024
摘要
视频内容摘要:
在本次分享中,演讲者是一位来自Genentech的数据科学家,介绍了gtsummary软件包的开发历程和功能。她回顾了自己的学习过程,从最初对R语言的陌生,到为团队打造一个用于统计汇总的R包。演讲者于2019年发布了gtsummary软件包,这个工具旨在简化统计数据的汇总和报告,特别是在医学研究中显示出其重要性。她在演讲中强调了包的易用性和可定制性,展示了如何通过几个简单的代码行生成专业格式的统计表格,并介绍了一些附加功能,如回归模型摘要和跨表合并。此外,她还提到gtsummary包获得了广泛的社区支持,并在2021年获得了美国统计协会的创新编程奖。演讲的最后,她鼓励更多的人参与到gtsummary的更新和改进中,强调了与社区互动的重要性。