别把“复杂化”视为粗壮上,优秀的数据科学家不会创造复杂的模型
发布时间:2025-07-30
在一个 CPU 上构筑这个正则表达式需几个小时,而对一段一新新浪句法同步进先为分类可能可能会需接近几秒钟的整整。在计算运动速度上都,Boosting 比统计统计分析有进步,但简练统计分析步骤仍然可能会比任何统计统计分析正则表达式更加单单色。然而,精确度则是另一回事。统计统计分析正则表达式比简练统计分析步骤更加精确,但它们可能可能会过度渐进,这取决于你的数据资料集。
如果你要为你的新公司构筑一个 NLP 决策树,你需认识到你可以很难接不受什么样的优劣选取。这一切都取决于你所保有的数据资料,你需对其同步进先为统计分析,以已确定哪种正则表达式效果最好。
同上:如果你一切都是认识到这些正则表达式背后的确实,我推荐 StatQuest 来自学更加多关于博弈论和完全相同的机器自学正则表达式的知识。有道理,但这不就是数据资料交易员已经在动手的事情吗?数据资料地质学家真的只不过是头衔好听的交易员吗?是的。数据资料地质学家只是比数据资料交易员保有更加多的应用灵活性(管理学、正则表达式所设计、云开发)。随着机器越来越较易用于,这种状况在未来可能可能会可能会相反。好吧,那么为什么我很难让交易员动手这项兼职,而我则专同上于很酷、很十分复杂的框架呢?你可以这样动手,但这只可能会负面影响你作为一名数据资料地质学家的发展前景。就像我之前的观点,用干净的数据资料喂一个简单的框架总是比用糟糕的数据资料喂一个十分复杂的框架要好。授予干净的数据资料需在你的终端统计分析数据资料,以便你能所设计一个油管来有效地构筑和特训你的框架。
简单的框架也能已完成十分复杂的兼职
为了感叹明这一点,我可能会分享一个实质系统性。在我的兼职当中,我们的一个团队刚刚为患者的卫生保健历史记录构筑一个 NLP 决策树。我们的客户愿意有一个电子化的标识控制系统,这样他们就可以遍历 1000 页的卫生保健历史记录,认识到每一页历史记录都感叹的什么章节。我们有 50 多个分类标识,适用范围从心脏状况到脑损伤等等。
我们还获取了每个分类的极小特训数据资料。我们每个分类有 5 个 pdf,每个有 20-1000 页的长度。我很难知道你我们应付这个解决办法的步骤确实,总之我们获取了 90% 以上精确率的框架。
我们的一个团队一切都是知道究竟可以将这些框架释单单到 Github。我们愿意有某种旧版历史来跟踪我们为提高框架真实性所动手的修正。解决办法是我们刚刚统计分析卫生保健历史记录,我们需确保任何代码 / 脚本 / 框架当中没例外情况的健康个人信息(PHI)的残缺不全。如果 Github 一些大学对我们来感叹是私有的,这未必不可忽视;如果 Github 到时暴发数据资料泄露,我们将面临不受伤害 PHI 的危险。
对于那些不熟悉的人来感叹,PHI 的适用范围之外患者的拼法、称谓、SSN、地址、单单生地等。这些个人信息也就是说才可能会已是框架基本特征的一部分,而且我们已经撤下了所有的残缺不全。然而,当涉及到连字符串时,患者的拼法就很棘手了。以 hailey-hailey 为例,这是一种皮肤病的拼法,而不是一个人的姓。对于我们的框架来感叹,这将是一个相关的基本特征。因此,在我们保存连字符串拼法的时候可能会有一些楔形状况。
我在仔细头部伤框架的框架基本特征时发现了这个新奇的基本特征。
同上意,由于 PHI 的或许,我很难罗列实质的患者姓名。我用于的是一个虚构的人物拼法(Emma Geller-Green)。
所以在这种状况,这是一个显现在某个基本特征当中的某位患者的全名。但我们对它是如何显现的深感疑惑,或许有二:
头部伤特训数据资料不某种程度把一个人的拼法作为一个不可忽视的基本特征。一个人的拼法通常在 400 页的卫生保健历史记录当中显现 5 次,所以对于头部伤框架来感叹,这个频谱是平均的。此外,在描述头部伤的页面当中,无论如何提到这个人的拼法。我们的终止词沙罗当记事像 emma 这样的拼法。由于我们没应付连字符串称谓的演算,所以某种程度用 green-geller 来代替。emma 某种程度被撤下。
所以这说明了了为什么 emma 没被撤下。但是,这仍然很难说明了为什么头部伤框架把这个全名作为一个关键基本特征。我们回到了头部伤框架的 5 个特训 pdf,锁住了一个 40 页的特训 pdf,近乎每一页都被归类为“头部伤”。日后我们惊讶的是,该 pdf 是 20 世纪 80 世纪末的。那份 pdf 的每一页都有 Geller-Green Emma 的大字结尾,而且是加粗的。
一个机器自学框架未必知道什么是“头部伤”。它只是显然各种模式并得单单结论断言。Geller-Green Emma 显现在了每一个标记为“头部伤”的特训页面上,这一事实足以让框架断言这个拼法亦然了这个特殊的专业。当然,我们的一个团队添加了演算来解决解决办法那些 1980 世纪末的 pdf,并从其当中撤下了带连字符串的患者拼法。我们没创建自己的 PyTorch 框架来解决解决办法这个异常,而是实质上修整了数据资料集。这种步骤对我们来感叹更加较易检验,更加较易太快速布防到生产当中。
在生产当中,一个框架总是可能会对一新、已非过的数据资料同步进先为计算,而且很可能可能会在完全相同的拼法上犯同样的差错。在将数据资料布防到生产周边环境当中时,统计分析数据资料和修整数据资料太不可忽视了。
另外,我不愿意无论如何因为我知道内科医生"我认为 Emma Geller-Green 的母亲看起来很甜美"而被诊断单单有头部解决办法。
原文则镜像:
IE 网页已“死”,一个时代的终止
被捧上天的 Scrum 灵巧管理为何不不受厂家欢迎了?
2022,我们该如何阐释可观测应用
95后百度裁员对领导不安,删改新公司数据资料库被判刑;Microsoft在美取消竞业协议;TikTok当中国管理一个团队与海外裁员武装冲突引发离职潮 |Q网页
点个在看少个 bug👇
。喉咙干吞咽不舒服儿童经常性便秘怎么办
伤口久不愈合的一招灵
兰州不孕不育检查
月经量多
-
【港股合】心合医疗-B(02160)完成第二代TAVI产品VitaFlow Liberty的CE标志注册申请
凤凰网港股|心通医疗保健-B02160公布,于2021年12月初28日,子公司完成了子公司的第二代经毛细管冠状动脉显像术TAVI产品VitaFlow Liberty经毛细管冠状动脉显像种