项目答辩现场
来自清华大学《大数据系统基础a、b》课程实践项目的第15组成员分别从项目选题及目标、竞品与文献调研、项目技术路线、数据获取、数据结构化与数据清洗、数据统计分析、时尚穿搭推荐模型搭建及完善、模型评估等方面入手介绍了项目成果。项目基于能“读懂服装”的图像识别算法获取时尚图片中的各式服装信息,通过数据清洗得到有效搭配数据,进而采用机器学习算法深入挖掘上衣和下衣搭配的规律,从而实现给出一件上衣(下衣)推荐符合审美的下衣(上衣)的功能。此次完成的搭配推荐模型取得了良好的搭配效果,可用于指导用户的日常穿搭或电商平台服装商品推荐,受到了在座导师的广泛好评。
项目选题及目标
此项目中的图片数据主要来源于极睿科技已有时尚网站图片数据及项目组从各类时尚网站中爬取的图片数据,建立服装图片数据库。通过极睿科技提供的图像识别api对已有图片进行识别,筛选出同时包含上衣和下衣的图片,并分别得到上衣和下衣的详细分类标签。进而通过word2vec和tfidf将每件服装的所有标签转换为一个句子向量。输入到sklearn的多输出分类器中进行机器学习,建立同一模特所穿上下衣标签之间的关联性,实现通过给定的上衣或下衣服装标签集推荐出与之相搭配的服装标签集。最后再将推荐出的服装标签集同服装图片数据库中的图片标签集进行匹配,把标签集相似度最高的服装作为推荐服装以图片的形式推荐给使用者。
时尚穿搭推荐模型
“通过此次的项目实践,我们对项目应用有了更加全面了解。最终呈现的产品有些瑕疵,需要改进并完善搭配模型,进一步提升模型的准确率。感谢团队成员,感谢武彬学长一直以来对我们提供的帮助,感谢极睿科技公司给我们提供的数据资源、计算资源以及所有的帮助。”清华大学核研院陶玉洁如是说。
项目小组成员:陶玉洁-清华大学核研院,闫树睿-清华大学建筑学院,封禹-清华大学软件学院,暴佳伟-北京石油化工学院 、信息工程学院,王伟涛-北京工业大学应用数理学院。
项目背景:
清华大学大数据能力提升项目在“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”的指导原则下,通过多学科交叉融合的大数据课程体系,引入新的教学模式,培养大数据思维和素养,重点培养数据分析、数据管理和创新应用能力。旨在促进大数据人才培养,服务国家大数据发展战略。项目由清华大学研究生院、数据科学研究院及相关院系共同设计组织实施,基于现行的大数据硕士项目,整合建设课程模块,形成大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,以培养提升学生大数据分析能力和创新应用能力。
培养对象:
本项目面向在学研究生(包括硕士和博士)。
培养目标:
培养具有大数据思维和创新能力的“π”型人才;
培养数据分析和管理数据的能力,培养宽广的视野、良好的职业素养和发展潜力,以能服务于政、产、学、研等领域的大数据相关工作。
“此次是极睿科技与清华大学大数据能力提升项目第三次合作。我们希望未来达成更多的项目合作,为学弟学妹提供这样的实践机会,同时也帮助极睿获得新的大数据应用创新项目,帮助极睿更快成长。”极睿科技ceo武彬介绍说。