Databricks,是一家基于云計(jì)算Spark大數(shù)據(jù)的軟件運(yùn)營商,成立于2013年1月1日,總部位于舊金山,主要提供用于數(shù)據(jù)集成、數(shù)據(jù)管道、數(shù)據(jù)清洗、數(shù)據(jù)管理以及其他服務(wù)的基于Spark的云服務(wù)。現(xiàn)任首席執(zhí)行官為阿里?戈西(Ali Ghodsi)。
Databricks于2016年和微軟達(dá)成合作。2017年11月,Databricks成為Microsoft Azure的第一方服務(wù)平臺(tái)。2018年,Databricks發(fā)布了MLflow來管理機(jī)器學(xué)習(xí)項(xiàng)目。2020年6月,Databricks宣布收購以色列初創(chuàng)公司Redash。2021年,Databricks和谷歌云達(dá)成合作。2023年,Databricks推出了開源語言模型Dolly。2023年6月,Databricks宣布收購生成式人工智能初創(chuàng)公司MosaicML,2024年3月,Databricks推出通用大型語言模型DBRX。
2024年,Databricks被福布斯評(píng)為“AI50強(qiáng):全球最佳AI初創(chuàng)企業(yè)”。2025年,Databricks被高德納咨詢公司授予“魔力象限:數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)領(lǐng)域領(lǐng)導(dǎo)者”稱號(hào)。
歷史沿革
2013年,Apache Spark7位初始成員(Ali Ghodsi、Andy Konwinski、Arsalan Tavakoli-Shiraji、Ion Stoica、Matei Zaharia、Patrick Wendell和Reynold Xin)創(chuàng)立了Databricks。2016年,Databricks和微軟達(dá)成合作。2017年11月,Databricks成為Microsoft Azure的第一方服務(wù)平臺(tái)。
2018年,Databricks發(fā)布了MLflow來管理機(jī)器學(xué)習(xí)項(xiàng)目。次年,Databricks又發(fā)布了Delta Lake。2020年6月,Databricks宣布收購以色列初創(chuàng)公司Redash并基于其技術(shù)推出了數(shù)據(jù)湖屋關(guān)鍵開源技術(shù)Delta Engine,可在Delta Lake之上分層以提高查詢性能。同年11月,Databricks推出了Databricks SQL,用于在數(shù)據(jù)湖上運(yùn)行商業(yè)智能和分析報(bào)告。
2021年,Databricks和谷歌云建立合作,使用戶能夠在谷歌云上應(yīng)用Databricks平臺(tái)的功能。通過此次合作,Databricks成為了當(dāng)時(shí)唯一一個(gè)可以在三大云平臺(tái)(谷歌、亞馬遜和微軟)上使用的統(tǒng)一數(shù)據(jù)平臺(tái)。同年10月,Databricks收購了德國無代碼公司8080labs,降低了平臺(tái)的使用門檻,并在CIDR 2021發(fā)表論文首次正式提出了數(shù)據(jù)湖屋(Lakehouse)的概念。截至2022年8月,Databricks的年?duì)I收已超過10億美元。2023年,為了應(yīng)對(duì)OpenAI的ChatGPT, Databricks推出了開源語言模型Dolly。
2023年6月26日,Databricks正式宣布,以約13億美元收購生成式人工智能初創(chuàng)公司MosaicML,以提供為企業(yè)構(gòu)建類ChatGPT工具的服務(wù),交易預(yù)計(jì)7月31日前完成。9月14日,Databricks完成了超過5億美元的I輪融資。2024年3月,Databricks推出了一款名為DBRX的通用大型語言模型。12月7日,Databricks宣布完成100億美元J輪融資,公司估值從此前的430億美元攀升至620億美元。本輪融資由Thrive Capital領(lǐng)投,多家知名投資機(jī)構(gòu)參與本輪融資,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作為共同領(lǐng)投方。
機(jī)構(gòu)治理
參考資料
機(jī)構(gòu)業(yè)務(wù)
主營業(yè)務(wù)
Databricks旗下主要產(chǎn)品為大數(shù)據(jù)平臺(tái)Spark,Sparks是基于Apache Spark開源大數(shù)據(jù)框架的統(tǒng)一數(shù)據(jù)分析平臺(tái),定義了云計(jì)算時(shí)代數(shù)據(jù)處理標(biāo)準(zhǔn)的引擎。
產(chǎn)品服務(wù)
Data Sharing:數(shù)據(jù)共享平臺(tái)
Databricks和Linux基金會(huì)聯(lián)合開發(fā)了Delta Sharing數(shù)據(jù)共享平臺(tái),為跨數(shù)據(jù)、分析和人工智能的數(shù)據(jù)共享提供了一個(gè)開源方法。客戶可以在高度安全和治理的平臺(tái)區(qū)域之間共享實(shí)時(shí)數(shù)據(jù),可以在企業(yè)內(nèi)部業(yè)務(wù)線共享、B2B分享與數(shù)據(jù)貨幣化等場景中應(yīng)用。
Unity Catalog:統(tǒng)一管理方法
Databricks Unity Catalog為Databricks數(shù)據(jù)智能平臺(tái)內(nèi)的數(shù)據(jù)和人工智能提供了統(tǒng)一的管理方法。使用Unity Catalog,組織可以在任何云或平臺(tái)上無縫地管理其結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、機(jī)器學(xué)習(xí)模型、筆記本、儀表板和文件。數(shù)據(jù)科學(xué)家、分析師和工程師可以使用Unity Catalog發(fā)現(xiàn)、訪問可信數(shù)據(jù)和人工智能資產(chǎn)并進(jìn)行協(xié)作,利用人工智能提高生產(chǎn)力并釋放數(shù)據(jù)湖屋架構(gòu)的全部潛力。該功能能夠提高生產(chǎn)力,簡化許可模型,進(jìn)行人工智能監(jiān)控并提高可視性。
Mosaic AI:統(tǒng)一構(gòu)建工具
Databricks Mosaic AI能夠提供統(tǒng)一的工具來構(gòu)建、部署和監(jiān)控人工智能和機(jī)器學(xué)習(xí)解決方案,包括構(gòu)建預(yù)測模型、最新的GenAI和大型語言模型。基于Databricks數(shù)據(jù)智能平臺(tái),Mosaic AI使組織能夠安全且經(jīng)濟(jì)高效地將企業(yè)數(shù)據(jù)集成到AI生命周期中。在保證企業(yè)對(duì)模型和數(shù)據(jù)的所有權(quán)的同時(shí),提供準(zhǔn)確、安全和可控的AI應(yīng)用程序,并以更低的成本為用戶培訓(xùn)定制化的大語言模型。
DBRX:通用大語言模型
DBRX是Databricks下一代GenAI產(chǎn)品的核心支柱。它是由Databricks創(chuàng)建的開放的通用大語言模型,采用了創(chuàng)新的先進(jìn)技術(shù)。此外,它為開放社區(qū)和企業(yè)提供了構(gòu)建定制化大語言模型的功能,可供Databricks客戶通過應(yīng)用程序接口使用。根據(jù)Databricks的測試,它超過了GPT-3.5,與Gemini 1.0 Pro有相似的競爭力。另外,DBRX在開放模型中提高了效率,是同類型的模型計(jì)算速度的2倍。
Delta Lake:構(gòu)建湖屋架構(gòu)的存儲(chǔ)框架
Delta Lake是DataBricks公司開源的、用于構(gòu)建數(shù)據(jù)湖屋架構(gòu)的存儲(chǔ)框架,是可以在開放格式之間自動(dòng)即時(shí)轉(zhuǎn)換的開放格式存儲(chǔ)層,能夠支持Spark、Flink、Hive、PrestoDB、Trino等查詢計(jì)算引擎。
數(shù)據(jù)湖和數(shù)據(jù)庫、數(shù)據(jù)倉庫一樣,都是數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)模式。區(qū)別在于,數(shù)據(jù)庫和數(shù)據(jù)倉庫通常采用明確的模式設(shè)計(jì),即先定義好數(shù)據(jù)模型和數(shù)據(jù)結(jié)構(gòu),再將數(shù)據(jù)整合到這個(gè)模型中,因此數(shù)據(jù)庫和數(shù)據(jù)倉庫更固定、更靜態(tài);而數(shù)據(jù)湖則更注重?cái)?shù)據(jù)的采集和存儲(chǔ),采用更靈活的架構(gòu)對(duì)各種異構(gòu)的數(shù)據(jù)源和數(shù)據(jù)格式進(jìn)行處理,因此數(shù)據(jù)湖更加動(dòng)態(tài)和靈活。數(shù)據(jù)湖屋結(jié)合了兩者的優(yōu)勢,并且通過打通數(shù)據(jù)湖和數(shù)據(jù)倉庫,能有效消除用戶組織內(nèi)部的數(shù)據(jù)壁壘。
Data Streaming:數(shù)據(jù)流
Databricks數(shù)據(jù)智能平臺(tái)極大地簡化了數(shù)據(jù)流,在一個(gè)平臺(tái)上提供實(shí)時(shí)分析、機(jī)器學(xué)習(xí)和應(yīng)用程序。Data Streaming能夠幫助用戶使用已知的語言和工具構(gòu)建數(shù)據(jù)平臺(tái),通過自動(dòng)化構(gòu)建和維護(hù)實(shí)時(shí)數(shù)據(jù),簡化開發(fā)和操作流程,并通過流的方式批量處理數(shù)據(jù),消除數(shù)據(jù)孤島。
Spark結(jié)構(gòu)化流是實(shí)現(xiàn)Databricks數(shù)據(jù)智能平臺(tái)上數(shù)據(jù)流的核心技術(shù),為批處理和流處理提供統(tǒng)一的應(yīng)用程序接口。Databricks是運(yùn)行Apache Spark工作負(fù)載的最佳場所,其托管服務(wù)能夠達(dá)到99.95%的正常運(yùn)行率。
MLflow:開源的機(jī)器學(xué)習(xí)平臺(tái)
MLflow是一個(gè)能夠覆蓋機(jī)器學(xué)習(xí)全流程(從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練到最終部署)的平臺(tái),旨在簡化數(shù)據(jù)科學(xué)家構(gòu)建、測試和部署機(jī)器學(xué)習(xí)模型的復(fù)雜過程。MLflow的第一個(gè)alpha版本有三個(gè)組件,其中"跟蹤"組件(Tracking)支持記錄和查詢實(shí)驗(yàn)周圍的數(shù)據(jù),如評(píng)估指標(biāo)和參數(shù);"項(xiàng)目"組件(Projects)提供了可重復(fù)運(yùn)行的簡單包裝格式;"模型"組件(Models)提供了管理和部署模型的工具。
獲得榮譽(yù)
參考資料
相關(guān)事件
盜版指控
2024年,Databricks被多名作家在舊金山聯(lián)邦法院提起集體訴訟,稱該公司在訓(xùn)練大模型時(shí)"未經(jīng)同意、未經(jīng)認(rèn)可、無補(bǔ)償"地復(fù)制和借鑒了他們的書籍。
根據(jù)起訴書,Databricks被指控分別使用盜版數(shù)字電子書庫Books3的數(shù)據(jù)訓(xùn)練了公司旗下的大模型MosaicML。"在訓(xùn)練期間,大模型復(fù)制并攝取訓(xùn)練數(shù)據(jù)集中的每個(gè)文本作品,并從中提取受保護(hù)的表達(dá)。"原告認(rèn)為,Databricks收購了MosaicML公司,而MosaicML生產(chǎn)MPT系列大型語言模型中使用了含有盜版內(nèi)容的數(shù)據(jù)集進(jìn)行訓(xùn)練,因此構(gòu)成著作權(quán)侵權(quán)。
融資公告
當(dāng)?shù)貢r(shí)間2025年8月19日,Databricks發(fā)布公告稱,正在進(jìn)行一輪超過10億美元的K輪融資,各方已經(jīng)簽署了投資條款清單,對(duì)應(yīng)估值將超過1000億美元。
參考資料 >
Databricks.企查查.2025-08-20
“最火AI IPO候選人”Databricks完成新一輪融資,估值430億美元,英偉達(dá)又參與了.華爾街見聞.2025-08-20
管理層.databricks.2025-08-20
Databricks:“湖倉一體”式云上大數(shù)據(jù)處理與機(jī)器學(xué)習(xí)平臺(tái).未央網(wǎng).2025-08-20
Databricks以13億美金收購MosiacML,AIGC領(lǐng)域并購升溫|最前線.36氪.2024-09-10
Databricks 推出大語言模型 DBRX,號(hào)稱“現(xiàn)階段最強(qiáng)開源 AI”.IT之家.2024-09-10
Awards and Recognition.databricks.2025-08-20
這家“湖倉一體”公司H輪融16億美元,估值380億美元.澎湃新聞.2024-04-16
英偉達(dá)最新投資了一家“最有潛力IPO的AI公司”:Databricks.騰訊網(wǎng).2025-08-20
史上最大風(fēng)險(xiǎn)投資之一,Databricks 100億美元融資落地憑什么?|企服國際觀察 .百家號(hào).2025-08-20
全球第五家千億獨(dú)角獸即將誕生 數(shù)據(jù)公司正變得炙手可熱.百家號(hào).2025-08-20