DeepSeek hat zu einer explosionsartigen Nachfrage nach Inferenz geführt und Nvidias „Rechenleistungs-Hegemonie“ gebrochen. Die Tür zu einer neuen Welt hat sich allmählich geöffnet – die von ASIC-Chips angeführte Rechenleistungsrevolution bewegt sich vom Stillstand zum Lärm.
Kürzlich zitierte Core Flow Think Tank eine informierte Quelle mit der Aussage, DeepSeek bereite die Entwicklung eigener KI-Chips vor. Im Vergleich zu diesem aufstrebenden Unternehmen hätten inländische Giganten wie Alibaba, Baidu und ByteDance den Schritt zur „Selbstforschung“ bereits früher getan.
Auch auf der anderen Seite des Ozeans wurden Anfang des Jahres neue Fortschritte bei OpenAIs selbstentwickelten Chips bekannt gegeben. Ausländische Medien berichteten, dass der erste von Broadcom speziell für OpenAI angepasste Chip innerhalb weniger Monate bei TSMC produziert werden soll. Zuvor wurde berichtet, dass Sam Altman 7 Billionen US-Dollar aufbringen will, um ein „Chip-Imperium“ aufzubauen, das sowohl Design als auch Fertigung umfasst. Auch Google, Amazon, Microsoft und Meta haben sich dem „Selbstforschungswahn“ angeschlossen.
Ein offensichtliches Signal ist, dass niemand – egal ob DeepSeek, OpenAI, chinesische Unternehmen oder die Giganten des Silicon Valley – im Zeitalter der Rechenleistung den Anschluss verlieren möchte. ASIC-Chips könnten ihre Eintrittskarte in die neue Welt sein.
Wird dies Nvidia den Garaus machen? Oder wird es ein zweites Nvidia schaffen? Darauf gibt es noch keine Antwort. Es ist jedoch klar, dass Unternehmen in der vorgelagerten Industriekette die Dynamik dieser „selbst entwickelten Welle“ bereits vorhergesehen haben. So hat beispielsweise Broadcom, das Design- und Anpassungsdienstleistungen für große Hersteller anbietet, einen enormen Leistungsschub erlebt: Im Jahr 2024 stieg der Umsatz im KI-Geschäft im Vergleich zum Vorjahr um 240 % auf 3.7 Milliarden US-Dollar; im ersten Quartal 1 betrug der Umsatz im KI-Geschäft 2025 Milliarden US-Dollar, ein Plus von 4.1 % gegenüber dem Vorjahr; 77 % davon stammen aus dem ASIC-Chip-Design. Aus Sicht von Broadcom ist der ASIC-Chip-Markt mehr als 80 Milliarden US-Dollar wert.
Von GPU bis ASIC: Die Wirtschaftlichkeit von Rechenleistung erreicht einen Wendepunkt
Niedrige Kosten sind eine Voraussetzung für die explosionsartige Entwicklung des KI-Denkens. Im Gegensatz dazu sind Allzweck-GPU-Chips zu den goldenen Fesseln für die explosionsartige Entwicklung der KI geworden.
NVIDIAs H100 und A100 sind die absoluten Könige des Trainings großer Modelle, und sogar B200 und H200 sind bei Technologiegiganten gefragt. Die Financial Times zitierte zuvor Daten von Omdia, wonach im Jahr 2024 zu den Hauptkunden von Nvidias Chips mit Hopper-Architektur Microsoft, Meta, Tesla/xAI usw. gehören und die Bestellungen von Microsoft 500,000 erreichen werden.
Als absoluter Herrscher der Allzweck-GPUs ist jedoch nach und nach die andere Seite der Medaille der Produktlösungen von NVIDIA deutlich geworden: hohe Kosten und überflüssiger Energieverbrauch.
Ein einzelner H100 kostet über 30,000 US-Dollar. Das Training eines Modells mit Hunderten von Milliarden Parametern erfordert Zehntausende GPUs sowie Investitionen in Netzwerkhardware, Speicher und Sicherheit in Höhe von insgesamt über 500 Millionen US-Dollar. Laut HSBC-Daten kostet die neueste Generation der GB200 NVL72-Lösung mehr als 3 Millionen US-Dollar pro Gehäuse, NVL36 rund 1.8 Millionen US-Dollar.
Man könnte sagen, dass Modelltraining auf Basis von Allzweck-GPUs zu teuer ist, doch Silicon Valley mit seiner unbegrenzten Rechenleistung bevorzugt immer noch die Devise „Große Leistung lässt Steine fliegen“, und die Investitionen haben sich nicht verringert. Erst kürzlich verfügt Musks xAI, das kürzlich Grok-3 angekündigt hat, über eine Serverskala von 200,000 GPUs für das Training.
In dem gemeinsam von Tencent Technology und Silicon Rabbit Racing veröffentlichten Artikel „20,000 Wörter detaillierte Erklärung der wichtigsten Erkenntnisse zur KI für 2025“ heißt es, dass die Betreiber von Hyperscale-Rechenzentren damit rechnen, dass ihre Investitionsausgaben (CapEx) im Jahr 200 2024 Milliarden US-Dollar übersteigen werden. Bis 250 dürfte diese Zahl bei fast 2025 Milliarden US-Dollar liegen, und dass große Teile der Ressourcen in die künstliche Intelligenz fließen werden.
Was den Energieverbrauch betrifft, so verbraucht ein H100,000-Cluster mit 100 Karten laut Berechnungen von SemiAnalysis insgesamt 150 MW und 1.59 TWh Strom pro Jahr. Bei einem Preis von 0.078 US-Dollar pro Kilowattstunde ergibt sich eine jährliche Stromrechnung von 123.9 Millionen US-Dollar. Verglichen mit den von OpenAI veröffentlichten Daten beträgt die Rechenleistungsauslastung der GPU in der Inferenzphase nur 30–50 %, und das Phänomen des „Berechnens während des Wartens“ ist signifikant. Diese ineffiziente Leistungsauslastung stellt im Inferenzzeitalter tatsächlich eine erhebliche Ressourcenverschwendung dar.

Googles zuvor angekündigte TPU V4- und A100-Trainingsgeschwindigkeiten für verschiedene Architekturmodelle
Führende Leistung, hohe Preise, geringe Effizienz und ökologische Hürden zwangen die Branche im vergangenen Jahr zu der Aussage: „Die Welt hat lange unter Nvidia gelitten.“ Cloud-Anbieter verlieren allmählich ihre Hardware-Autonomie, verbunden mit Lieferkettenrisiken, und AMD ist vorübergehend „nicht wachstumsfähig“. Viele Faktoren zwangen die Giganten dazu, mit der Entwicklung eigener ASIC-Chips zu beginnen.
Seitdem hat sich der Kampf um KI-Chips von einem technologischen zu einem wirtschaftlichen Wettstreit gewandelt. Die Studie von Southwest Securities kam zu dem Schluss: „Wenn die Modellarchitektur in die Konvergenzphase eintritt, muss jeder in Rechenleistung investierte Dollar messbare wirtschaftliche Vorteile bringen.“ Den jüngsten Fortschritten nordamerikanischer Cloud-Anbieter zufolge haben ASICs gewisse Substitutionsvorteile gezeigt:
- Google: Der von Broadcom für Google angepasste TPU v5-Chip weist im Llama-70-Argumentationsszenario 100 % niedrigere Kosten pro Rechenleistung auf als der H3.
- Amazon: AWS Trainium 3 verbraucht mit einem 3-nm-Prozess nur 1/3 der Energie einer Allzweck-GPU mit der gleichen Rechenleistung und spart so jährlich über 10 Millionen US-Dollar an Stromkosten. Es wird davon ausgegangen, dass Amazon im Jahr 2024 mehr als 500,000 Trainium-Chips ausgeliefert hat.
- Microsoft: Laut IDC-Daten sank der Anteil der Hardwarebeschaffungskosten von 75 % auf 58 %, nachdem Microsoft Azure seinen eigenen ASIC entwickelt hatte. Damit wurde das langfristige Dilemma passiver Verhandlungen überwunden.
Als größter Nutznießer der nordamerikanischen ASIC-Kette wird der Trend von Broadcom in den Daten immer deutlicher.
Broadcoms Umsatz im KI-Geschäft belief sich im Jahr 2024 auf 3.7 Milliarden US-Dollar, ein Anstieg von 240 % gegenüber dem Vorjahr. 80 % davon entfielen auf ASIC-Design-Dienstleistungen. Im ersten Quartal 1 belief sich der Umsatz im KI-Geschäft auf 2025 Milliarden US-Dollar, ein Anstieg von 4.1 % gegenüber dem Vorjahr. Gleichzeitig wird für das zweite Quartal ein KI-Umsatz von 77 Milliarden US-Dollar erwartet, ein Anstieg von 4.4 % gegenüber dem Vorjahr.
Bereits im Jahresberichtszeitraum prognostizierte Broadcom, dass die ASIC-Umsätze im Jahr 2027 explodieren würden. Drei Jahre später, so die Prognose, würden ASIC-Chips voraussichtlich ein Marktvolumen von 90 Milliarden US-Dollar erreichen. Das Unternehmen bekräftigte dies in der Telefonkonferenz zum ersten Quartal.
Dank dieses wichtigen Branchentrends ist Broadcom nach Nvidia und TSMC zum weltweit drittgrößten Halbleiterunternehmen mit einem Marktwert von über einer Billion US-Dollar geworden. Das Unternehmen hat auch die Aufmerksamkeit ausländischer Unternehmen wie Marvell und AIchip auf sich gezogen.
Eines muss jedoch betont werden: „ASIC ist gut, aber es wird GPU nicht töten.“ Microsoft, Google und Meta entwickeln alle ihre eigenen Produkte, wetteifern aber gleichzeitig darum, als erste Nvidias B200 auf den Markt zu bringen, was eigentlich zeigt, dass zwischen den beiden Parteien kein direktes Wettbewerbsverhältnis besteht.
Eine objektivere Schlussfolgerung dürfte lauten, dass GPUs den Markt für Hochleistungstraining weiterhin dominieren und aufgrund ihrer Vielseitigkeit weiterhin der wichtigste Chip in Inferenzszenarien bleiben werden. Im zukünftigen Blue-Ocean-Markt für KI-Chips, der sich 400 Milliarden US-Dollar nähert, ist die Durchdringung von ASICs jedoch bereits deutlich erkennbar.
IDC prognostiziert, dass in den Inferenzszenarien von 2024 bis 2026 der ASIC-Anteil von 15 % auf 40 % oder maximal 160 Milliarden US-Dollar steigen wird. Das Endergebnis dieser Transformation könnte sein: ASIC übernimmt 80 % des Inferenzmarktes, und GPUs ziehen sich in die Trainings- und Grafikbereiche zurück.
Die wahren Gewinner werden jene „Dual-Player“ sein, die sowohl Silizium-Wafer als auch Szenarien verstehen. Nvidia ist offensichtlich einer von ihnen. Optimismus in Bezug auf ASIC bedeutet keineswegs, Nvidia schlechtzumachen. Der Weg in die neue Welt führt über die Suche nach anderen Dual-Playern als Nvidia und wie man im neuen ASIC-Zeitalter Geld verdient.
ASICs „Skalpell“ schneidet alle Nicht-Kernmodule ab
Es wird gesagt, dass ASIC für KI-Argumente gut geeignet ist, aber um welche Art von Chip handelt es sich?
Aus architektonischer Sicht besteht die Beschränkung von Allzweckchips wie GPUs in ihrem „Eins-gegen-Hundert“-Design. Sie müssen mehrere Anforderungen wie Grafik-Rendering, wissenschaftliches Rechnen und verschiedene Modellarchitekturen berücksichtigen, was dazu führt, dass eine große Menge an Transistorressourcen für Funktionsmodule verschwendet wird, die nicht zum Kern gehören.
Das größte Merkmal der NVIDIA-GPU sind ihre vielen „kleinen Kerne“, vergleichbar mit den Triebwerken der Falcon-Rakete. Entwickler können sich auf die über die Jahre von CUDA gewachsene Operatorbibliothek verlassen, um diese kleinen Kerne für paralleles Rechnen reibungslos, effizient und flexibel aufzurufen.
Wenn das Downstream-Modell jedoch relativ sicher ist, ist auch die Rechenaufgabe relativ sicher und es sind nicht so viele kleine Kerne erforderlich, um die Flexibilität aufrechtzuerhalten. Dies ist das zugrunde liegende Prinzip von ASIC, weshalb es auch als vollständig angepasster Chip mit hoher Rechenleistung bezeichnet wird.
Durch „skalpellartiges“ präzises Schneiden werden nur die Hardwareeinheiten beibehalten, die für das Zielszenario von großer Bedeutung sind. Dies setzt eine erstaunliche Effizienz frei, die bei den Produkten von Google und Amazon nachgewiesen wurde.

Google TPU v5e AI-Beschleuniger – echte Aufnahme
Für GPUs eignet sich NVIDIAs CUDA am besten zum Aufrufen, während für ASIC-Chips die von den Cloud-Anbietern selbst entwickelten Algorithmen zum Aufrufen verwendet werden. Für große Unternehmen, die ursprünglich als Softwareanbieter tätig waren, ist dies keine schwierige Aufgabe:
- In Google TPU v4 werden 95 % der Transistorressourcen für Matrixmultiplikationseinheiten und Vektorverarbeitungseinheiten verwendet, die für Berechnungen neuronaler Netzwerke optimiert sind, während ähnliche Einheiten in GPUs weniger als 60 % ausmachen.
- Im Gegensatz zum Trennungsmodell „Rechner-Speicher“ der traditionellen Von-Neumann-Architektur kann ASIC den Datenfluss an die Algorithmuseigenschaften anpassen. Beispielsweise ist im empfohlenen Systemchip, der von Broadcom für Meta angepasst wurde, die Recheneinheit direkt um den Speichercontroller herum eingebettet. Dadurch verkürzt sich die Datenübertragungsdistanz um 70 % und die Latenz auf ein Achtel der GPU.
- Als Reaktion auf die 50–90 % spärliche Gewichtungscharakteristik in KI-Modellen ist in den Amazon Trainium2-Chip eine Sparse-Computing-Engine eingebettet, die die Nullwert-Berechnungsverbindung überspringen und so die theoretische Leistung um 300 % verbessern kann.
Wenn Algorithmen tendenziell fest sind, bietet ASIC in deterministischen vertikalen Szenarien einen natürlichen Vorteil. Das ultimative Ziel des ASIC-Designs besteht darin, den Chip selbst zur „physischen Verkörperung“ des Algorithmus zu machen.
In der Vergangenheit und der heutigen Realität finden wir Beispiele für den Erfolg von ASICs, etwa bei Chips für Bergbaumaschinen.
Anfangs nutzte die Branche Nvidias GPUs für das Mining. Später, als der Schwierigkeitsgrad des Minings zunahm, überstieg der Stromverbrauch die Mining-Einnahmen (ähnlich dem aktuellen Inferenzbedarf), und die Zahl dedizierter ASIC-Chips für das Mining explodierte. Obwohl ihre Vielseitigkeit deutlich geringer ist als die von GPUs, maximieren Mining-ASICs die Parallelität.
Beispielsweise setzt Bitmains Bitcoin-Mining-ASIC Zehntausende SHA-256-Hash-Recheneinheiten gleichzeitig ein und erreicht so eine superlineare Beschleunigung mit einem einzigen Algorithmus. Die Rechenleistungsdichte ist mehr als 1,000-mal höher als die einer GPU. Nicht nur die dedizierte Kapazität wurde deutlich verbessert, sondern auch der Energieverbrauch auf Systemebene konnte gesenkt werden.
Darüber hinaus können durch den Einsatz von ASIC die Peripherieschaltungen rationalisiert werden (beispielsweise wird der komplexe Protokollstapel der PCIe-Schnittstelle nicht mehr benötigt), die Mainboardfläche um 40 % reduziert und die Kosten der gesamten Maschine um 25 % gesenkt werden.
Niedrige Kosten, hohe Effizienz und Unterstützung für eine tiefe Integration von Hardware und Szenarien: Diese ASIC-Technologiekerne sind natürlich an die Transformationsanforderungen der KI-Branche angepasst, von „rechnergestütztem Brute-Forcing“ zu einer „Revolution der verfeinerten Effizienz“.
Mit dem Beginn des Inferenzzeitalters werden sich die Kostenvorteile von ASICs wiederholen, wie die Geschichte der Mining-Maschinen, und es wird ein „Todeskreuz“ unter dem Skaleneffekt geben – trotz der hohen anfänglichen F&E-Kosten (die Designkosten eines einzelnen Chips betragen etwa 50 Millionen US-Dollar) ist die Kurve des Rückgangs der Grenzkosten viel steiler als bei Allzweck-GPUs.
Am Beispiel der Google TPU v4 sanken die Stückkosten bei einer Steigerung des Liefervolumens von 100,000 auf 1 Million Stück drastisch von 3,800 US-Dollar auf 1,200 US-Dollar – ein Rückgang von fast 70 %, während die Kostensenkung bei GPUs üblicherweise nur 30 % beträgt. Aktuellen Brancheninformationen zufolge werden von der Google TPU v6 im Jahr 1.6 voraussichtlich 2025 Millionen Einheiten ausgeliefert. Die Rechenleistung eines einzelnen Chips ist dabei dreimal höher als bei der vorherigen Generation. Die Kosteneffizienz von ASICs steigt weiterhin rasant.
Dies führt zu einem neuen Thema: Kann sich jeder dem Trend der Selbstentwicklung von ASICs anschließen? Dies hängt von den Kosten der Eigenforschung und der Nachfrage ab.
Nach Berechnungen für ASIC-Inferenzbeschleunigerkarten mit 7-nm-Prozess können die einmaligen Tape-Out-Kosten einschließlich IP-Lizenzgebühren, Arbeitskosten, Design-Tools, Maskenvorlagen usw. Hunderte Millionen Yuan betragen, ohne die Kosten für die anschließende Massenproduktion. Große Unternehmen haben hier größere finanzielle Vorteile.
Derzeit verfügen Cloud-Anbieter wie Google und Amazon über ein ausgereiftes Kundensystem, können einen geschlossenen Kreislauf aus Forschung, Entwicklung und Vertrieb bilden und haben inhärente Vorteile bei der Eigenforschung.
Für Unternehmen wie Meta liegt die Logik hinter ihrem selbst entwickelten Geschäft darin, dass sie bereits einen enormen internen Bedarf an Rechenleistung haben. Anfang des Jahres gab Zuckerberg bekannt, dass er plant, im Jahr 1 etwa ein Gigawatt Rechenleistung auf den Markt zu bringen und bis Ende des Jahres über mehr als 2025 Millionen GPUs zu verfügen.
Die „Neue Karte“ ist weit mehr als 100 Milliarden Dollar wert
Allein die Nachfrage nach Mining hat einen Markt von fast 10 Milliarden US-Dollar hervorgebracht. Daher waren wir nicht überrascht, als Broadcom ankündigte, dass der Markt für KI-ASICs bis Ende 70 90 bis 2024 Milliarden US-Dollar groß sein würde, und dachten sogar, dass diese Zahl möglicherweise konservativ angesetzt sei.
Der industrielle Trend zu ASIC-Chips sollte nicht länger hinterfragt werden. Der Fokus sollte vielmehr darauf liegen, die Spielregeln der „neuen Karte“ zu meistern. Im fast 100 Milliarden US-Dollar schweren KI-ASIC-Markt haben sich drei klare Ebenen herausgebildet: „ASIC-Chip-Designer und -Hersteller, die die Regeln festlegen“, „Industriekettenunterstützung“ und „Fabless in vertikalen Szenarien“.
Die erste Ebene bilden die ASIC-Chip-Designer und -Hersteller, die die Regeln festlegen. Sie können ASIC-Chips mit einem Stückpreis von über 10,000 US-Dollar herstellen und für die kommerzielle Nutzung mit nachgelagerten Cloud-Anbietern zusammenarbeiten. Zu den repräsentativen Akteuren zählen Broadcom, Marvell, AIchip und TSMC, der führende Hersteller von Chips, der von jedem fortschrittlichen Chip profitieren wird.
Die zweite Ebene stellt die unterstützende Industriekette dar. Die unterstützende Logik, die die Aufmerksamkeit des Marktes auf sich gezogen hat, umfasst fortschrittliche Verpackungen und die nachgelagerte Industriekette.
- Fortschrittliche Verpackung: 35 % der CoWoS-Produktionskapazität von TSMC wurden an ASIC-Kunden übertragen, darunter inländische Gegenstücke wie SMIC, Changdian Technology und Tongfu Microelectronics.
- Die Entkopplung von Cloud-Anbietern und NVIDIAs Hardwarelösungen eröffnet neue Möglichkeiten im Hardwarebereich, beispielsweise bei AEC-Kupferkabeln. Amazons selbst entwickelter Single-ASIC muss mit drei AECs ausgestattet werden. Wenn 3 sieben Millionen ASICs ausgeliefert werden, wird der entsprechende Markt 7 Milliarden US-Dollar übersteigen. Auch andere Bereiche, darunter Server und PCBs, profitieren von einer ähnlichen Logik.
Die dritte Ebene umfasst die Fabless-Technologie in vertikalen Szenarien. ASICs sind im Kern nachfrageorientiert. Wer die Schwachstellen des Szenarios zuerst erkennt, hat die Preissetzungsmacht. ASICs sind kundenspezifische Anpassungen, die sich natürlich an vertikale Szenarien anpassen. Nehmen wir beispielsweise Chips für intelligentes Fahren. Als typischer ASIC-Chip erlebt dieser Produkttyp, da BYD und andere Unternehmen voll auf intelligentes Fahren setzen, gerade eine Phase explosiven Wachstums.
Die Chancen, die den drei großen Ebenen der globalen ASIC-Industriekette entsprechen, können als die „drei geheimen Schlüssel“ der inländischen Produktion betrachtet werden.
Aufgrund der Einschränkungen durch das Verbot ist die Lücke zwischen inländischen GPUs und NVIDIA immer noch groß, und auch der ökologische Bau ist noch ein langer Weg. Bei ASICs stehen wir jedoch sogar am gleichen Startpunkt wie im Ausland. In Kombination mit vertikalen Szenarien können viele chinesische Fabless-Unternehmen energieeffizientere Produkte herstellen, wie beispielsweise die bereits erwähnten ASICs für Mining-Maschinen, ASICs für intelligentes Fahren und Baidus Kunlun Core.
Die Chipherstellung erfolgt hauptsächlich über SMIC, während ZTE Microelectronics, eine Tochtergesellschaft von ZTE, neu im Markt ist. Es ist nicht ausgeschlossen, dass das Unternehmen künftig mit inländischen Herstellern kooperiert, um die Frage „Wer wird das chinesische Broadcom?“ zu inszenieren.

Nvidias wichtigste Vorlieferanten von Rechenzentrumsprodukten
Der unterstützende Teil der Industriekette ist relativ einfach herzustellen. Bei den entsprechenden Servern, optischen Transceivern, Switches, Leiterplatten und Kupferkabeln sind inländische Unternehmen aufgrund ihres geringen technischen Aufwands grundsätzlich wettbewerbsfähiger. Gleichzeitig pflegen diese Unternehmen der Industriekette eine „symbiotische“ Beziehung zur inländischen Rechenleistung, und die ASIC-Chip-Industriekette wird davon nicht absehen.
Was die Anwendungsszenarien angeht, hängen die Chancen für andere inländische Designunternehmen neben den immer wieder erwähnten intelligenten Treiberchips und KI-Inferenzbeschleunigungskarten davon ab, welche Szenarien sich durchsetzen und welche Unternehmen die Chancen nutzen können.
Fazit
Während sich die KI auf der Suche nach Energieeffizienz von der harten Trainingsarbeit in die tiefen Gewässer des logischen Denkens begibt, wird die zweite Hälfte des Krieges um die Rechenleistung zwangsläufig jenen Unternehmen gehören, die technologische Fantasien in wirtschaftliche Erfolge umsetzen können.
Der Gegenangriff der ASIC-Chips ist nicht nur eine technologische Revolution, sondern auch eine geschäftliche Offenbarung in Bezug auf Effizienz, Kosten und Sprachqualität. In diesem neuen Spiel nehmen die Chips chinesischer Spieler still und leise zu – wer vorbereitet ist, findet immer eine Chance.