Research on the Adaptability of Generative Algorithm in Generative Landscape Design

Ran CHEN; Xiaomin LUO; Yueheng HE; Jing ZHAO

doi:10.3724/j.fjyl.202404120207

Landscape Architecture >

2024 , Vol. 31 >Issue 9: 12 - 23

DOI: https://doi.org/10.3724/j.fjyl.202404120207

Special: Application of Artificial Intelligence in Landscape Architecture

Research on the Adaptability of Generative Algorithm in Generative Landscape Design

Ran CHEN ^,¹^,² ,
Xiaomin LUO ^,²^,⁴ ,
Yueheng HE ^,² ,
Jing ZHAO ^,¹^,²^,³^,^*

Expand

¹ School of Landscape Architecture, Beijing Forestry University
² Key Laboratory of Ecology and Energy Saving Study of Dense Habitat, Ministry of Education
³ Beijing Laboratory of Urban and Rural Ecological Environment
⁴ School of Architecture, Tsinghua University

zhaojing850120@163.com

CHEN Ran is a co-researcher in the Key Laboratory of Ecology and Energy Saving Study of Dense Habitat, Ministry of Education, and a Ph.D. candidate in the School of Landscape Architecture, Beijing Forestry University. His research focuses on design intelligence and deep learning

LUO Xiaomin gained her bachelor degree in Beijing Forestry University, and is master student in the School of Architecture, Tsinghua University. Her research focuses on design intelligence and deep learning and ecosystem service

HE Yueheng is an undergraduate student in the School of Landscape Architecture, Beijing Forestry University. Her research focuses on design intelligence and deep learning

ZHAO Jing, Ph.D., is a co-researcher in the Key Laboratory of Ecology and Energy Saving Study of Dense Habitat, Ministry of Education, a professor and doctoral supervisor in and vice dean of the School of Landscape Architecture, Beijing Forestry University, a member of Beijing Laboratory of Urban and Rural Ecological Environment, and a deputy editor-in-chief of this journal. Her research focuses on design intelligence, history and theory of landscape architecture, and landscape planning and design

Received date: 2024-04-12

Revised date: 2024-08-12

Online published: 2025-12-16

Copyright

Fold

Abstract

[Objective] In recent years, groundbreaking generative algorithms such as GPT-4 and Diffusion have propelled a new wave of technological revolution, significantly impacting various fields, including landscape architecture. This research reviews the integration of these advanced algorithms into landscape architecture, with a focus on their adaptability across different stages of design. These algorithms, known for their capability to generate texts and images, are poised to revolutionize design methodologies by offering innovative solutions that can transform traditional practices.

[Methods] The methodology of this research involves a systematic exploration of generative algorithms applied in a structured framework within the landscape architecture domain. The process is divided into four distinct stages: text generation, layout generation, master plan rendering, and effect visualization. Each stage tests different algorithms to evaluate their practicality and effectiveness and comprehensively assess their capabilities and limitations in real-world design scenarios.

[Results] 1) Text generation: The initial stage of the design process involves generating descriptive texts based on input queries. Traditional LLMs like GPT-4 show robust capabilities in general text generation but often lack the nuanced understanding required for specialized fields such as landscape architecture. To address this, the research employs techniques such as fine-tuning and retrieval-augmented generation (RAG) to enhance the specificity and relevance of the outputs to landscape architecture. Despite these efforts, the adaptability of LLMs to generate contextually rich and technically accurate descriptions remains a significant challenge. The research suggests that integrating domain-specific knowledge bases and employing advanced tuning methods may improve the performance of LLMs in generating more relevant design descriptions.Layout generation. 2）Layout generation: The research explores the use of generative adversarial network (GAN), specifically CycleGAN and Pix2Pix, which can adapt source domain images to target domain layouts. These models excel in identifying and translating underlying design patterns without the need for direct supervision, which aligns well with creative design practices that value innovation over replication. The research highlights the potential of these algorithms to understand and reinterpret spatial data into feasible design layouts, showcasing their capability to innovate within the predefined norms of landscape architecture. 3）Master plan rendering: The master plan rendering stage is critical for producing detailed and accurate architectural drawings. The research tests the efficacy of large pre-trained models like Stable Diffusion and examines their integration with traditional GAN for enhanced precision. The findings indicate that while Stable Diffusion provides high-quality image outputs, its application in producing detailed technical drawings is limited. The research introduces a hybrid approach, combining the strengths of GAN for structural accuracy and the image quality of Stable Diffusion, to produce renderings that are both aesthetically pleasing and technically detailed. 4）Effect visualization: The final stage involves creating detailed three-dimensional visual effects from the two-dimensional plans. This stage tests the adaptability of algorithms to translate flat designs into vivid, multi-dimensional landscapes. Techniques such as ControlNet and specialized tuning methods like LoRA are used to fine-tune the visual outputs to meet specific aesthetic and functional requirements. The research delves into the challenges of maintaining the fidelity of the original design while enhancing the visual representation, which emphasizes the need for sophisticated control mechanisms to achieve high-quality visualizations.

[Conclusion] The research concludes that while generative algorithms hold significant promise for the field of landscape architecture, their success is contingent upon targeted adaptations and enhancements tailored to specific design tasks. The complexities of integrating these technologies into a coherent design process highlight the necessity for a multidisciplinary approach that leverages both technological innovations and traditional design principles. Future research should aim to develop an integrated system that combines various AI technologies, potentially transforming the landscape architecture field by streamlining and enhancing the design process. This integrated approach could pave the way for new methodologies that seamlessly merge theoretical and practical aspects of landscape design, thus fostering innovation and efficiency.

Key words： landscape architecture; artificial intelligence; generative design; large language model (LLM); stable diffusion (SD) model; generative adversarial network (GAN)

Cite this article

Ran CHEN , Xiaomin LUO , Yueheng HE , Jing ZHAO . Research on the Adaptability of Generative Algorithm in Generative Landscape Design[J]. Landscape Architecture, 2024 , 31(9) : 12 -23 . DOI: 10.3724/j.fjyl.202404120207

生成式预训练模型4 （generative pre-trained transformer 4, GPT-4）、稳定扩散（stable diffusion, SD）模型等新一代生成式算法带动了新一轮科技革命，人工智能与规划设计专业的结合在学界关注度也逐步得到提高。2023年 Nature Computational Science首次刊登了基于深度学习的城市自动规划模型的文章^[1]；2024年第十四届全国人民代表大会第二次会议的《政府工作报告》首次提出开展“人工智能＋”行动，促进了人工智能技术在多个领域的创新应用。在这一背景下，人工智能技术和规划设计领域的结合迅速发展^[2-4]。2024年7月的世界人工智能大会（World Artificial Intelligence Conference, WAIC）上，与规划设计领域高度相关的“智能社会论坛”成为WAIC重要的分论坛之一。

生成式算法指具有生成图像、文本数据能力的深度学习算法，深度学习算法是人工智能领域中的重要分支。GPT-4和扩散（Diffusion）等知名算法虽然是在2022年之后才被大众所熟知，但其强大的生成能力使之具备在各个行业应用的潜力，为各领域科技革命带来前所未有的机遇。在新的技术背景下，生成式算法可以应用在风景园林方案生成工作中的哪些阶段？不同算法在不同风景园林设计任务中的表现如何？如何通过不同的生成式算法构建基本的风景园林方案生成框架？这是本研究关注的3个重要问题。

1 相关技术综述

本研究结合生成式算法的特征与风景园林设计任务的特征，把风景园林设计方案生成工作划分为4个阶段：方案文本生成、场地布局生成、平面图渲染、效果图生成。这4个阶段分别对应不同的技术类型，测试不同技术在各个阶段的算法能力^{① ① 本研究代码已部分开源，详见https://github.com/RanChen2/Landscape_Generation/。}。

1）方案文本生成阶段的主要任务是文本推导、设计逻辑框架生成等。该阶段对应的技术类型主要是大语言模型（large language models, LLMs）。LLMs是为通用领域开发的模型，不具备特定领域专业知识，因此LLMs在风景园林应用的研究重点是如何向LLMs注入专业知识，使之适应风景园林领域。LLMs在2023年初兴起^[5]，鲜有在风景园林领域的相关研究，但有应用多种技术方法针对下游应用的适应性研究^[6]。LLMs对下游应用的适应性调整方法主要包括3种：二次预训练（pre-training）及微调（fine-tuning）^[7]、检索增强生成（retrieval-augmented generate, RAG）^[8]、多代理系统（multi-agent systems, 以下简称 Agent）^[9]。① 二次预训练及微调：LLMs经过万亿级令牌（token）量的通用数据训练，具备了通用领域知识，而重新训练一个特定领域的LLMs成本过高，因此有研究人员提出多种轻量化微调方法，主要是利用特定领域的小样本数据来微调LLMs，但此处的“小样本数据”只是相较于基座模型而言训练样本量更小，实际上还是需要10亿token以上的数据量。因此即便是微调，实际训练时仍然成本高、效率低；② RAG：该方法在2023年兴起，不需要训练，令LLMs直接检索数据库，确保模型具有准确的专业知识储备，效率高且成本低，但是对于超出数据库的问题泛化能力较差；③ Agent：该方法也在2023年兴起，令LLMs模拟多个个体进行交互交流，模拟社会化分工行为^[10]，对于复杂任务较为合适，但经常由于任务过于复杂，常出现不可控、不可评价的问题。

2）场地布局生成阶段的主要任务是基于场地条件控制生成场地布局，是设计工作最重要的环节。深度学习算法驱动的布局生成研究在2018年左右开始在建筑和规划领域出现^[11-15]，在2021年左右开始在风景园林领域出现^[16-19]。其中典型的研究范式是通过生成对抗网络（generative adversarial network, GAN）训练模型直接根据场地条件生成设计布局。尽管目前多数研究认为，将复杂的设计平面图生成过程简化为“图像到图像生成”的研究范式过于简单直接，但该研究范式为场地布局生成提供了宝贵的探索思路，而且直至目前，在深度学习算法驱动的平面布局生成的研究中，GAN系列算法仍是主要方法^[20]。GAN系列算法在生成设计领域通常采用Pix2Pix、循环生成对抗网络（cycle generative adversarial network, CycleGAN）等图像翻译策略，把设计问题简化为图像翻译问题，把复杂的设计问题直接凝练于端到端的算法黑盒中，但这也导致了设计过程不可解释和不可控^[21]，且可供训练的数据量不足以支撑风景园林如此复杂的设计任务^[22]。上述两方面局限是在风景园林领域应用深度学习算法的重要的研究瓶颈。

3）平面图渲染阶段的主要任务是生成高质量平面图图像。在SD、DALL-E等大型文生图（Txt2Img）预训练模型^[23]出现之前，平面图渲染任务通常被包含在场地布局生成研究中^[24-27]，大多数研究都是“场地条件—布局生成—平面渲染”的二阶段式研究范式，主要技术手段以GAN系列算法为主。而2023年至今，大型文生图预训练模型也被应用于平面图生成中，由于经过大规模通用领域图像数据训练，因此平面图图像生成质量明显优于GAN系列算法的应用研究。但与LLMs类似，大型文生图预训练模型同样存在通用领域模型难以适应风景园林平面图生成等特定领域的问题，在平面图要素识别过程中会出现错误。

4）效果图生成阶段的主要任务是构建平面图对应的三维空间结构，以及表达设计风格、设计细节。由于效果图与通用领域图像中的现实场景照片非常接近，因此SD通用预训练模型在生成效果图方面能力较强。但应用在风景园林规划设计中依然存在3个难点。1）设计风格、氛围的准确表达。借助低秩自适应技术（low-rank adaptation, LoRA）^[28]和基于DreamBooth模型^[29]的二次预训练方法，可以通过小样本数据训练，提高模型生成特定类型图像的准确性。2）场地空间与平面图空间的准确对应。该问题通常通过三维模型生成的方法解决，但目前在深度学习领域，较少有成熟的三维模型生成算法可以直接解决复杂场景生成问题，主要研究还是针对小体量的三维单体^[30]，而非综合性复杂场景^[31]。3）图像结构的准确控制。由于大型文生图模型的重要控制条件是文本内容，而文本数据对图像结构的控制能力本来就较差。因此，针对该问题，已有研究提出基于ControlNET的方法，该方法具有强大的图像结构控制能力，在结合SD模型之后大幅提升了大型文生图模型的图像结构控制能力，但对于过于小众的数据类型依然会出现对象识别错误。

综上，本研究总结出风景园林设计方案生成工作4个阶段的常见技术类型和技术问题（表1）。

表1 风景园林设计方案生成 4个阶段对应的技术问题

Tab. 1 Technical problems corresponding to each of the 4 stages involved in the generation of a landscape design scheme

阶段	常见技术类型	技术问题
方案文本生成	LLMs基座模型	无专业领域知识
	二次预训练及微调	成本及效率问题
	RAG	超出数据库的问题泛化能力问题
	Agent	控制、评价问题
场地布局生成	GAN	不可解释、不可控问题
场地布局生成	GAN	数据量问题
平面图渲染	GAN	生成图像质量问题
平面图渲染	大型文生图预训练模型	语义识别能力问题
效果图生成	ControlNET 和SD模型结合	图像结构控制问题
	二次预训练及微调	特定风格的表达问题
	三维模型生成	场地空间与平面图的对应问题

2 风景园林方案生成技术方法

本研究把风景园林设计方案生成工作划分为4个阶段，主要通过对照实验的方法，测试在同一条件下不同算法的表现。由于在实验过程中深度学习中的数据与算法同等重要，因此本研究在数据准备过程中也构建了针对性方法，具体包括文本、布局、平面、效果、数据5个部分的生成方法。

各部分所针对的问题不同，因此技术对比的逻辑也不同（图1-1）。另外，由于方案生成的布局生成、平面渲染、效果图生成3个阶段是可以串联的，因此本研究尝试串联生成完整的流程（图1-2），但研究重点不是生成流程，而是流程中各个阶段的算法对比测试。

显示原图|下载原图ZIP|生成PPT

图1 风景园林方案生成各阶段算法对比测试框架（1-1）及部分生成流程（1-2）

Fig. 1 Comparative testing framework of algorithms at various stages of landscape architecture scheme generation (1-1) and part of the generation process (1-2)

2.1 方案文本生成阶段

方案文本生成阶段的目标是基于输入问题直接生成完整设计说明。而目前LLMs应用中最关键的问题是模型不具备特定领域知识。而为解决此问题通常使用的方法是二次预训练及微调、RAG、Agent，这3种方法又分别有各自优劣势。因此，本研究将LLMs基座模型与3种方法的表现做对比研究（图2）。

显示原图|下载原图ZIP|生成PPT

图2 LLMs 对下游应用适应性调整的3种方法及其技术流程

Fig. 2 Three methods of LLMs adaptive adjustment for downstream applications and their technical processes

1）LLMs基座模型：LLMs基座模型指未经过任何特定领域知识训练的模型。本研究根据模型类型选取使用量较高的5个模型，闭源模型选取国内开发的文心一言、国外开发的GPT-4，开源模型选取国内开发的ChatGLM和Baichuan，国外开发的LLaMA。这5个模型涵盖开源、闭源、中文友好与英文友好不同类型，可以代表常见的任务类型。

2）二次预训练及微调：二次预训练及微调是指利用特定领域数据训练基座模型，令模型具有专业知识。

本研究通过二次预训练及微调构建人居环境LLM和植物LLM 2个特定领域模型。其中2个模型都基于人居环境文本数据库进行二次预训练，再分别根据人居环境指令微调数据集、植物指令微调数据集，得到人居环境LLM和植物LLM，此处二次预训练和微调是递进关系。二次预训练方面，人居环境文本数据库为综合训练集，包含未经处理的建筑、景观、城市设计以及植物学等多学科基础知识（共3.4亿token），二次预训练基座模型为Chinese-Llama-Alpaca-13B；微调方面，人居环境指令微调数据为重新构建的2.8万条人居环境指令数据集，植物指令微调数据为重新构建的1.2万条植物指令数据集，数据均来源于前述人居环境文本数据库，微调的基座都是上述过程中二次预训练后的基座模型（图3）。

显示原图|下载原图ZIP|生成PPT

图3 场地布局生成实验流程示例

Fig. 3 Example of the experimental process of layout generation

3）RAG：RAG令模型在回答问题之前，直接根据问题检索数据库，避免了高成本的训练过程。因此RAG的关键在于建立检索数据库以及构建检索工具。检索数据库方面，采用人居环境文本数据库；检索工具方面，模型触发检索时需要把用户问题和数据库中的数据同时转换为词嵌入（Embedding）表示，再将两者快速匹配，检索到相关文本，该过程需要一个文本检索基础模型作为工具。本研究选取FlagEmbedding模型，为了提升准确性，从人居环境LLM二次预训练数据集中随机抽取5000个包含2000 token的文本切片，通过GPT-3.5的应用程序编程接口（application programming interface, API），批量生成5 000条检索问题，再把文本切片和检索问题作为检索数据集，用检索数据集微调 FlagEmbedding模型，将微调后的FlagEmbedding作为本研究的检索工具。

4）Agent：构建Agent需要多次调用LLMs，模拟多个角色进行群组讨论。由于从零构建Agent需要解决复杂的记忆存储问题，因此本研究以更为成熟的AutoGEN系统作为基础架构建立群聊。通过AutoGEN预设的GroupChatManager工具管理群聊，本研究仅做群聊系统角色设定的改动，以及操作环境的适应性调整，无其他调整。

2.2 场地布局生成阶段

场地布局生成阶段的目标是基于场地条件直接生成场地布局。

目前场地布局生成阶段的研究以GAN系列算法为主，其中最常见的方法为CycleGAN与Pix2Pix算法策略^[2]，两者目的相似，都是针对图像翻译任务的算法，即通过大量数据训练，挖掘源域与目标域之间的关系，应用在处理场地设计前和设计后的转换关系上。

CycleGAN为GAN的一个变体，采用无监督学习策略，克服了一对一数据标签的限制。该策略通过对抗性训练及循环一致性损失的应用，指导模型学习将数据从源域转换至目标域，同时维持数据的核心属性。由于无监督学习策略，CycleGAN策略更重视提炼数据转换规律，而Pix2Pix策略的训练策略更重视“逼近训练标签”。算法如何通过挖掘大规模数据集以掌握其隐式规律是生成设计的重要问题，因此，相较于Pix2Pix，CycleGAN策略的训练逻辑更适用于生成设计。Pix2Pix和CycleGAN策略在生成设计任务上的区别已有多个相关研究进行了实验对比^{[19, 32-34]}，因此本研究不再展开对比。

为了探索该阶段研究目前特有的不可解释问题，本研究做了风景园林专项生成研究，以初步探索算法对不同设计要素的布局规律的理解问题。在场地布局生成阶段中，进行园林布局生成、园林布局专项生成2个生成实验。具体来说，园林布局生成实验训练的数据集来自“场地条件—场地布局”数据，输入端训练数据集为绿地、水体、构筑物分布的图像，输出端训练数据集为绿地、道路、铺装、水体、构筑物、植物完整布局的园林布局方案。园林布局生成实验数据量为194对（图3）。

园林布局专项生成实验包含铺装、构筑物、道路、植物4项，每项输入端训练数据为缺失该项要素的园林布局图像，输出端训练数据为完整布局图像，如植物专项生成实验输入端为缺失植物的场地布局图像，输出端实验为包含植物要素的完整园林布局图像，4项实验数据量均为194对。

2.3 平面图渲染阶段

平面图渲染阶段的目标是基于场地布局或文本条件直接生成细节丰富的彩色平面图。

在当前阶段，平面图渲染任务普遍依赖于两大核心技术：大型文生图预训练模型与GAN系列算法。这2类方法各自具备显著的优势与局限，是本研究在该任务探索阶段测试基础模型的主要方法。

本研究通过测试二次预训练及微调方法提升大型文生图预训练模型对平面图的理解能力。另外，为兼顾图像生成质量和图像识别能力，本研究提出GAN和SD模型相结合的方法。

该阶段的算法测试包括4个模块：GAN、大型文生图预训练模型、二次预训练及微调、GAN与SD模型的组合优化实验。

1）GAN模块。与布局生成类似，该部分基于CycleGAN策略，进行基于场地布局的平面图渲染实验。实验以场地布局图像（6类要素）为输入端训练数据，以彩色平面图为输出端训练数据。

2）大型文生图预训练模型模块。大型文生图预训练模型通常经过10亿token以上的“文本-图像”数据对进行训练，通常以文本控制生成图像。其文本控制能力来源于算法构架中所包含的视觉语言模型（visual-language models, VLMs），比如基于对比学习的语言-图像预训练（contrastive language-image pre-training, CLIP）、自举方法的语言-图像预训练（bootstrapping language-image pre-training, BLIP）等模型。已有研究将CLIP模型与图像生成网络通过不同方式进行组合，构建了如U形网络（U-shaped Network, U-Net）、残差网络（residual networks, resNets）等算法模型，同时采用不同的训练策略，如Diffusion、GAN、变分自编码器（variational auto-encoder, VAE）等算法，开发了各种大型文生图预训练模型。本研究选取较为著名的开源模型SD、闭源模型Midjourney和DALL-E进行对比测试。

3）二次预训练及微调模块。与LLMs类似，二次预训练是为了给模型注入专业知识。本研究尝试对SD模型进行二次预训练，增强其对特定领域的适应性和专业性。二次预训练主要采用DreamBooth技术，该技术能够在小样本数据条件下有效避免过拟合现象，通过训练图像与对应的文本标签数据，得到特定方向的基座模型。本研究分别使用2个样本数据集（分别包含200、6 000张平面图）训练2个风景园林平面图基座模型（LA_1、LA_2）。

4）GAN与SD模型的组合优化实验模块。为同时调用基于CycleGAN策略训练的平面渲染小模型的平面图要素准确识别能力，以及SD大型文生图预训练模型对高质量图像的生成能力，本研究将GAN算法与SD模型相结合构建渲染流程。

2.4 效果图生成阶段

效果图生成阶段的目标是基于平面图准确生成三维空间效果。

目前在SD等强大的开源模型支持下，该阶段的智能化生成已经非常成熟，但还存在3个主要问题。

1）图像结构控制问题：采用成熟的基于ControlNET的方法实现图像结构的严格控制。

2）特定风格的表达问题：采用LoRA微调方法，它是BreamBooth的简化形式，通过在原始模型中添加一个低秩矩阵作为适应层，并将低秩矩阵与原始权重矩阵相乘实现具体风格的调优。本研究采用此微调方法，训练3类效果图风格（古风LoRA_1、拼贴风LoRA_2、马克风LoRA_3）的LoRA模型。

3）场地空间与平面图的对应问题：目前暂无成熟技术解决。最直接的方法是手工三维建模。本研究根据该问题开发基于 Grasshopper的三维模型生成系统，该系统基于场地布局生成简单模型作为ControlNET控制图像，再将ControlNET与SD模型结合进行效果图快速生成实验。

2.5 数据制作方法

在深度学习领域，算力、算法和数据是三大核心要素。其中，数据是众多研究最容易忽视的要素，然而实际上数据与算法有同等重要的地位。

本研究采用的算法类型多，数据类型多，不同任务所对应的数据制作方法也各不相同。

1）LLMs二次预训练任务。所需数据量极大，但格式要求低。主要通过爬虫获取，还包括人工收集电子书数据等。

2）LLMs微调、检索模型微调任务。所需格式要求高，为一问一答的单轮问答数据，或多问多答的多轮问答数据，本研究构建多线程并发访问GPT-3.5-turbo的API中转池，快速批量获取问答数据。多线程并发访问可以将处理速度从0.1条/s提升到1 000条/s，处理量的上限由线程数和中转池并发容错率决定。

3）图像分类任务。平面图渲染及效果图生成都需要高质量的图像数据集，图像数据类型越相似，训练效果越好，因此图像分类问题极为重要。本研究采取多轮K均值聚类算法（K-means clustering algorithm）结合人工筛选的方法，提升图像分类效率，该方法可以将单人百级处理量提升到单人十万级处理量。

4）布局生成任务。布局生成需要准确的场地布局标签，人工绘制时间极长，本研究以194套人工绘制的标签数据为基础，借助Pix2Pix训练策略通过分层训练（6类要素单独训练）得到描图模型。再通过爬虫收集9 286套平面图，平面图经过描图模型得到合成数据，最后通过贝赛尔曲线优化技术在合成数据基础上得到优化后的布局标签数据。与单纯通过Transform技术处理图像不同，基于Pix2Pix训练策略以及贝赛尔曲线优化技术所增加的数据更贴近真实情况（该技术流程可以将每张图片的处理时间从6 h缩短到5 s左右）。

5）跨模态图文转换数据任务。SD模型的训练需要图文数据对，本研究通过CogVLM多模态视觉语言模型生成准确的图像说明文字（Caption），以及通过CLIP模型生成图像标签（Tags）。

3 结果与讨论

为尽量标准化测试各生成阶段，采用北京市海淀区西北旺10 hm²的绿地空间规划项目^{② ② 该项目为北京林业大学园林专业课程作业使用案例。}作为标准化测试案例。其中方案文本生成阶段的输入条件为问题，输出结果为文字段落，与其他阶段不联系。接下来的3个阶段为紧密联系的完整流程：场地现状图通过场地布局生成阶段生成场地布局图，场地布局图通过平面图渲染阶段生成渲染平面图，同时场地布局图通过效果图阶段生成效果图。

3.1 方案文本生成阶段结果

方案文本生成阶段的研究分4组实验：1）比较5种原生LLMs在生成风景园林问题方面的性能；2）针对特定训练的2个风景园林行业垂直领域模型，进行问题生成；3）测试检索增强生成方法在同一问题上的表现；4）展示Agent完成的整个设计讨论流程。4组实验模型的回答均为大段落语句，并不能直观提炼要点。因此，本研究按照设计要求的关键要点^{③ ③ 见本刊官网该文章资源附件（http://www.lalavision.com/cn/article/doi/10.3724/j.fjyl.202404120207）附录1 问题设置及打分要点。}对答案进行了归纳整合。

3.1.1 LLMs基座模型

本研究所测试的5种LLMs基座模型在整体语言生成推理性能上发挥正常，但全部对风景园林专业领域知识有所欠缺^{④ ④见本刊官网该文章资源附件附录2 LLMs基座模型生成结果。}。GPT-4、ChatGLM与文心一言3个模型整体表现较好，GPT-4生成的文本中设计分区最为合理，是唯一注意到建筑与剧场要求的模型，整体设计思路较为严谨；ChatGLM生成的设计文本在植物配置上最为合理，列举了适宜的树种；文心一言生成的文本中设计主题与说明最接近人类设计师的思维，且与GPT-4相比，对中文问题更加友好。

3.1.2 二次预训练及微调

相较于LLMs基座模型，人居环境LLM的设计习惯表达逻辑更符合设计师的角色，在分区与节点的设置上更加规范合理。但是在模型逻辑、完整、规范等能力方面与通用语言模型相比有所欠缺^{⑤ ⑤ 见本刊官网该文章资源附件附录3 人居环境LLM及植物LLM生成结果。}。这有2个方面原因：首先，数据量方面，目前LLMs的二次预训练数据量一般在10亿token以上，本研究模型未达到该训练规模；其次，数据质量方面，本研究模型训练数据未经处理，也未按逻辑分类、切片。一般需要将数据进行严格的分类，甚至训练多个专业模型再融合为大模型^[35-36]。而10亿token以上规模的数据量需求和分类体系构建，从算力和数据角度都是成本极高的工作，这也印证了上文第1节提到的问题：即便是微调，也离不开数据质量和数量问题。

但人居环境LLM也具有优点，即便数据质量不高，人居环境LLM依然能习得人类设计师常用的语言习惯。这印证了前人研究的观点^{[7, 37-39]}，模型微调可以培养模型性格、语言习惯靠近专业领域，当数据量达到一定程度上才会出现专业知识的“涌现”。

另外，本研究还进一步把人居环境LLM与植物LLM融合，融合后的LLM的优势与人居环境LLM大体相同，回答的设计文本内容会更加靠近人类进行植物规划设计的习惯，不仅在植物设计方面具有了明显的优势，同时还加入植物科普展示、科普装置等设计节点。但模型的回答还会出现新的问题，即在没有提前要求的情况下生成结果完全偏向植物设计。这说明经过训练后的模型，在一定程度上丧失了原有基座模型在通用领域的推理能力，这也是LLMs下游应用中的常见问题，一般需要多次测试通用数据集和专业数据集的多种配比^[40]。这提高了LLMs微调工作的成本。

3.1.3 检索增强生成

RAG是目前构建专业领域LLMs成本较低的替代方案。模型通过检索数据库，获取10条文本切片作为参考，检索结果靠近“生态”“科技”“多功能”“河道”“建筑”等关键词。生成结果虽准确复现了检索内容，但由于本研究采用简单的RAG（检索后要求LLMs直接根据检索结果响应，没有额外定制检索策略），因此该方法仅根据检索结果生硬地回答，生成结果已脱离原有问题^{⑥ ⑥ 见本刊官网该文章资源附件附录4 RAG检索增强生成模型生成结果。}。这说明要构建完整的专业化LLMs不能直接依靠检索，检索更适用于需要高度准确性的具体问题，如规范性问题、知识查询等。针对规划设计文本这种综合性开放问题，还需经过问题拆解，综合运用微调、思维链（chain of thought, CoT）、RAG、Agent等多种技术构建LLMs体系。如在检索步骤的前后设定更多的指令用于拆解问题、总结答案，以此组合多个代理（Agent），组成RAG+Agent的综合性体系。

3.1.4 多代理系统

Agent能够模拟人类开会讨论。为探索Agent的创造力，本研究只输入“海淀区—社区花园—10 hm²”的条件及角色的定位。Agent可以很好地模拟人类会议的讨论过程，不同角色会从不同角度思考任务问题，甚至会出现争辩、反驳的行为^⑦。

Agent的整个推理过程较一次性生成更清晰，也可以看到详细的分析过程，生成结果明显优于前述LLMs的一次性生成结果。在此过程中，LLMs基座模型没有经过任何微调或检索，但生成结果的逻辑和专业性都有所增强，这是因为在复杂任务中，多角色分阶段推演比一次性回答更好。这与规划设计任务的实际处理流程相似，复杂的工作经常需要分析、推理、试错，而非一次性生成。

但与其他相关研究类似，目前Agent在特定领域任务应用的相关研究中，主要的问题包括不可控和难以评价。控制与评价问题互相关联。控制方面，Agent从单一代理角度增减优化角色设定所带来的影响本身就是随机、不可控的；评价方面，Agent每一轮的交流会带来随机性的累加，难以直接量化评价。这些特性也与人类团体处理复杂任务时的交流相似。

3.2 场地布局生成阶段结果

3.2.1 园林布局生成

园林布局生成模型的生成结果元素之间面积分配与布局配置合理，道路、铺装与构筑物之间关系合理，实现了完整的流线设计；植物沿道路两旁及场地周边分布，创造出了多样化的疏密空间（图4）。

显示原图|下载原图ZIP|生成PPT

图4 园林布局生成与园林布局专项生成结果

Fig. 4 Results of the general generation and special generation of garden layout

值得关注的是，园林布局生成模型的生成结果与人类设计师方案完全不同，但整体空间布局是符合基本设计规律的。这与常见的深度学习任务不同，其他深度学习任务在训练过程会令算法生成结果逼近答案目标，生成结果与真实解越相似评分越高。而设计任务不追求与训练数据的高度相似性，需要在符合通用设计框架的基础上进行创新，这反映了设计任务的特殊性。

同时这也解释了CycleGAN策略应用在设计任务上的优势，CycleGAN策略不令算法生成结果逼近真实解，而是令算法先从源域图像生成目标域图像，再从目标域图像生成假源域图像，其训练规则是增加源域图像与最后的假源域图像的相似度，而不是增加目标域与真实解的相似度。这样的无监督策略，能够保证算法在维持源域和目标域对应关系时，依靠的是算法在大量数据中挖掘的隐式规律，而非直接参考答案。

3.2.2 园林布局专项生成

在园林布局生成实验中，算法直接将设计问题转化为图像生成问题。尽管最终结果显示，算法在一定程度上能够提炼设计逻辑，但缺乏可解释性。因此，本研究进行了针对性的园林布局专项生成实验，每个实验只生成单一要素，这样能够初步探索算法对各设计元素的理解程度。

专项生成结果显示，每种要素的生成结果都符合基本设计规律（图4）。在植物的专项生成中，算法可以合理地预留开放空间；在道路的专项生成中，算法生成的道路可以合理地连接各个节点；在铺装的专项生成中，算法可以考虑建筑与铺装的关系，在构筑物周边会预留一部分铺装广场；在铺装（带外环境）的专项生成中，本研究额外对比了外环境道路对铺装生成的影响，在城市道路影响下，铺装设计会考虑外环境道路与出入口关系；在构筑物的专项生成中，算法也考虑到了景观轴线的设置。

另外，由于算法挖掘的是隐式规律，而非强制的显式规则，因此不会在每个方案中出现一样的生成结果。如在构筑物布局专项生成中，并非每个方案都考虑空间轴线，但在部分结果中（如铺装专项、构筑物专项），构筑物和铺装的布局生成都会考虑空间轴线。

隐式规律也带来一些意想不到的问题。例如道路生成存在断头路的问题，生成的道路不能完整连接所有活动区域。推测这与算法基于概率分布的训练逻辑有关，其挖掘的规律是基于概率分布的规律，而非强制性的设计规则，这种训练逻辑在非强制性规范约束的任务场景中有优势，但遇到强制性规则约束的任务则难以生成合理的结果。

3.3 平面图渲染阶段结果

针对大型文生图预训练模型与GAN系列算法进行对比实验，主要从控制手段、二次预训练及微调2个方面进行对比实验。其中包括2.3节中提到的4个模块：GAN、大型文生图预训练模型、二次预训练与微调、GAN和SD模型的组合优化实验。

3.3.1 大型文生图预训练模型

大型文生图预训练模型生成图像基于文本控制，本研究比较了Midjourney、DALL-E、SD模型的平面图生成能力，发现3个模型生成的图像质量都非常高。但仅凭文本控制无法满足平面图生成更为精细的设计要求。这3个基座模型一方面未经过特定训练，无法理解平面图的含义，另一方面无法控制图像结构。

3.3.2 多种控制手段对比

图像控制问题是平面图渲染阶段极为重要的问题。SD模型为经典文生图（Txt2Img）模型，只能通过文本控制，而图生图（Img2Img）和ControlNET结合的方法大幅提升了SD模型在不同应用场景中的图像控制能力。

另外，如前文所述，大型文生图预训练模型的优势是图像质量高，GAN系列算法的优势是对专业知识的准确识别。为兼顾两者能力，本研究借鉴Img2Img方式简单改进SD模型的生成流程，将CycleGAN策略训练得到的ResNet生成器搭载在SD模型的前端，作为一种新的控制方式（图5）。

显示原图|下载原图ZIP|生成PPT

图5 风景园林平面图渲染结果

Fig. 5 Rendering results of the master plan of landscape architecture

用前述布局生成结果作为输入图像，测试GAN、Img2Img、ControlNET、GAN与SD模型的组合优化这4种方法的生成效果（图5-1）。使用Img2Img方法时，输入图像提供的是图像信息，而在ControlNET中输入图像提供的是图像结构信息，两者有本质区别。

在Img2Img方法中，模型无法从布局图像中获取充分的语义信息，输入的布局图像只提供了颜色信息，不包含其他信息，因此生成了与输入图像极其相似的结果（图5-1）。而ControlNET方法可以只限定图像结构，图像结构下的各个部分的语义信息调用的是基座模型的通用能力，因此可以在控制结构的前提下生成平面图内容。但由于ControlNET没有经过专业平面图数据训练，生成结果依然偏离设计常识（图5-1）。

而在本研究开发的GAN与SD模型的组合优化方法中，考虑到GAN的生成结果不仅包含图像结构信息，还包含图像语义信息，因此参考Img2Img方法改进。在此方法中GAN的生成结果提供专业的设计信息，SD模型仅用于补充细节，因此在两者结合下生成结果优于单独使用ControlNET方法（图5-1）。

3.3.3 二次预训练及微调

SD模型与前述LLMs类似，是经过通用数据训练的通用模型，未具备风景园林专业知识。二次预训练及微调可以为基座模型注入专业知识。与前述模型类似，数据量、数据质量制约模型效果。因此本节测试的模型包括：经过200张相似平面图训练的基座模型LA_1，经过6 000余张多样化平面图训练的基座模型LA_2，目前流行的LandscapeSuperMix基座模型（该模型经过大量风景园林图像训练，但没有专门训练平面图数据集，以下简称LS模型），以及将LS模型与本研究LA_2模型融合的综合性LA_LS模型。本节测试图像是前述场地布局生成阶段的生成结果，并采用ControlNET方法控制，不涉及GAN算法。

对比LA_1模型、LA_2模型的生成结果（图5-2），初步说明数据质量和数据量对训练模型产生的影响。

1）在数据质量（相似性）的影响下，LA_1模型风格稳定统一，LA_2模型风格更多样化。初步说明相似的数据集训练的生成效果较为统一。

2）在数据量的影响下，小样本的LA_1模型与基座模型的风格极相似，而LA_2模型更加偏离基座模型效果，贴近平面图效果。推测原因与LLMs的二次预训练类似，少量的数据训练仅培养模型性格，很难真正为模型注入新知识。

对比LA_2模型、LS模型、LA_LS模型，初步说明数据类型对训练模型产生的影响。

LS模型经过大量风景园林效果图训练，在平面图表现上较为一般；LA_2模型则是标准的平面图样式，但细节欠佳；而LA_LS模型的平面图效果明显优于LA_2模型和LS模型。推测原因在于平面图不只是一个类型图片，而是风景园林对象的一个视角的图片，因此增加其他视角的风景园林效果图的训练有助于算法模型对平面图的理解。

在本研究的其他实验中（图5-2），也更加印证了融合模型在经过综合性风景园林数据的训练下，对风景园林平面图的理解能力极强，即便在极为简单的2根线控制下依然能达到极强的生成能力，这种对平面图的理解能力和生成能力是GAN系列算法，以及本研究的改进方法所不能做到的。

3.4 效果图生成阶段结果

由于SD模型在效果图生成的应用上比较成熟，因此效果图生成阶段的分析主要围绕SD模型的应用展开，针对2个主要的研究问题：效果图风格问题和精准控制问题。效果图风格问题测试的是微调方法，精准控制问题测试的是基于ControlNET的方法。其中，精准控制问题又包括平面图空间结构对应问题和手绘草图控制问题。1）为解决平面图空间结构对应问题，本研究开发了基于Grasshopper的三维生成系统，以支持平面图三维空间结构控制；2）手绘草图控制问题包括图像布局控制和线稿控制。

3.4.1 三维空间结构控制

为解决平面图空间结构对应问题，本研究开发了基于Grasshopper的三维生成系统，该系统衔接前述布局生成阶段，基于矢量化方法将布局生成结果转化为矢量要素，再通过Grasshopper平台生成简单三维模型作为ControlNET控制条件（图6）。

显示原图|下载原图ZIP|生成PPT

图6 效果图渲染控制条件生成流程

Fig. 6 The process of generating control conditions for rendering renderings

3.4.2 多应用场景综合性对比

本研究对上述技术在效果图生成上的表现进行对比分析，控制变量确保输入图片一致（图6）。由于SD模型的应用场景较多，每个场景通常采用多技术手段组合。因此这个部分以常见应用场景为分类，包括常见的文生图、图生图、草图渲染、局部重绘四大场景。技术上组合测试LoRA微调方法、ControlNET中的线稿控制、语义分割控制（前述“三维空间结构控制”也属于语义分割控制方法），每个场景只测试各场景中常见技术组合，不是所有的技术排列组合。

1）文生图渲染。文生图场景仅测试ControlNET和LoRA微调方法的组合。与前文预期一致，ControlNET方法无论是语义分割控制还是线稿控制，均能解决图像结构控制问题。而LoRA微调可以控制生成结果的特定风格（图7）。

显示原图|下载原图ZIP|生成PPT

图7 文生图渲染结果

Fig. 7 Txt2Img rendering results

2）图生图渲染。图生图渲染综合测试ControlNET和本研究训练的所有LoRA。其中用布局图像作为控制图像时，Img2Img方法可以在没有ControlNET的控制下做到图像结构控制。而同样的方法，将线稿图像作为输入的控制图像时，模型无法准确理解生成意图，难以准确控制。这是因为线稿图像提供的图像结构信息比布局图像少，这与3.3.2节平面图生成中提到的观点相似：在Img2Img中输入图像信息详细的程度对生成结果的控制产生较大影响。这是因为Img2Img不是直接采用随机噪声Z进行扩散去噪，而是将输入图像与噪声经过Alpha混合后替代噪声Z，模型的去噪过程会携带输入图像信息（图8）。微调方面，与前述研究结果相同，LoRA技术较为灵活，可以在各种情况下准确反映预期的风格。

显示原图|下载原图ZIP|生成PPT

图8 图生图渲染结果

Fig. 8 Img2Img rendering results

3）草图渲染。草图渲染是常见的工业场景，草图渲染即基于少数几根线条直接生成目标场景图像。这个部分仅测试本研究融合的LS_LA模型和LS 模型的差异。对比3.3.3节中对于LS_LA模型在平面图生成方面的测试可以发现，LS_LA模型在经过平面图信息的训练后，虽然平面图生成能力大幅度提高，但是在效果图生成方面的能力略有减弱（图9-1）。这进一步证明无论是微调、二次预训练、还是模型融合，都会在不同程度上遇到基座模型能力丧失问题，这是预训练模型微调的共性问题。

显示原图|下载原图ZIP|生成PPT

图9 草图渲染（9-1）、涂鸦重绘与局部重绘（9-2）渲染结果

Fig. 9 Rendering results of sketch rendering (9-1), graffiti and local redrawing redrawing (9-2)

4）涂鸦重绘与局部重绘（图9-2）。局部重绘场景也是典型场景，由于其运行机制与前述场景类似，故不作详细算法对比，仅展示常见方法流程：首先将不理想的生成结果，通过增加色块涂鸦及提示词描述，让模型再次重绘渲染得到理想布局的图像。接着，通过局部重绘技术调整图像细节。最后，利用SD模型进行高清修复，得到高质量生成结果。

4 结论及展望

本研究的重点在于测试生成式算法在风景园林生成设计中各个阶段的表现，从方案文本生成、场地布局生成、平面图渲染、效果图生成4个阶段测试目前主流算法，分析目前各阶段生成任务所存在的问题。

方案文本生成阶段，LLaMA等通用大模型已展现出强大的文本推理能力。然而，尽管目前的研究通过指令微调、RAG及思维链等尝试将这些模型微调以适应特定领域，但风景园林领域的适应性研究极少。本研究测试了目前主流的二次预训练及微调、RAG、Agent方法，这3种方法各有优劣势。目前普遍认为，LLMs在下游领域的适应性研究面临2项挑战：1）存在AI幻觉，缺乏专业数据时模型无法正确理解语义信息；2）长文本理解还存在问题，模型处理多段文本信息时无法保持段落一致性。而根据本研究的初步探索，笔者认为风景园林方案文本生成是综合性任务，仅通过单纯的微调和RAG无法完全解决该阶段任务的挑战。未来的研究需要结合多种技术手段构建LLMs体系：首先，针对需要高度准确的子任务需借助知识图谱（knowledgeable graph, KG）等可解释技术开发可信的检索系统；其次，针对整个体系的基座需要数倍于10亿级高质量分类数据微调基座模型，令模型习得风景园林规划设计逻辑；最后，由于综合性的规划文本不可能一次性生成，最终模型体系的构建还需要结合Agent与思维链技术设计完整的任务规划系统。

在场地布局生成和平面图渲染阶段，早期研究多采用GAN生成平面布局，但随着SD等模型的出现，以及ControlNET技术和LoRA的使用，规划设计等行业的研究焦点从生成向渲染偏移。本研究在平面图生成的基础上比较了文生图和GAN算法，系统总结了目前主流的渲染方法。而这2个阶段的生成设计研究依然面临挑战：1）景观图像缺乏结构化关系；2）缺乏专业数据；3）图纸专业化生成能力不足；4）平面图生成多维信息的能力存在缺陷。未来研究应关注平面多维信息编码向三维向量空间的转换，实现对高层次数据的综合分析。渲染模块未来同样需要解决专业领域模型缺失、元素识别不准确和模型塌陷等问题。

在效果图生成阶段，突出问题在于平面图和效果图的对应，目前三维模型构建主要方法包括参数化^[39]、建筑信息建模（building information modeling, BIM）^[41]、点云生成^[42]及跨视角生成。与BIM等参数化方法不同，其他基于深度学习方法的生成结果通常不可编辑，限制了生成结果的后续处理流程，这也是本研究采用参数化方法的原因。但这种基于参数化的三维生成方法生成的模型较为笨重，在未来的研究中，应该关注如何跳过三维模型直接通过多模态大模型快速对应平面图信息。该类型研究属于跨视角生成设计研究，目前还处于初期阶段，主要包括2个方面问题：1）数据集缺乏；2）三维模型构建基于的图像模型在空间一致性方面存在局限性，生成图像质量的稳定性有待提高。

生成设计研究主要以辅助设计研究为主，由于规划设计专业的复杂性，设计师始终需要承担起多方沟通的桥梁角色，技术始终是辅助，使用技术的目的是提升工作效率。本研究深入讨论了各生成模型的研究现状、面临挑战以及未来发展。尽管板块各自独立，但能共同推进设计自动化的前沿研究。未来研究应聚焦于开发能连接理论与实践的计算机设计算法，保证设计方案的创新性和实用性，使人工智能算法能有效融入实际设计流程中。这种方法论的进步不仅将促进设计技术发展，也将为设计自动化开辟新的篇章。

① 本研究代码已部分开源，详见https://github.com/RanChen2/Landscape_Generation/。

② 该项目为北京林业大学园林专业课程作业使用案例。

③ 见本刊官网该文章资源附件（http://www.lalavision.com/cn/article/doi/10.3724/j.fjyl.202404120207）附录1 问题设置及打分要点。

④见本刊官网该文章资源附件附录2 LLMs基座模型生成结果。

⑤ 见本刊官网该文章资源附件附录3 人居环境LLM及植物LLM生成结果。

⑥ 见本刊官网该文章资源附件附录4 RAG检索增强生成模型生成结果。

⑦ 见本刊官网该文章资源附件附录5 Agent生成结果。

文中图表均由作者绘制。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	ZHENG Y, LIN Y, ZHAO L, et al. Spatial Planning of Urban Communities via Deep Reinforcement Learning[J]. Nature Computational Science, 2023, 3(9): 748-762. DOI

[2]	包瑞清. 基于机器学习的风景园林智能化分析应用研究[J]. 风景园林, 2019, 26(5): 29-34. BAO R Q. Research on Application of Intelligent Analysis of Landscape Architecture Based on Machine Learning[J]. Landscape Architecture, 2019, 26(5): 29-34.

[3]	包瑞清. 计算机辅助风景园林规划设计策略探讨[J]. 北京林业大学学报（社会科学版）, 2013, 12(1): 38-44. BAO R Q. Discussion on Computer-aided Landscape Planning and Design Strategy[J]. Journal of Beijing Forestry University (Social Sciences Edition), 2013, 12(1): 38-44.

[4]	蔡凌豪. 风景园林数字化规划设计概念谱系与流程图解[J]. 风景园林, 2013(1): 48-57. DOI CAI L H. Concept Pedigrees and Process Diagram of Digital Planning and Design of Landscape Architecture[J]. Landscape Architecture, 2013(1): 48-57. DOI

[5]	TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMA: Open and Efficient Foundation Language Models[EB/OL]. (2023-02-27)[2024-04-15]. https://arxiv.org/abs/2302.13971.

[6]	BI K, XIE L, ZHANG H, et al. Accurate Medium-Range Global Weather Forecasting with 3D Neural Networks[J]. Nature, 2023, 619(7970): 533-538. DOI

[7]	ZHANG Z, LYU L, MA X, et al. Fine-Mixing: Mitigating Backdoors in Fine-Tuned Language Models[C]// GOLDBERG Y, KOZAREVA Z, ZHANG Y. Findings of the Association for Computational Linguistics: EMNLP 2022. Abu Dhabi: Association for Computational Linguistics, 2022: 355-372.

[8]	LEWIS P, PEREZ E, PIKTUS A, et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks[J]. Advances in Neural Information Processing Systems, 2020, 33: 9459-9474.

[9]	QIAN C, LIU W, LIU H, et al. ChatDev: Communicative Agents for Software Development[EB/OL]. (2020-01-18)[2024-03-24]. https://arxiv.org/abs/2307.07924

[10]	JOON S P, JOSEPH O, CARRIE J C, et al. Bernstein. Generative Agents: Interactive Simulacra of Human Behavior[C]// SEAN F, JEFF H, JÜRGEN S. UIST’23: Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. New York: Association for Computing Machinery, 2023: 1-22.

[11]	HUANG W, ZHENG H. Architectural Drawings Recognition and Generation through Machine Learning[C]// ANZALONE P, SIGNORE M D, WIT A J. Proceedings of the 38th Annual Conference of the Association for Computer Aided Design in Architecture (ACADIA). Mexico City: ACADIA, 2018: 156-165.

[12]	PIZARRO P N, HITSCHFELD N, SIPIRAN I, et al. Automatic Floor Plan Analysis and Recognition[J]. Automation in Construction, 2022, 140: 104348 DOI

[13]	HU R, HUANG Z, TANG Y, et al. Graph2Plan: Learning Floorplan Generation from Layout Graphs[J]. ACM Transactions on Graphics, 2020, 39(4): 118: 1-118: 14.

[14]	LIU J, QIU Z, WANG L, et al. Intelligent Floor Plan Design of Modular High-Rise Residential Building Based on Graph-Constrained Generative Adversarial Networks[J]. Automation in Construction, 2024, 159: 105264 DOI

[15]	YE X, DU J, YE Y. Masterplangan: Facilitating the Smart Rendering of Urban Master Plans via Generative Adversarial Networks[J]. Environment and Planning B: Urban Analytics and City Science, 2022, 49(3): 794-814. DOI

[16]	周怀宇, 刘海龙. 人工智能辅助设计: 基于深度学习的风景园林平面识别与渲染[J]. 中国园林, 2021, 37(1): 56-61. ZHOU H Y, LIU H L. Artificial Intelligence-assisted Design: Landscape Plane Recognition and Rendering Based on Deep Learning[J]. Chinese Landscape Architecture, 2021, 37(1): 56-61.

[17]	CHEN R, ZHAO J, YAO X, et al. Enhancing Urban Landscape Design: A GAN-Based Approach for Rapid Color Rendering of Park Sketches[J]. Land, 2024, 13(2): 254 DOI

[18]	LIU Y, FANG C, YANG Z, et al. Exploration on Machine Learning Layout Generation of Chinese Private Garden in Southern Yangtze[C]// YUAN P F, CHAI H, YAN C, et al. Proceedings of the 2021 DigitalFUTURES. Singapore: Springer, 2022: 35-44.

[19]	陈然. 基于生成对抗网络的风景园林生成设计研究[D]. 北京: 北京林业大学, 2022. CHEN R. Research on Landscape Architecture Generation Design Based on Generative Adversarial Networks[D]. Beijing: Beijing Forestry University, 2022.

[20]	WANG S, ZENG W, CHEN X, et al. ActFloor-GAN: Activity-Guided Adversarial Networks for Human-Centric Floorplan Design[J]. IEEE Transactions on Visualization & Computer Graphics, 2023, 29(3): 1610-1624.

[21]	LIU Y, HU K, DENG Q. Evolvable Case-Based Design: An Artificial Intelligence System for Urban Form Generation with Specific Indicators[EB/OL]. (2023-12-08)[2024-03-25]. https://journals.sagepub.com/doi/abs/10.1177/23998083231219364?journalCode=epbb.

[22]	CHEN R, ZHAO J, YAO X, et al. Generative Design of Outdoor Green Spaces Based on Generative Adversarial Networks[J]. Buildings, 2023, 13(4): 1083 DOI

[23]	RAMESH A, PAVLOV M, GOH G, et al. Zero-Shot Text-to-Image Generation[C]// MARINA M, TONG Z. International Conference on Machine Learning. Virtual: PMLR, 2021: 8821-8831.

[24]	杨柳. 基于深度学习的青年公寓户型自动生成研究[D]. 广州: 华南理工大学, 2019. YANG L. Research on Automatic Generation of Youth Apartment Based on Deep Learning[D]. Guangzhou: South China University of Technology, 2020.

[25]	林文强. 基于深度学习的小学校园设计布局自动生成研究[D]. 广州: 华南理工大学, 2020. LIN W Q. Research on Automatic Generation of Primary School Campus Design Layout Based on Deep Learning[D]. Guangzhou: South China University of Technology, 2021.

[26]	冯奕凯. 基于深度学习的住宅建筑平面布局生成设计[D]. 天津: 天津大学, 2020. FENG Y. Generative Design of Residential Building Layout Based on Deep Learning[D]. Tianjin: Tianjin University, 2022.

[27]	陈然, 赵晶. 基于样式生成对抗网络的风景园林方案生成及设计特征识别[J]. 风景园林, 2023, 30(7): 12-21. DOI CHEN R, ZHAO J. Landscape Architecture Scheme Generation and Design Feature Recognition Based on Style Generation Adversarial Network[J]. Landscape Architecture, 2023, 30(7): 12-21. DOI

[28]	LUO S, TAN Y, PATIL S, et al. LCM-LoRA: A Universal Stable-Diffusion Acceleration Module[EB/OL]. (2023-11-09)[2024-03-18]. https://arxiv.org/abs/2311.05556.

[29]	RUIZ N, LI Y, JAMPANI V, et al. Dreambooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation[C]// NICOLE F. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 22500-22510.

[30]	MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. Nerf: Representing Scenes as Neural Radiance Fields for View Synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.

[31]	HUANG C, ZHANG G, YAO J, et al. Accelerated Environmental Performance-Driven Urban Design with Generative Adversarial Network[J]. Building and Environment, 2022, 224: 109575 DOI

[32]

HUANG W, ZHENG H. Architectural Drawings Recognition and Generation through Machine Learning[C]// PHILLIP A, MARCELLA D S, ANDREW J W. Acadia 2018 Recalibration: On Imprecision and Infidelity Proceedings of the 38th Annual Conference of the Association for Computer Aided Design in Architecture. Mexico City: Acadia Publishing Company, 2018: 156-165.

[33]

LIU Y, FANG C, YANG Z, et al. Exploration on Machine Learning Layout Generation of Chinese Private Garden in Southern Yangtze[C]// PHILIP F. Y, HUA C, CHAO Y, et al. Proceedings of the 2021 DigitalFUTURES: The 3rd International Conference on Computational Design and Robotic Fabrication (CDRF 2021) 3. Singapore: Springer , 2022: 35-44

[34]	LIU Y, DENG, Q, LIANG L. SchGAN: Primary School Campus Layout Generation, Intelligent Assistant for Architectural Design[EB/OL]. (2020-01-18)[2024-03-21]. https://blog.csdn.net/shadowcz007/article/details/104035601.

[35]	LI Y, LI Z, ZHANG K, et al. Chatdoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (llama) Using Medical Domain Knowledge[J]. Cureus, 2023, 15(6): e40895

[36]	DING S, CHEN X, FANG Y, et al. DesignGPT: Multi-Agent Collaboration in Design[C]// SUN L, TANG Y, CHAI C, et al. 2023 16th International Symposium on Computational Intelligence and Design (ISCID). Hangzhou: IEEE, 2023: 204-208.

[37]	HU E J, SHEN Y, WALLIS P, et al. LoRA: Low-Rank Adaptation of Large Language Models[EB/OL]. (2021-10-16)[2024-03-21]. https://arxiv.org/abs/2106.09685.

[38]	SANH V, WOLF T, RUSH A. Movement Pruning: Adaptive Sparsity by Fine-Tuning[J]. Advances in Neural Information Processing Systems, 2020, 33: 20378-20389.

[39]

LIU X, JI K, FU Y, et al. P-Tuning: Prompt Tuning Can Be Comparable to Fine-Tuning Across Scales and Tasks[C]// SMARANDA M, PRESLAV N, ALINE V. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Dublin: Association for Computational Linguistics, 2022.

[40]	ZHANG W, CAI M, ZHANG T, et al. Earthgpt: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 26: 1-20.

[41]	李磊, 卢漫, 刘宛钦, 等. BIM技术在城市园林景观竖向分析中的应用研究: 以南京市青龙绿带二期工程为例[J]. 建筑学报, 2021(S2): 18-21. LI L, LU M, LIU W Q, et al. Application of BIM Technology in Vertical Analysis of Urban Landscape: A Case Study of Nanjing Qinglong Green Belt Phase II Project[J]. Architectural Journal, 2021(S2): 18-21.

[42]	王亮. 基于倾斜影像与点云数据的古建筑三维模型构建[J]. 城市勘测, 2024(1): 103-108. DOI WANG L. Three-Dimensional Model Construction of Ancient Buildings Based on Oblique Image and Point Cloud Data[J]. Urban Survey, 2024(1): 103-108. DOI

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 相关技术综述

表1 风景园林设计方案生成 4个阶段对应的技术问题

2 风景园林方案生成技术方法

图1 风景园林方案生成各阶段算法对比测试框架（1-1）及部分生成流程（1-2）

2.1 方案文本生成阶段

图2 LLMs 对下游应用适应性调整的3种方法及其技术流程

图3 场地布局生成实验流程示例

2.2 场地布局生成阶段

2.3 平面图渲染阶段

2.4 效果图生成阶段

2.5 数据制作方法

3 结果与讨论

3.1 方案文本生成阶段结果

3.1.1 LLMs基座模型

3.1.2 二次预训练及微调

3.1.3 检索增强生成

3.1.4 多代理系统

3.2 场地布局生成阶段结果

3.2.1 园林布局生成

图4 园林布局生成与园林布局专项生成结果

3.2.2 园林布局专项生成

3.3 平面图渲染阶段结果

3.3.1 大型文生图预训练模型

3.3.2 多种控制手段对比

图5 风景园林平面图渲染结果

3.3.3 二次预训练及微调

3.4 效果图生成阶段结果

3.4.1 三维空间结构控制

图6 效果图渲染控制条件生成流程

3.4.2 多应用场景综合性对比

图7 文生图渲染结果

图8 图生图渲染结果

图9 草图渲染（9-1）、涂鸦重绘与局部重绘（9-2）渲染结果

4 结论及展望

References